SOFTWARE

MAROQUEIRO – IDENTIFICADOR DE GÍRIAS UTILIZANDO REDES NEURAIS RECORRENTES

Resumo

O programa é colocado em um notebook, ou seja, ele é lido através de um interpretador interativo. Inicialmente é feita a leitura das bibliotecas que vão ser utilizadas para fazer as funções, que são: spacy, numpy, keras, pickle, nltk e pandas. Seguindo, há o processo de inserção de um corpus que contenham palavras em portugês para que ele possa ser alocado em uma função que irá prepará-lo em sequências para treinamento, que é o processo de dividir uma frase em palavras ou tokens individuais (tokenização). Em seguida, é feita a definição do modelo de rede neural recorrente que será usado (RNN, LSTM ou GRU) e seu formato (unidirecional ou bidirecional), para compilar, treinar e salvar um modelo baseado em um de redes recorrentes. Depois, será utilizado esse modelo gerado no processo anterior para poder gerar embeddings para palavras desconhecidas pelos modelos tradicionais, que nesse programa é usado o Glove (padrão da biblioteca spacy). Esse processo de identificação de embeddings para as palavras desconhecidas precisa que seja usado uma frase que contenha esse tipo de palavra para que o modelo possa achar o seu vetor mediante o contexto. Como modo de verificação de uma correta assimilação vetorial, será utilizado posteriormente uma função para verificar similaridade entre palavras e a marcação gramatical da palavra antes desconhecida.

Solução Proposta

O programa consegue identificar palavras desconhecidas e ao mesmo tempo incluí-las em um espaço vetorial.

Autor

ANTONIO FERNANDO LAVAREDA JACOB JUNIOR / FABIO MANOEL FRANÇA LOBATO / PAULA MYRIAN LIMA PEDRO

Propriedade Intelectual

BR512022003267-8

Campo de Aplicação

CO-03; CO-04; IF-02; IF-10

Tipo de programa

FA-02; IA-03; TC-03

Linguagem de programação

PYTHON



Contato

E-mail: coordenacao@propriedadeintelectual.uema.br
Telefone: (98) 99131-0337