Ciência para a Redução das Desigualdades

15 a 20 de outubro de 2018

Trabalho 9689

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Engenharia/Tecnologia
Setor Departamento de Informática
Bolsa PIBIC/CNPq
Conclusão de bolsa Sim
Apoio financeiro CNPq
Primeiro autor Salatiele Honorato da Silva
Orientador ALCIONE DE PAIVA OLIVEIRA
Título Treinamento ​​de ​classificadores​ ​com​ corpus ​​de nomes brasileiros
Resumo A Inteligência Artificial (IA), é um ramo da Ciência da Computação, voltada para solução de problemas complexos. Uma subárea da IA é o Processamento de Linguagem Natural (PLN) cujo objetivo é tratar, computacionalmente, textos escritos em linguagem natural. Dentre os temas na área de interesse do PLN existe o da classificação de lexemas e, particularmente, o da classificação entidades nomeadas em relação ao gênero, isto é, flexões em feminino ou masculino. No âmbito da IA, ressalta-se que o reconhecimento automático do gênero de um nome pode ser útil para proporcionar um tratamento de alto nível ao usuário, como por exemplo em aplicativos e sistemas em geral. Dito isto, teve-se como objetivo treinar classificadores para determinar automaticamente o gênero de substantivos próprios (nomes) brasileiros. Usou-se como ferramentas recursos disponíveis no NLTK (Natural Language Toolkit) para a linguagem Python, que é um conjunto de bibliotecas considerada uma das melhores ferramentas para o PLN. A classificação em IA é a atribuição de elementos a categorias predefinidas arbitrárias baseando-se em um conjunto de dados de treinamento similares. Assim sendo, coletou-se nomes populares no Brasil disponíveis em endereços na web e construiu-se um corpus com 4133 nomes masculinos e outro com 3340 nomes femininos, fazendo a tokenização e ordenação desses com o NLTK. O corpus serviu para a geração de​ ​7469 ​features, com 5 diferentes combinações considerando as primeiras e últimas letras. Por fim, foram realizados testes com dois classificadores diferentes, um baseado no conceito de Máxima Entropia (variando para cada feature o número de iterações) e o outro no Teorema da Probabilidade de Bayes ​​(repetindo o teste quatro vezes para cada feature), disponíveis na biblioteca NLTK para a linguagem Python.​ Em termos de acurácia, o melhor resultado foi obtido no modelo de máxima entropia com 400 iterações utilizando três features (primeira, duas últimas e três últimas letras), que atingiu uma acurácia de 0,91. No entanto, o classificador bayesiano obteve um resultado muito próximo, atingindo uma acurácia de 0,905 ao considerar duas features (a primeira e as duas últimas letras). Com isso, conclui-se que o classificador baseado no modelo de Máxima Entropia apresenta melhores resultados nas condições descritas, destacando que a possibilidade de determinar o gênero de um nome computacionalmente, sem que haja a necessidade de informações fornecidas manualmente pelo usuário, é pertinente ao campo da IA no processo de interação humano-computador.
Palavras-chave PLN, Classificação Automática, Gênero de Nomes Próprios
Forma de apresentação..... Painel
Gerado em 0,69 segundos.