Resumo |
A Inteligência Artificial (IA), é um ramo da Ciência da Computação, voltada para solução de problemas complexos. Uma subárea da IA é o Processamento de Linguagem Natural (PLN) cujo objetivo é tratar, computacionalmente, textos escritos em linguagem natural. Dentre os temas na área de interesse do PLN existe o da classificação de lexemas e, particularmente, o da classificação entidades nomeadas em relação ao gênero, isto é, flexões em feminino ou masculino. No âmbito da IA, ressalta-se que o reconhecimento automático do gênero de um nome pode ser útil para proporcionar um tratamento de alto nível ao usuário, como por exemplo em aplicativos e sistemas em geral. Dito isto, teve-se como objetivo treinar classificadores para determinar automaticamente o gênero de substantivos próprios (nomes) brasileiros. Usou-se como ferramentas recursos disponíveis no NLTK (Natural Language Toolkit) para a linguagem Python, que é um conjunto de bibliotecas considerada uma das melhores ferramentas para o PLN. A classificação em IA é a atribuição de elementos a categorias predefinidas arbitrárias baseando-se em um conjunto de dados de treinamento similares. Assim sendo, coletou-se nomes populares no Brasil disponíveis em endereços na web e construiu-se um corpus com 4133 nomes masculinos e outro com 3340 nomes femininos, fazendo a tokenização e ordenação desses com o NLTK. O corpus serviu para a geração de 7469 features, com 5 diferentes combinações considerando as primeiras e últimas letras. Por fim, foram realizados testes com dois classificadores diferentes, um baseado no conceito de Máxima Entropia (variando para cada feature o número de iterações) e o outro no Teorema da Probabilidade de Bayes (repetindo o teste quatro vezes para cada feature), disponíveis na biblioteca NLTK para a linguagem Python. Em termos de acurácia, o melhor resultado foi obtido no modelo de máxima entropia com 400 iterações utilizando três features (primeira, duas últimas e três últimas letras), que atingiu uma acurácia de 0,91. No entanto, o classificador bayesiano obteve um resultado muito próximo, atingindo uma acurácia de 0,905 ao considerar duas features (a primeira e as duas últimas letras). Com isso, conclui-se que o classificador baseado no modelo de Máxima Entropia apresenta melhores resultados nas condições descritas, destacando que a possibilidade de determinar o gênero de um nome computacionalmente, sem que haja a necessidade de informações fornecidas manualmente pelo usuário, é pertinente ao campo da IA no processo de interação humano-computador. |