Resumo |
O aprendizado estatístico de máquinas mais conhecido por aprendizado de máquinas, Machine Learning (ML), é uma área que surgiu em um passado recente na qual consiste de modelos matemático-estatístico-computacionais onde vem sendo bastante pesquisada e aplicada no mercado financeiro para análise de score, inteligência artificial, na área da medicina para desfechos clínicos, entre outras. Dentro da área de ML há o Processamento de Linguagem Natural, Natural Language Processing (NLP), que procura compreender e analisar textos ou áudios de linguagens verbais e não-verbais onde podemos utiliza-lo para retirar sentimentos destes, qual técnica é denominada de Análise de Sentimentos. O objetivo do projeto é aplicar técnicas de ML e NLP em discursos redigidos visando buscar compreender a relação com a presença e gravidade de problemas de saúde mental, como depressão e ansiedade através da Análise de Sentimentos, buscamos também contribuir para o avanço da área na língua portuguesa, ampliando as aplicações no Brasil, já que são quase em sua totalidade na língua inglesa. Para aplicarmos estas técnicas é necessário que tenhamos ferramentas com tal poder e, para isso utilizamos a linguagem de programação Python. O Python é uma linguagem de programação de alto nível de fácil aprendizagem que oferece bibliotecas criadas pela comunidade com diversas funcionalidades como criação de gráficos, utilização de modelos estatísticos, manipulação de dados, Machine Learning e Natural Language Processing. Utilizaremos as bibliotecas criadas com foco em NLP que são a NLTK e a SpaCy, visto que elas possuem ferramentas para auxiliar à remoção de caracteres especiais, normalização, tokenização, stemming e remoção de stopwords. Com os textos pré-processados iremos utilizar técnicas estatísticas para dar importância as palavras como o Term Frequency–Inverse Document Frequency (TF-IDF) onde ele calcula a relevância de um termo em um certo texto ou conjunto de textos. Iremos apresentar os conceitos iniciais de Machine Learning e Natural Language Processing através de diferentes métodos aplicados a dados públicos, os resultados dos estudos até o momento e os próximos estudos do projeto sendo este parte de um projeto maior e ambicioso, que tem como meta criar uma ferramenta capaz de “ouvir” e prever casos de psicopatologias como a depressão, a partir do uso da Matemática, Estatística e Computação. |