Resumo |
Os novos meios de comunicação em massa (e.g., redes sociais, aplicativos de mensagem instantânea) mudaram drasticamente a velocidade com que as informações são geradas, propagadas e consumidas pelos usuários. Diante deste cenário, um problema emergente é o abuso dessas plataformas para propagação de desinformação que, consequentemente, afeta a credibilidade do ecossistema de notícias nestes ambientes. A disseminação dessas notícias inverídicas nestas plataformas se tornou um fenômeno mundial, e são escassas as estratégias escaláveis para contenção ou mitigação do problema. Assim, o uso abordagens automáticas para detecção de desinformação em plataformas digitais pode auxiliar jornalistas e equipes de checagem de fatos no processo de identificação de um conteúdo que necessite ser verificado. Neste contexto, essa pesquisa tem como objetivo investigar o potencial de estratégias de aprendizado de máquina para a construção de soluções práticas para detecção automática de desinformação disseminada em plataformas digitais. Especificamente, realizou-se uma revisão da literatura com objetivo de identificar atributos e conjuntos de dados explorados para estudo do fenômeno da desinformação. Depois disso, parte dos atributos identificados foram implementados e investigou-se o potencial de subconjuntos de atributos na tarefa de identificar um conteúdo contendo desinformação. Aqui, a ideia é investigar se existe uma abordagem com menor custo computacional (i.e., que use um menor conjunto de atributos) que possa viabilizar a aplicação de uma abordagem para identificação de desinformação na prática. Nas análises preliminares explorou-se abordagens como i)k-Nearest Neighbors (KNN); ii)Naive Bayes (NB); iii)Random Forests (RF); iv)non-linear Support Vector Machine with Radial Basis Function (SVM); e v)XGBoost (XGB), para geração de modelos cujo desempenho foi mensurado a partir de métricas como AUC e Macro-F1. De forma geral, os resultados iniciais apresentam evidências de que o XGB é classificador mais robusto para esta tarefa capaz de gerar modelos com desempenho satisfatório explorando um número menor de atributos em comparação com atributos e abordagens explorados em trabalhos anteriores. |