Resumo |
A democracia atual no Brasil tem como um de seus alicerces a transparência e publicidade de informações. Dentre estas informações, destaca-se as motivações políticas de parlamentares. Porém, averiguar de forma imparcial e assertiva os perfis de agentes políticos é não-trivial – a quantidade de dados a se levar em consideração é muito grande. Uma possível solução para o problema seria ter o auxílio de um modelo computacional que fosse capaz de replicar as condições de votação de Leis. Assim, seria possível prever os votos, e os objetivos políticos dos parlamentares se tornaria claro. Entretanto, o processo Legislativo nacional requer consideração de variáveis sociológicas, jurídicas e políticas, difíceis de serem quantificadas. Logo, foi proposta uma abordagem em que apenas os textos de justificativas de Propostas de Lei (PLs) servem como embasamento para a tomada de decisão da votação, pois estas contêm informação útil e existem em grande quantidade. Assim, foi construído um modelo de aprendizagem de máquina de Redes Neurais Artificiais (RNAs), que objetiva prever o voto de um partido dado o texto de uma PL. Foram coletados dados de duas fontes principais: o portal de busca de projetos e matérias, e a plataforma de dados abertos, ambas presentes online no site do Senado Federal. Com isso, foram elaborados dois conjuntos de dados: O conjunto 1, com informações puramente textuais de projetos e matérias, e o conjunto 2, com informações de votações nominais em Plenário. O conjunto 1 é muito extenso, e foi diminuído para 1% do seu tamanho, por limitações de hardware. Após o pré-processamento desses conjuntos, foram construídas duas RNAs: A RNA 1 objetiva aprender sintaxe e semântica de textos usando o conjunto 1, e a RNA 2 almeja combinar o texto de justificativas de PLs com os votos dos parlamentares, para aprender a fazer previsões destes votos, usando o conjunto 2. Foi feita uma Transferência de Aprendizagem (TA) da RNA 1 para a RNA 2, para garantir que a RNA 2 já tenha conhecimento prévio de interpretação textual, e que a tarefa de aprendizagem seja facilitada. Para avaliar o desempenho do modelo final, foram usadas as métricas de acurácia padrão, matriz de confusão, precisão e recall. O conjunto de testes tem 20% do tamanho do conjunto 2, e foi feita a média de 10 execuções para gerar os resultados. Também foi avaliada uma RNA com estrutura similar à RNA 2 que não conta com pré-treino. Os resultados mostraram que a acurácia padrão, precisão e recall do modelo com TA ficaram em torno de 68%, 71% e 89%, respectivamente. No modelo sem TA, esses valores foram de aproximadamente, 61%, 64% e 86%, respectivamente. Os resultados evidenciaram que o modelo teve um bom desempenho, visto que a tarefa de aprendizagem em questão é complexa. A limitação do conjunto 1 restringiu significativamente o poder de predição. Sugere-se estudos posteriores nesta abordagem, com uso técnicas para treinamento em conjuntos grandes, e com técnicas de TA mais refinadas. |