Resumo |
Atualmente o futebol é o esporte mais popular no mundo, gerando grandes impactos sociais em diversos países, tanto em aspectos culturais como econômicos. Diante disso, existe um grande interesse na projeção de resultados futuros em torno desse esporte, tornando o futebol alvo de inúmeras discussões e especulações. Essas projeções, advindas sobretudo de veículos de comunicação, geralmente partem de dados básicos e empirismo, tornando-as enviesadas. Esse viés pode ser explicado por diversos fatores, tais como: parcialidade por parte dos indivíduos por trás dessas projeções e a influência que determinados clubes detêm sobre esses meios de comunicação. No Brasil, a maior competição que envolve o desporto é o Campeonato Brasileiro de Futebol. A fim de amenizar esse viés e tratar o problema de maneira mais objetiva, este trabalho avaliou modelos de Aprendizado de Máquina com o intuito de estimar a pontuação final das equipes, buscando projetar a classificação final do Campeonato Brasileiro antes do término do mesmo, de modo a predizer o campeão, clubes classificados para competições internacionais e clubes rebaixados para divisões inferiores, bem como classificar resultados de partidas futuras em vitória do time mandante, empate ou vitória do time visitante. Para isso, foi utilizada uma base de dados contendo resultados e estatísticas de partidas do Campeonato Brasileiro de Futebol de 2003 a 2019. O método adotado seguiu o Processo de Descoberto de Conhecimento em Bases de Dados (KDD). Para a abordagem de classificação, foi aplicado o método de amostragem SMOTE com a finalidade de obter o balanceamento das classes. Além disso, foi feita a seleção dos atributos mais relevantes para redução de dimensionalidade e adotada a abordagem One-Vs-Rest para as previsões. Para o problema de regressão, foram feitas estimações em diversos pontos da competição a partir da 19ª rodada (a competição tem um total de 38 rodadas). O melhor modelo para tarefa de regressão, projetando a tabela final da competição a partir da 31ª rodada, obteve Root Mean Square Error (RMSE) de 3.48 pontos. Já para tarefa de classificação, com intuito de predizer resultados de partidas, o algoritmo XGBoost obteve um F1-Score e acurácia de 0.62. Em ambos os cenários foi utilizada a Validação Cruzada. Com isso, concluiu-se que métodos de Aprendizado de Máquina podem contribuir no problema de estimação de desempenho e predição de partidas futuras dos clubes em campeonatos de futebol, bem como auxiliar na tomada de decisão por parte das equipes e das e pessoas que acompanham a competição, além de prover um meio objetivo para apoiar projeções realizadas por veículos de comunicação. |