Simpósio de Integração Acadêmica - Universidade Federal de Viçosa

Das Montanhas de Minas ao Oceano: Os Caminhos da Ciência para um Futuro Sustentável

20 a 25 de outubro de 2025

Trabalho 21472

ISSN	2237-9045
Instituição	Universidade Federal de Viçosa
Nível	Graduação
Modalidade	Pesquisa
Área de conhecimento	Ciências Exatas e Tecnológicas
Área temática	Dimensões Econômicas: ODS9
Setor	Departamento de Informática
Bolsa	CNPq
Conclusão de bolsa	Sim
Apoio financeiro	CNPq
Primeiro autor	Isabela de Castro Freitas
Orientador	RICARDO DOS SANTOS FERREIRA
Outros membros	Olavo Alves Barros Silva, Pedro Henrique Coura Pereira
Título	Análise de Desempenho de Algoritmos de Aprendizado de Máquina com GPU e Estratégias de Seleção de Atributos
Resumo	O avanço tecnológico em áreas como inteligência artificial, ciência de dados e outras que utilizam métodos de aprendizado de máquina tem impulsionado a demanda por soluções cada vez mais eficientes. Com o constante aumento no volume de dados a serem processados, torna-se essencial otimizar a execução dos algoritmos de aprendizado. Este trabalho investiga o uso de unidades de processamento gráfico (GPUs) como forma de acelerar algoritmos como Random Forest, K-means e XGBoost em ambientes de execução paralela. Para isso, são exploradas duas abordagens principais: a primeira utiliza bibliotecas otimizadas para GPU como cuML e scikit-learn na linguagem Python; a segunda consiste em implementações diretas com CUDA, por meio de extensões da linguagem C++, de modo a possibilitar um maior controle sobre a execução paralela. A pesquisa foi conduzida por meio de experimentos organizados em notebooks no Google Colab, utilizando conjuntos de dados sintéticos, gerados através da função “make_classification” da biblioteca scikit-learn do Python, com variações no número de amostras e de atributos, além do dataset real SUSY, amplamente utilizado em benchmarks de aprendizado de máquina. Os experimentos avaliaram métricas como acurácia e tempo de execução, com o objetivo de analisar os impactos da paralelização em diferentes contextos e identificar quais métodos se mostram mais adequados para diferentes tipos de dados e objetivos (eficiência vs. precisão). Além disso, o projeto incluiu um estudo complementar voltado à otimização da seleção de atributos. Para isso, foi utilizado um dataset sintético com 100 mil amostras e número variado de atributos, com o objetivo de avaliar o desempenho de modelos construídos a partir de subconjuntos compostos por apenas três atributos, em contraste com o uso de todas as features disponíveis. Em cada combinação possível, aplicou-se o algoritmo K-means e calculou-se o índice de Gini dos clusters gerados, como medida de pureza. Em seguida, o classificador XGBoost foi treinado utilizando os rótulos atribuídos pelo K-means como entrada. Este estudo busca validar a hipótese de que clusters mais puros, indicados por menores índices de Gini, tendem a estar associados a classificadores com maior acurácia. Também se investiga se a seleção de subconjuntos com melhor desempenho em acurácia de treino é uma estratégia eficaz para alcançar bons resultados em acurácia de teste, promovendo modelos simultaneamente eficientes e performáticos, visto que ao restringir o número de atributos utilizados, priorizando os melhores, ocorre uma redução no número de dados a ser processados e uma consequente redução do tempo de execução, mantendo ainda métricas de desempenho satisfatórias. Este projeto foi financiado pelo programa institucional de Bolsa de IC (PIBIC) do CNPq no edital 2024-2025 da UFV.
Palavras-chave	Kmeans, XGBoost, GPU
Forma de apresentação.....	Painel

Link para apresentação	Painel

Universidade Federal de Viçosa

Gerado em 0,64 segundos.