Das Montanhas de Minas ao Oceano: Os Caminhos da Ciência para um Futuro Sustentável

20 a 25 de outubro de 2025

Trabalho 21472

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Dimensões Econômicas: ODS9
Setor Departamento de Informática
Bolsa CNPq
Conclusão de bolsa Sim
Apoio financeiro CNPq
Primeiro autor Isabela de Castro Freitas
Orientador RICARDO DOS SANTOS FERREIRA
Outros membros Olavo Alves Barros Silva, Pedro Henrique Coura Pereira
Título Análise de Desempenho de Algoritmos de Aprendizado de Máquina com GPU e Estratégias de Seleção de Atributos
Resumo O avanço tecnológico em áreas como inteligência artificial, ciência de dados e outras que utilizam métodos de aprendizado de máquina tem impulsionado a demanda por soluções cada vez mais eficientes. Com o constante aumento no volume de dados a serem processados, torna-se essencial otimizar a execução dos algoritmos de aprendizado. Este trabalho investiga o uso de unidades de processamento gráfico (GPUs) como forma de acelerar algoritmos como Random Forest, K-means e XGBoost em ambientes de execução paralela. Para isso, são exploradas duas abordagens principais: a primeira utiliza bibliotecas otimizadas para GPU como cuML e scikit-learn na linguagem Python; a segunda consiste em implementações diretas com CUDA, por meio de extensões da linguagem C++, de modo a possibilitar um maior controle sobre a execução paralela.
A pesquisa foi conduzida por meio de experimentos organizados em notebooks no Google Colab, utilizando conjuntos de dados sintéticos, gerados através da função “make_classification” da biblioteca scikit-learn do Python, com variações no número de amostras e de atributos, além do dataset real SUSY, amplamente utilizado em benchmarks de aprendizado de máquina. Os experimentos avaliaram métricas como acurácia e tempo de execução, com o objetivo de analisar os impactos da paralelização em diferentes contextos e identificar quais métodos se mostram mais adequados para diferentes tipos de dados e objetivos (eficiência vs. precisão).
Além disso, o projeto incluiu um estudo complementar voltado à otimização da seleção de atributos. Para isso, foi utilizado um dataset sintético com 100 mil amostras e número variado de atributos, com o objetivo de avaliar o desempenho de modelos construídos a partir de subconjuntos compostos por apenas três atributos, em contraste com o uso de todas as features disponíveis. Em cada combinação possível, aplicou-se o algoritmo K-means e calculou-se o índice de Gini dos clusters gerados, como medida de pureza. Em seguida, o classificador XGBoost foi treinado utilizando os rótulos atribuídos pelo K-means como entrada. Este estudo busca validar a hipótese de que clusters mais puros, indicados por menores índices de Gini, tendem a estar associados a classificadores com maior acurácia. Também se investiga se a seleção de subconjuntos com melhor desempenho em acurácia de treino é uma estratégia eficaz para alcançar bons resultados em acurácia de teste, promovendo modelos simultaneamente eficientes e performáticos, visto que ao restringir o número de atributos utilizados, priorizando os melhores, ocorre uma redução no número de dados a ser processados e uma consequente redução do tempo de execução, mantendo ainda métricas de desempenho satisfatórias. Este projeto foi financiado pelo programa institucional de Bolsa de IC (PIBIC) do CNPq no edital 2024-2025 da UFV.
Palavras-chave Kmeans, XGBoost, GPU
Forma de apresentação..... Painel
Link para apresentação Painel
Gerado em 0,63 segundos.