| ISSN | 2237-9045 |
|---|---|
| Instituição | Universidade Federal de Viçosa |
| Nível | Graduação |
| Modalidade | Pesquisa |
| Área de conhecimento | Ciências Exatas e Tecnológicas |
| Área temática | Dimensões Econômicas: ODS9 |
| Setor | Departamento de Informática |
| Bolsa | CNPq |
| Conclusão de bolsa | Sim |
| Apoio financeiro | CNPq |
| Primeiro autor | Isabela de Castro Freitas |
| Orientador | RICARDO DOS SANTOS FERREIRA |
| Outros membros | Olavo Alves Barros Silva, Pedro Henrique Coura Pereira |
| Título | Análise de Desempenho de Algoritmos de Aprendizado de Máquina com GPU e Estratégias de Seleção de Atributos |
| Resumo | O avanço tecnológico em áreas como inteligência artificial, ciência de dados e outras que utilizam métodos de aprendizado de máquina tem impulsionado a demanda por soluções cada vez mais eficientes. Com o constante aumento no volume de dados a serem processados, torna-se essencial otimizar a execução dos algoritmos de aprendizado. Este trabalho investiga o uso de unidades de processamento gráfico (GPUs) como forma de acelerar algoritmos como Random Forest, K-means e XGBoost em ambientes de execução paralela. Para isso, são exploradas duas abordagens principais: a primeira utiliza bibliotecas otimizadas para GPU como cuML e scikit-learn na linguagem Python; a segunda consiste em implementações diretas com CUDA, por meio de extensões da linguagem C++, de modo a possibilitar um maior controle sobre a execução paralela. A pesquisa foi conduzida por meio de experimentos organizados em notebooks no Google Colab, utilizando conjuntos de dados sintéticos, gerados através da função “make_classification” da biblioteca scikit-learn do Python, com variações no número de amostras e de atributos, além do dataset real SUSY, amplamente utilizado em benchmarks de aprendizado de máquina. Os experimentos avaliaram métricas como acurácia e tempo de execução, com o objetivo de analisar os impactos da paralelização em diferentes contextos e identificar quais métodos se mostram mais adequados para diferentes tipos de dados e objetivos (eficiência vs. precisão). Além disso, o projeto incluiu um estudo complementar voltado à otimização da seleção de atributos. Para isso, foi utilizado um dataset sintético com 100 mil amostras e número variado de atributos, com o objetivo de avaliar o desempenho de modelos construídos a partir de subconjuntos compostos por apenas três atributos, em contraste com o uso de todas as features disponíveis. Em cada combinação possível, aplicou-se o algoritmo K-means e calculou-se o índice de Gini dos clusters gerados, como medida de pureza. Em seguida, o classificador XGBoost foi treinado utilizando os rótulos atribuídos pelo K-means como entrada. Este estudo busca validar a hipótese de que clusters mais puros, indicados por menores índices de Gini, tendem a estar associados a classificadores com maior acurácia. Também se investiga se a seleção de subconjuntos com melhor desempenho em acurácia de treino é uma estratégia eficaz para alcançar bons resultados em acurácia de teste, promovendo modelos simultaneamente eficientes e performáticos, visto que ao restringir o número de atributos utilizados, priorizando os melhores, ocorre uma redução no número de dados a ser processados e uma consequente redução do tempo de execução, mantendo ainda métricas de desempenho satisfatórias. Este projeto foi financiado pelo programa institucional de Bolsa de IC (PIBIC) do CNPq no edital 2024-2025 da UFV. |
| Palavras-chave | Kmeans, XGBoost, GPU |
| Forma de apresentação..... | Painel |
| Link para apresentação | Painel |
|---|