Simpósio de Integração Acadêmica - Universidade Federal de Viçosa

Ciência, saúde e esporte: conhecimento e acessibilidade

22 a 24 de outubro de 2013

Trabalho 270

ISSN	2237-9045
Instituição	Universidade Federal de Viçosa
Nível	Graduação
Modalidade	Pesquisa
Área de conhecimento	Ciências Exatas e Tecnológicas
Área temática	Teoria e Tecnologia da informação
Setor	Instituto de Ciências Exatas e Tecnológicas
Bolsa	FAPEMIG
Conclusão de bolsa	Sim
Apoio financeiro	FAPEMIG
Primeiro autor	Pricila Resende Rodrigues
Orientador	MURILO COELHO NALDI
Título	Desenvolvimento de técnicas de agrupamento aplicadas à computação em nuvem
Resumo	O aumento da capacidade computacional de armazenamento de dados traz consigo novos desafios à área de mineração de dados, onde o trabalho com Big Data requer maior capacidade de processamento ao mesmo tempo em que a obtenção de resultados deve ser rápida. Neste contexto, este trabalho se propôs ao estudo ou desenvolvimento de ferramentas capazes de oferecer meios de integrar mineração de dados, computação em nuvem e Big Data. Encontrou-se na plataforma open source Apache Hadoop, técnicas eficazes para o processamento, sem a necessidade de centralização de dados ou de recursos, desenvolvidas com o uso do modelo de programação MapReduce. Além de permitir processamento paralelo, Apache Hadoop conta com uma biblioteca voltada para a aplicação de técnicas de mineração de dados de nome Apache Mahout. A execução do algoritmo de agrupamento k-médias foi realizada utilizando-se bases de dados artificiais, sendo todo o processo realizado de forma paralela. Posteriormente à mineração dos dados, faz-se necessária a validação dos resultados obtidos no agrupamento, a fim de verificar o quão similares são os objetos pertencentes a um mesmo grupo, e o quanto estes são dissimilares aos objetos de outros grupos. Durante o desenvolvimento deste trabalho, não se encontrou disponível o índice de validação de agrupamento Silhueta Simplificada para uso com Apache Hadoop. Portanto, uma das tarefas deste trabalho foi a implementação do índice de validação interno relativo Silhueta Simplificada, com o uso de MapReduce, possibilitando a execução paralela deste. Finalizada a implementação do índice de validação, este foi aplicado sob o resultado obtido na execução do k-médias. Da análise e discussão dos resultados obtidos foram satisfatórios, concluindo-se que o uso da plataforma Apache Hadoop e da biblioteca Apache Mahout é uma alternativa viável à mineração de dados em Big Data, sendo que é objetivo dos envolvidos neste trabalho não apenas o aprofundamento dos estudos nesta área, como também a contribuição técnica e científica para o desenvolvimento da área.
Palavras-chave	mineração de dados, computação em nuvem, hadoop
Forma de apresentação.....	Painel, Oral

Universidade Federal de Viçosa

Gerado em 0,76 segundos.