Ciência, saúde e esporte: conhecimento e acessibilidade

22 a 24 de outubro de 2013

Trabalho 270

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Teoria e Tecnologia da informação
Setor Instituto de Ciências Exatas e Tecnológicas
Bolsa FAPEMIG
Conclusão de bolsa Sim
Apoio financeiro FAPEMIG
Primeiro autor Pricila Resende Rodrigues
Orientador MURILO COELHO NALDI
Título Desenvolvimento de técnicas de agrupamento aplicadas à computação em nuvem
Resumo O aumento da capacidade computacional de armazenamento de dados traz consigo novos desafios à área de mineração de dados, onde o trabalho com Big Data requer maior capacidade de processamento ao mesmo tempo em que a obtenção de resultados deve ser rápida. Neste contexto, este trabalho se propôs ao estudo ou desenvolvimento de ferramentas capazes de oferecer meios de integrar mineração de dados, computação em nuvem e Big Data. Encontrou-se na plataforma open source Apache Hadoop, técnicas eficazes para o processamento, sem a necessidade de centralização de dados ou de recursos, desenvolvidas com o uso do modelo de programação MapReduce. Além de permitir processamento paralelo, Apache Hadoop conta com uma biblioteca voltada para a aplicação de técnicas de mineração de dados de nome Apache Mahout. A execução do algoritmo de agrupamento k-médias foi realizada utilizando-se bases de dados artificiais, sendo todo o processo realizado de forma paralela. Posteriormente à mineração dos dados, faz-se necessária a validação dos resultados obtidos no agrupamento, a fim de verificar o quão similares são os objetos pertencentes a um mesmo grupo, e o quanto estes são dissimilares aos objetos de outros grupos. Durante o desenvolvimento deste trabalho, não se encontrou disponível o índice de validação de agrupamento Silhueta Simplificada para uso com Apache Hadoop. Portanto, uma das tarefas deste trabalho foi a implementação do índice de validação interno relativo Silhueta Simplificada, com o uso de MapReduce, possibilitando a execução paralela deste. Finalizada a implementação do índice de validação, este foi aplicado sob o resultado obtido na execução do k-médias. Da análise e discussão dos resultados obtidos foram satisfatórios, concluindo-se que o uso da plataforma Apache Hadoop e da biblioteca Apache Mahout é uma alternativa viável à mineração de dados em Big Data, sendo que é objetivo dos envolvidos neste trabalho não apenas o aprofundamento dos estudos nesta área, como também a contribuição técnica e científica para o desenvolvimento da área.
Palavras-chave mineração de dados, computação em nuvem, hadoop
Forma de apresentação..... Painel, Oral
Gerado em 0,64 segundos.