Resumo |
O aumento da capacidade computacional de armazenamento de dados traz consigo novos desafios à área de mineração de dados, onde o trabalho com Big Data requer maior capacidade de processamento ao mesmo tempo em que a obtenção de resultados deve ser rápida. Neste contexto, este trabalho se propôs ao estudo ou desenvolvimento de ferramentas capazes de oferecer meios de integrar mineração de dados, computação em nuvem e Big Data. Encontrou-se na plataforma open source Apache Hadoop, técnicas eficazes para o processamento, sem a necessidade de centralização de dados ou de recursos, desenvolvidas com o uso do modelo de programação MapReduce. Além de permitir processamento paralelo, Apache Hadoop conta com uma biblioteca voltada para a aplicação de técnicas de mineração de dados de nome Apache Mahout. A execução do algoritmo de agrupamento k-médias foi realizada utilizando-se bases de dados artificiais, sendo todo o processo realizado de forma paralela. Posteriormente à mineração dos dados, faz-se necessária a validação dos resultados obtidos no agrupamento, a fim de verificar o quão similares são os objetos pertencentes a um mesmo grupo, e o quanto estes são dissimilares aos objetos de outros grupos. Durante o desenvolvimento deste trabalho, não se encontrou disponível o índice de validação de agrupamento Silhueta Simplificada para uso com Apache Hadoop. Portanto, uma das tarefas deste trabalho foi a implementação do índice de validação interno relativo Silhueta Simplificada, com o uso de MapReduce, possibilitando a execução paralela deste. Finalizada a implementação do índice de validação, este foi aplicado sob o resultado obtido na execução do k-médias. Da análise e discussão dos resultados obtidos foram satisfatórios, concluindo-se que o uso da plataforma Apache Hadoop e da biblioteca Apache Mahout é uma alternativa viável à mineração de dados em Big Data, sendo que é objetivo dos envolvidos neste trabalho não apenas o aprofundamento dos estudos nesta área, como também a contribuição técnica e científica para o desenvolvimento da área. |