Resumo |
As tecnologias de armazenamento de dados atuais permitem o acúmulo de grandes quantidades de dados, além disso a popularização de redes sociais incentiva milhares de usuários comuns a produzirem bilhões de versões digitais de vídeos, fotos, áudio e textos, caracterizando o conceito de Big Data. Com o uso de técnicas de Mineração de Dados é possível trabalhar com previsões de resultado e encontrar padrões ignorados, de forma que as informações obtidas a partir do processamento desses dados possam ser usadas em diversas aplicações, como marketing, pesquisas sócio-economicas e comportamentais. Contudo, lidar com Big Data é um dos desafios mais importantes para as técnicas de agrupamento e validação, uma vez que há a necessidade de computadores robustos para o processamento e análise dos dados. Nesse contexto, novos sistemas distribuídos foram projetados para ampliar de um único servidor para milhares de máquinas, um exemplo é a plataforma Hadoop, que é baseada em um framework open source capaz de escrever e processar grandes quantidades de dados em sistemas distribuídos. Com o modelo de programação MapReduce, é possível dividir um trabalho e combinar os resultados de forma integrada. Tendo em vista a necessidade de técnicas capazes de realizarem a Mineração de Dados em conjuntos Big Data, é proposto neste trabalho o agrupamento de conjuntos de dados reais e posteriormente a validação dos mesmos. Propõem-se a realização do agrupamento com o uso de uma versão do algoritmo KMeans, desenvolvido sob o modelo de programação MapReduce, onde este é capaz de executar paralelamente múltiplos KMeans com diferentes inicializações e números de grupos. Objetivando incorporar o índice de validação Silhueta Simplificada ao modelo de programação MapReduce, o algoritmo MapReduce Multiple Simplified Silhouette (MRMSS) é proposto neste trabalho. O algoritmo MRMSS será desenvolvido de forma a possibilitar sua múltipla execução em paralelo, sendo capaz de validar os múltiplos agrupamentos resultantes da execução do algoritmo KMeans. Os agrupamentos encontrados serão validados pelo algoritmo proposto e experimentalmente comparados com o algoritmo índice de Silhueta Simplificada. |