Resumo |
O Big Data tem sido um grande desafio na área da Computação, pois a manipulação desses dados é complexa e exige métodos automáticos capazes de processar grande volume de dados. Deste modo, novas tecnologias surgem com o intuito de auxiliar a distribuição de um problema entre várias máquinas. O paradigma de programação MapReduce possibilita um novo horizonte para o processamento paralelo e distribuído. O algoritmo MRM-Kmeans é um algoritmo escrito na plataforma MapReduce e seu princial objetivo é solucionar dois problemas do algoritmo K-means, que é um algoritmo de agrupamento bem conhecido na área de Mineração de Dados, esses problemas são: determinar o número de grupos ideal e a posição dos protótipos iniciais de cada grupo. O MRM-Kmeans executa várias iterações de múltiplos algoritmos K-means com uma única iteração MapReduce. Esse algoritmo seleciona o melhor resultado a partir de uma técnica validação de resultados utilizando o índice silhueta, isso permite encontrar a melhor partição, sendo cada partição uma execução K-means. Porém, selecionar a melhor partição não garante que o resultado seja satisfatório, por isso usar a técnica de combinação que permite combinar os resultados de todas partições de forma mais robusta e que tenha um desempenho médio melhor que o obtido. O algoritmo de combinação utilizado é o MCLA(Meta-Clustering Algorithm), nele os clusters são representados como um metagrafo, onde cada vértice corresponde a um cluster. Depois é feito um particionamento desse metagrafo deixando os clusters correspondentes em um mesmo grupo, formando os metaclusters. Em seguida é feito um agrupamento em que os objetos são atribuídos ao metacluster que ele mais se associa. Este trabalho tem como contribuição a análise da aplicação do algoritmo de combinação MCLA (Meta-clustering Algorithm) sobre o resultado do algoritmo de agrupamento MRM-Kmeans de forma a obter melhores resultados. Depois de realizada as experimentações o resultado foi satisfatório, pois ficou comprovado que a técnica de combinação melhora significativamente o resultado do algoritmo MRM-Kmeans. |