Resumo |
Existe uma crescente necessidade de meios para armazenar, distribuir e processar grandes conjuntos de dados. Também é preciso que tais dados sejam analisados. Este trabalho apresenta um método para a realização da mineração de dados em um ambiente de computação em nuvem, onde todo o processamento dos dados é realizado por meio de um sistema de arquivos distribuídos. O objetivo geral consiste na pesquisa, desenvolvimento e implementação de uma plataforma capaz de prover serviços e gerenciar os recursos necessários para a aplicação de técnicas de mineração de dados. Para isso, uma plataforma o Hadoop, uma plataforma distribuída da Apache baseado na tecnologia MapReduce foi utilizada para fins de construção de uma infraestrutura semelhante a utilizadas em computação em nuvens. De forma possibilitar o uso da mineração de dados, a biblioteca Mahout foi utilizada, onde se encontra o algoritmo de agrupamento k-médias, dentre outros. Este algoritmo é usado nos experimentos desenvolvidos neste trabalho. Por meio das bibliotecas do Hadoop e do Mahout a técnica de validação de agrupamento VRC (Variance Ratio Criterion) foi implementada e, a partir delas, tornou-se possível validar e auxiliar na avaliação dos agrupamentos obtidos com o algoritmo k-médias. Separadamente do VRC, é recolhido dos resultados do agrupamento do K-médias o centroide e o valor de cada objeto, com isto, o valor dos centroides dos objetos é calculado para utilização, pois o VRC baseado em MapReduce necessita dos valores dos centroides anteriormente ao Map. O Map realiza a leitura de cada objeto um por um dando início aos cálculos do VRC tendo sua saída no formato de Key, Value (Id do Centroide, valor do cálculo realizado com o objeto da vez) para o Reduce. O Reduce, ocorre uma vez para cada centroide tendo entrada no formato Key, Value (Id do Centroide, União de todos os resultados que foram calculados com este centroide durante o Map), ele finaliza os cálculos do Map realiza o final dos cálculos e gera o resultado do VRC. Conjuntos de dados artificiais foram gerados de forma a simular grupos com formatos aproximadamente hiper-elipsoidais e distribuição gaussianas. Os resultados dos experimentos foram avaliados em termos de tempo de execução e qualidade do agrupamento obtido. Com o uso de bases de dados artificial, o número de grupos a ser encontrado é previamente conhecido, permitindo analisar o quanto os resultados dos experimentos se aproximaram dos valores naturais do conjunto de dados. A tarefa de mineração de dados em Big Data apresentou resultados satisfatórios quanto a execução do algoritmo de agrupamento k-médias disponível na biblioteca Mahout, usando-se a infraestrutura da plataforma Hadoop. Portanto, é possível concluir que a criação da plataforma de computação em nuvem voltada para mineração de dados foi bem sucedida uma vez que foi possível a execução de algoritmos de mineração de dados utilizando a plataforma. |