Ciência, saúde e esporte: conhecimento e acessibilidade

22 a 24 de outubro de 2013

Trabalho 288

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Teoria e Tecnologia da informação
Setor Instituto de Ciências Exatas e Tecnológicas
Bolsa FUNARBIC/FUNARBE
Conclusão de bolsa Sim
Apoio financeiro FUNARBE
Primeiro autor Flavio Dias Pegas da Silva
Orientador MURILO COELHO NALDI
Título Construção de uma plataforma cloud para mineração de dados
Resumo Existe uma crescente necessidade de meios para armazenar, distribuir e processar grandes conjuntos de dados. Também é preciso que tais dados sejam analisados. Este trabalho apresenta um método para a realização da mineração de dados em um ambiente de computação em nuvem, onde todo o processamento dos dados é realizado por meio de um sistema de arquivos distribuídos. O objetivo geral consiste na pesquisa, desenvolvimento e implementação de uma plataforma capaz de prover serviços e gerenciar os recursos necessários para a aplicação de técnicas de mineração de dados. Para isso, uma plataforma o Hadoop, uma plataforma distribuída da Apache baseado na tecnologia MapReduce foi utilizada para fins de construção de uma infraestrutura semelhante a utilizadas em computação em nuvens. De forma possibilitar o uso da mineração de dados, a biblioteca Mahout foi utilizada, onde se encontra o algoritmo de agrupamento k-médias, dentre outros. Este algoritmo é usado nos experimentos desenvolvidos neste trabalho. Por meio das bibliotecas do Hadoop e do Mahout a técnica de validação de agrupamento VRC (Variance Ratio Criterion) foi implementada e, a partir delas, tornou-se possível validar e auxiliar na avaliação dos agrupamentos obtidos com o algoritmo k-médias. Separadamente do VRC, é recolhido dos resultados do agrupamento do K-médias o centroide e o valor de cada objeto, com isto, o valor dos centroides dos objetos é calculado para utilização, pois o VRC baseado em MapReduce necessita dos valores dos centroides anteriormente ao Map. O Map realiza a leitura de cada objeto um por um dando início aos cálculos do VRC tendo sua saída no formato de Key, Value (Id do Centroide, valor do cálculo realizado com o objeto da vez) para o Reduce. O Reduce, ocorre uma vez para cada centroide tendo entrada no formato Key, Value (Id do Centroide, União de todos os resultados que foram calculados com este centroide durante o Map), ele finaliza os cálculos do Map realiza o final dos cálculos e gera o resultado do VRC. Conjuntos de dados artificiais foram gerados de forma a simular grupos com formatos aproximadamente hiper-elipsoidais e distribuição gaussianas. Os resultados dos experimentos foram avaliados em termos de tempo de execução e qualidade do agrupamento obtido. Com o uso de bases de dados artificial, o número de grupos a ser encontrado é previamente conhecido, permitindo analisar o quanto os resultados dos experimentos se aproximaram dos valores naturais do conjunto de dados. A tarefa de mineração de dados em Big Data apresentou resultados satisfatórios quanto a execução do algoritmo de agrupamento k-médias disponível na biblioteca Mahout, usando-se a infraestrutura da plataforma Hadoop. Portanto, é possível concluir que a criação da plataforma de computação em nuvem voltada para mineração de dados foi bem sucedida uma vez que foi possível a execução de algoritmos de mineração de dados utilizando a plataforma.
Palavras-chave cloud, hadoop, mahout
Forma de apresentação..... Painel, Oral
Gerado em 0,70 segundos.