Simpósio de Integração Acadêmica - Universidade Federal de Viçosa

Ciência, saúde e esporte: conhecimento e acessibilidade

22 a 24 de outubro de 2013

Trabalho 288

ISSN	2237-9045
Instituição	Universidade Federal de Viçosa
Nível	Graduação
Modalidade	Pesquisa
Área de conhecimento	Ciências Exatas e Tecnológicas
Área temática	Teoria e Tecnologia da informação
Setor	Instituto de Ciências Exatas e Tecnológicas
Bolsa	FUNARBIC/FUNARBE
Conclusão de bolsa	Sim
Apoio financeiro	FUNARBE
Primeiro autor	Flavio Dias Pegas da Silva
Orientador	MURILO COELHO NALDI
Título	Construção de uma plataforma cloud para mineração de dados
Resumo	Existe uma crescente necessidade de meios para armazenar, distribuir e processar grandes conjuntos de dados. Também é preciso que tais dados sejam analisados. Este trabalho apresenta um método para a realização da mineração de dados em um ambiente de computação em nuvem, onde todo o processamento dos dados é realizado por meio de um sistema de arquivos distribuídos. O objetivo geral consiste na pesquisa, desenvolvimento e implementação de uma plataforma capaz de prover serviços e gerenciar os recursos necessários para a aplicação de técnicas de mineração de dados. Para isso, uma plataforma o Hadoop, uma plataforma distribuída da Apache baseado na tecnologia MapReduce foi utilizada para fins de construção de uma infraestrutura semelhante a utilizadas em computação em nuvens. De forma possibilitar o uso da mineração de dados, a biblioteca Mahout foi utilizada, onde se encontra o algoritmo de agrupamento k-médias, dentre outros. Este algoritmo é usado nos experimentos desenvolvidos neste trabalho. Por meio das bibliotecas do Hadoop e do Mahout a técnica de validação de agrupamento VRC (Variance Ratio Criterion) foi implementada e, a partir delas, tornou-se possível validar e auxiliar na avaliação dos agrupamentos obtidos com o algoritmo k-médias. Separadamente do VRC, é recolhido dos resultados do agrupamento do K-médias o centroide e o valor de cada objeto, com isto, o valor dos centroides dos objetos é calculado para utilização, pois o VRC baseado em MapReduce necessita dos valores dos centroides anteriormente ao Map. O Map realiza a leitura de cada objeto um por um dando início aos cálculos do VRC tendo sua saída no formato de Key, Value (Id do Centroide, valor do cálculo realizado com o objeto da vez) para o Reduce. O Reduce, ocorre uma vez para cada centroide tendo entrada no formato Key, Value (Id do Centroide, União de todos os resultados que foram calculados com este centroide durante o Map), ele finaliza os cálculos do Map realiza o final dos cálculos e gera o resultado do VRC. Conjuntos de dados artificiais foram gerados de forma a simular grupos com formatos aproximadamente hiper-elipsoidais e distribuição gaussianas. Os resultados dos experimentos foram avaliados em termos de tempo de execução e qualidade do agrupamento obtido. Com o uso de bases de dados artificial, o número de grupos a ser encontrado é previamente conhecido, permitindo analisar o quanto os resultados dos experimentos se aproximaram dos valores naturais do conjunto de dados. A tarefa de mineração de dados em Big Data apresentou resultados satisfatórios quanto a execução do algoritmo de agrupamento k-médias disponível na biblioteca Mahout, usando-se a infraestrutura da plataforma Hadoop. Portanto, é possível concluir que a criação da plataforma de computação em nuvem voltada para mineração de dados foi bem sucedida uma vez que foi possível a execução de algoritmos de mineração de dados utilizando a plataforma.
Palavras-chave	cloud, hadoop, mahout
Forma de apresentação.....	Painel, Oral

Universidade Federal de Viçosa

Gerado em 0,84 segundos.