Simpósio de Integração Acadêmica - Universidade Federal de Viçosa

Ciência e Tecnologia: bases para o Desenvolvimento Social

20 a 25 de outubro de 2014

Trabalho 1825

ISSN	2237-9045
Instituição	Universidade Federal de Viçosa
Nível	Graduação
Modalidade	Pesquisa
Área de conhecimento	Ciências Exatas e Tecnológicas
Área temática	Teoria e Tecnologia da informação
Setor	Instituto de Ciências Exatas e Tecnológicas
Bolsa	FAPEMIG
Conclusão de bolsa	Sim
Apoio financeiro	FAPEMIG
Primeiro autor	Kemilly Dearo Garcia
Orientador	MURILO COELHO NALDI
Título	Investigação de Agrupamento de Dados para Computação em Nuvens
Resumo	As tecnologias de armazenamento de dados atuais permitem o acúmulo de grandes volumes de dados, distribuídos em diferentes servidores. Além disso a popularização de redes sociais, como Facebook, Twitter, incentivam milhares de usuários comuns a produzirem bilhões de versões digitais de vídeos e fotos. Sobretudo os dados além de volumosos encontram-se espalhados e replicados em diferentes servidores cujas localizações são indeterminadas. Tais características tornam a manipulação e processamento desses dados em uma tarefa computacionalmente custosa. Para isso, é necessária a utilização e domínio de plataformas que gerenciem esse tipo de dados. Por mais que a capacidade dos dispositivos de armazenamento tenham aprimorado nos últimos anos, a velocidade de leitura e escrita dos mesmos não acompanhou essa evolução, são operações computacionalmente caras. Sendo assim, a construção de servidores maiores para tarefas de larga escala não são boas soluções para problemas que envolvem grandes quantidade de dados. Uma alternativa mais adequada é a leitura/escrita paralela de um grande conteúdo de dados em múltiplos dispositivos de armazenamento. É nesse contexto que a plataforma Hadoop trabalha. Adicionalmente, técnicas de agrupamento permitem a extração de categorias ocultas nos dados automaticamente. Uma das técnicas mais influentes, o KMeans, já foi portado para ambientes distribuídos, com a plataforma Hadoop. Entretanto, esse algoritmo possui deficiências que incluem a necessidade de se conhecer o número real de grupos e a escolha de seus representantes. Este trabalho descreve um estudo sobre a utilização de técnicas de agrupamento de dados em plataformas distribuídas de computação em nuvens. Nele, são apresentados os problemas em se gerar bons agrupamentos em ambientes com grandes volumes de dados distribuídos e propõe um algoritmo que executa paralelamente múltiplos agrupamentos. Com esse algoritmo, foi possível obter um melhor desempenho computacional e escalabilidade do que a técnica de agrupamento implementada na plataforma Hadoop, considerada o estado da arte.
Palavras-chave	Hadoop, MapReduce, Big Data.
Forma de apresentação.....	Oral

Universidade Federal de Viçosa

Gerado em 0,89 segundos.