Ciência e Tecnologia: bases para o Desenvolvimento Social

20 a 25 de outubro de 2014

Trabalho 1825

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Teoria e Tecnologia da informação
Setor Instituto de Ciências Exatas e Tecnológicas
Bolsa FAPEMIG
Conclusão de bolsa Sim
Apoio financeiro FAPEMIG
Primeiro autor Kemilly Dearo Garcia
Orientador MURILO COELHO NALDI
Título Investigação de Agrupamento de Dados para Computação em Nuvens
Resumo As tecnologias de armazenamento de dados atuais permitem o acúmulo de grandes volumes de dados, distribuídos em diferentes servidores. Além disso a popularização de redes sociais, como Facebook, Twitter, incentivam milhares de usuários comuns a produzirem bilhões de versões digitais de vídeos e fotos. Sobretudo os dados além de volumosos encontram-se espalhados e replicados em diferentes servidores cujas localizações são indeterminadas. Tais características tornam a manipulação e processamento desses dados em uma tarefa computacionalmente custosa. Para isso, é necessária a utilização e domínio de plataformas que gerenciem esse tipo de dados.
Por mais que a capacidade dos dispositivos de armazenamento tenham aprimorado nos últimos anos, a velocidade de leitura e escrita dos mesmos não acompanhou essa evolução, são operações computacionalmente caras. Sendo assim, a construção de servidores maiores para tarefas de larga escala não são boas soluções para problemas que envolvem grandes quantidade de dados. Uma alternativa mais adequada é a leitura/escrita paralela de um grande conteúdo de dados em múltiplos dispositivos de armazenamento. É nesse contexto que a plataforma Hadoop trabalha.
Adicionalmente, técnicas de agrupamento permitem a extração de categorias ocultas nos dados automaticamente. Uma das técnicas mais influentes, o KMeans, já foi portado para ambientes distribuídos, com a plataforma Hadoop. Entretanto, esse algoritmo possui deficiências que incluem a necessidade de se conhecer o número real de grupos e a escolha de seus representantes. Este trabalho descreve um estudo sobre a utilização de técnicas de agrupamento de dados em plataformas distribuídas de computação em nuvens. Nele, são apresentados os problemas em se gerar bons agrupamentos em ambientes com grandes volumes de dados distribuídos e propõe um algoritmo que
executa paralelamente múltiplos agrupamentos. Com esse algoritmo, foi possível obter um melhor desempenho computacional e escalabilidade do que a técnica de agrupamento implementada na plataforma Hadoop, considerada o estado da arte.
Palavras-chave Hadoop, MapReduce, Big Data.
Forma de apresentação..... Oral
Gerado em 0,66 segundos.