ISSN | 2237-9045 |
---|---|
Instituição | Universidade Federal de Viçosa |
Nível | Graduação |
Modalidade | Pesquisa |
Área de conhecimento | Ciências Exatas e Tecnológicas |
Área temática | Teoria e Tecnologia da informação |
Setor | Instituto de Ciências Exatas e Tecnológicas |
Bolsa | FAPEMIG |
Conclusão de bolsa | Sim |
Apoio financeiro | FAPEMIG |
Primeiro autor | Kemilly Dearo Garcia |
Orientador | MURILO COELHO NALDI |
Título | Investigação de Agrupamento de Dados para Computação em Nuvens |
Resumo | As tecnologias de armazenamento de dados atuais permitem o acúmulo de grandes volumes de dados, distribuídos em diferentes servidores. Além disso a popularização de redes sociais, como Facebook, Twitter, incentivam milhares de usuários comuns a produzirem bilhões de versões digitais de vídeos e fotos. Sobretudo os dados além de volumosos encontram-se espalhados e replicados em diferentes servidores cujas localizações são indeterminadas. Tais características tornam a manipulação e processamento desses dados em uma tarefa computacionalmente custosa. Para isso, é necessária a utilização e domínio de plataformas que gerenciem esse tipo de dados. Por mais que a capacidade dos dispositivos de armazenamento tenham aprimorado nos últimos anos, a velocidade de leitura e escrita dos mesmos não acompanhou essa evolução, são operações computacionalmente caras. Sendo assim, a construção de servidores maiores para tarefas de larga escala não são boas soluções para problemas que envolvem grandes quantidade de dados. Uma alternativa mais adequada é a leitura/escrita paralela de um grande conteúdo de dados em múltiplos dispositivos de armazenamento. É nesse contexto que a plataforma Hadoop trabalha. Adicionalmente, técnicas de agrupamento permitem a extração de categorias ocultas nos dados automaticamente. Uma das técnicas mais influentes, o KMeans, já foi portado para ambientes distribuídos, com a plataforma Hadoop. Entretanto, esse algoritmo possui deficiências que incluem a necessidade de se conhecer o número real de grupos e a escolha de seus representantes. Este trabalho descreve um estudo sobre a utilização de técnicas de agrupamento de dados em plataformas distribuídas de computação em nuvens. Nele, são apresentados os problemas em se gerar bons agrupamentos em ambientes com grandes volumes de dados distribuídos e propõe um algoritmo que executa paralelamente múltiplos agrupamentos. Com esse algoritmo, foi possível obter um melhor desempenho computacional e escalabilidade do que a técnica de agrupamento implementada na plataforma Hadoop, considerada o estado da arte. |
Palavras-chave | Hadoop, MapReduce, Big Data. |
Forma de apresentação..... | Oral |