Simpósio de Integração Acadêmica - Universidade Federal de Viçosa

Conexão de Saberes e Mundialização

20 a 23 de outubro de 2015

Trabalho 5364

ISSN	2237-9045
Instituição	Universidade Federal de Viçosa
Nível	Graduação
Modalidade	Pesquisa
Área de conhecimento	Ciências Exatas e Tecnológicas
Área temática	Teoria e Tecnologia da informação
Setor	Instituto de Ciências Exatas e Tecnológicas
Bolsa	FUNARBIC/FUNARBE
Conclusão de bolsa	Sim
Apoio financeiro	FUNARBE
Primeiro autor	Gustavo de Paula Avelar
Orientador	MURILO COELHO NALDI
Título	Montagem e manutenção de sistema distribuído escalável para o agrupamento de conjuntos de dados reais
Resumo	O termo Big Data tem sido usado para transmitir vários tipos de conceitos, incluindo: grande quantidade de dados, análise de mídias sociais, recursos de gerenciamento de dados da próxima geração, dados em tempo real, e muito mais. Este conceito tem sido um grande desafio na área da computação, pois a manipulação desses dados é complexa e exige métodos automáticos capazes de processar grande volume de dados, além de exigir um grande poder computacional para obtenção de resultados em tempo hábil. Através desse desafio, novas tecnologias surgem com o intuito de auxiliar a distribuição de diversos problemas entre várias máquinas, melhorando a eficiência no processamento deste amontoado de dados. O presente trabalho teve como objetivo a montagem e manutenção de diferentes plataformas distribuídas para o gerenciamento de Big Data, com o propósito de utilização de técnicas de agrupamento de dados reais. Para tal, foram estudadas diferentes plataformas distribuídas utilizadas atualmente para processamento de grandes volume de dados, são elas: Apache Hadoop e Spark. Elas permitem o processamento distribuído de grandes conjuntos dados através de servidores em nuvem ou servidores de hardware commodities (máquinas de baixo valor no mercado) e utilizam diferentes fatores de hardware. Além disso, estudou-se métodos para adaptação de conjunto de dados reais para utilização e aplicação de técnicas de pré-processamento de dados existentes a fim de que os mesmos pudessem ser utilizados em técnicas de agrupamento de dados sob as diferentes plataformas. Diferentes estrategias para pré-processamento influenciam os resultados da etapa de agrupamento. O agrupamento de dados tem como objetivo determinar um conjunto finito de categorias para descrever um conjunto de dados de acordo com as características similares dos objetos do conjunto de dados. Deste modo, a metodologia experimental visa avaliar e comparar as técnicas estudadas e o seu desempenho sobre diferentes mecanismos de pré-processamento, proporcionando o levantamento das vantagens e desvantagens das técnicas aplicadas e desenvolvidas.
Palavras-chave	Hadoop, Spark, pré-processamento
Forma de apresentação.....	Oral

Universidade Federal de Viçosa

Gerado em 0,69 segundos.