Resumo |
O termo Big Data tem sido usado para transmitir vários tipos de conceitos, incluindo: grande quantidade de dados, análise de mídias sociais, recursos de gerenciamento de dados da próxima geração, dados em tempo real, e muito mais. Este conceito tem sido um grande desafio na área da computação, pois a manipulação desses dados é complexa e exige métodos automáticos capazes de processar grande volume de dados, além de exigir um grande poder computacional para obtenção de resultados em tempo hábil. Através desse desafio, novas tecnologias surgem com o intuito de auxiliar a distribuição de diversos problemas entre várias máquinas, melhorando a eficiência no processamento deste amontoado de dados. O presente trabalho teve como objetivo a montagem e manutenção de diferentes plataformas distribuídas para o gerenciamento de Big Data, com o propósito de utilização de técnicas de agrupamento de dados reais. Para tal, foram estudadas diferentes plataformas distribuídas utilizadas atualmente para processamento de grandes volume de dados, são elas: Apache Hadoop e Spark. Elas permitem o processamento distribuído de grandes conjuntos dados através de servidores em nuvem ou servidores de hardware commodities (máquinas de baixo valor no mercado) e utilizam diferentes fatores de hardware. Além disso, estudou-se métodos para adaptação de conjunto de dados reais para utilização e aplicação de técnicas de pré-processamento de dados existentes a fim de que os mesmos pudessem ser utilizados em técnicas de agrupamento de dados sob as diferentes plataformas. Diferentes estrategias para pré-processamento influenciam os resultados da etapa de agrupamento. O agrupamento de dados tem como objetivo determinar um conjunto finito de categorias para descrever um conjunto de dados de acordo com as características similares dos objetos do conjunto de dados. Deste modo, a metodologia experimental visa avaliar e comparar as técnicas estudadas e o seu desempenho sobre diferentes mecanismos de pré-processamento, proporcionando o levantamento das vantagens e desvantagens das técnicas aplicadas e desenvolvidas. |