Simpósio de Integração Acadêmica - Universidade Federal de Viçosa

Do Lógico ao Abstrato: A Ciência no Cotidiano

23 a 28 de outubro de 2017

Trabalho 8977

ISSN	2237-9045
Instituição	Universidade Federal de Viçosa
Nível	Graduação
Modalidade	Pesquisa
Área de conhecimento	Ciências Exatas e Tecnológicas
Área temática	Ciência da Computação
Setor	Departamento de Informática
Bolsa	PIBIC/CNPq
Conclusão de bolsa	Sim
Apoio financeiro	CNPq
Primeiro autor	Gustavo Canal Uliana
Orientador	MARCUS VINICIUS ALVIM ANDRADE
Outros membros	SALLES VIANA GOMES DE MAGALHAES
Título	Algoritmo map-reduce para análise espaço-temporal usando spark
Resumo	O projeto tem como objetivo desenvolver um método paralelo para analisar dados espaço-temporais e obter estatísticas referentes a estes. A modelagem dos dados é feita usando um cubo espaço-temporal, com dimensões de espaço em graus e tempo em dias. É utilizada uma estatística Gi* para avaliar os hot-spots do conjunto, levando assim em consideração não só os eventos no local, mas nas redondezas também. Hot-spot é o nome dado a uma região no cubo espaço-temporal onde existe uma grande concentração de eventos. Um evento é um ponto de interesse, cujo significado depende do problema avaliado. Por exemplo, pode-se definir como um evento um assalto que ocorreu em determinado local e hora. Dado então um conjunto de eventos, uma análise demonstraria as regiões e horários mais perigosos da cidade, informação que poderia ser utilizada no combate ao crime. Como a quantidade de dados para processamento é muito grande, é necessário paralelismo para alcançar maior eficiência. Buscando maior abstração, é utilizado o modelo de programação paralelo Map-Reduce, aplicável em problemas que podem ser divididos em duas fases, map (aplicar soluções individuais em partes do conjunto) e reduce (união dos resultados individuais em resultados globais). O método proposto usa Apache Spark, que já fornece API’s para linguagens conhecidas, com conceitos de Map-Reduce já implementados, além de possibilitar a utilização de arquiteturas paralelas para input de arquivos, necessárias considerando a quantidade de dados que seriam processados nesse tipo de problemas. Entretanto, para alcançar resultados mais refinados, é necessário utilizar de estratégias alternativas, a fim de acelerar mais ainda o processamento. Uma solução é processar partições do cubo, e não cada célula. Assim, a quantidade de cálculos feitos localmente de forma simultânea é maior, aprimorando o paralelismo. Para os testes do modelo proposto, foram utilizados dados de viagens de taxi na cidade de New York no ano de 2015, disponíveis para acesso público na internet. Cada evento caracteriza um desembarque de um passageiro em um dado lugar e tempo na cidade. A análise então é aplicada para buscar os locais e horas com maior concentração de desembarque de passageiros. Após os testes, o algoritmo proposto alcançou os objetivos, conseguindo processar a quantidade enorme de dados de forma eficiente. A estratégia alternativa citada também se mostrou interessante, conseguindo ser até 52 vezes mais rápida do que a solução mais simples quando uma grande quantidade de cálculos era necessária.
Palavras-chave	programação paralela, análise espaço-temporal, Big data
Forma de apresentação.....	Oral

Universidade Federal de Viçosa

Gerado em 0,93 segundos.