“Bicentenário da Independência: 200 anos de ciência, tecnologia e inovação no Brasil e 96 anos de contribuição da UFV”.

8 a 10 de novembro de 2022

Trabalho 16535

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Ciência da computação
Setor Instituto de Ciências Exatas e Tecnológicas - Campus Florestal
Bolsa CNPq
Conclusão de bolsa Sim
Apoio financeiro CNPq
Primeiro autor Henrique de Souza Santana
Orientador FABRICIO AGUIAR SILVA
Título Sendas: scalable enrichment for mobility data sets
Resumo O avanço e popularização da tecnologia nos anos recentes fez crescer a disponibilidade de dados de mobilidade, coletados de diferentes fontes. Analisar tais dados é um campo ativo de pesquisa e desenvolvimento científico e industrial, com uma diversa gama de aplicações. Entretanto, dados de trajetórias têm seguido a tendência de Big Data, e as ferramentas atualmente existentes não cumprem com o requisito de escalabilidade. Para cobrir essa falta, nós propomos o Sendas (Scalable ENrichment for mobility DAta Sets), uma nova biblioteca em Scala construída com o framework Apache Spark, com o objetivo de conceder execução paralela e distribuída para técnicas consolidadas de análise de mobilidade. Primeiramente, formalizamos algumas definições que estendem conceitos do estado-da-arte sobre a terminologia de dados de trajetória, cálculo de fluxo de mobilidade, e identificação de padrões (motifs) de mobilidade. A principal noção elaborada é a de que trajetórias são sequências cronologicamente ordenadas de registros espaciais, referentes a um certo objeto móvel. Partindo dessa definição, é possível representar esses dados de diferentes formas, especificando uma representação espacial – uma informação que indique localização – e uma visão de trajetória – um formato que organiza no tempo os registros espaciais. Ambos aspectos foram implementados na biblioteca de forma aberta, fornecendo definições prontas, que funcionam com as funcionalidades já existentes, e também possibilitando que sejam estendidos pelo usuário. As funcionalidades da biblioteca foram divididas em módulos, sendo um voltado para a construção de representações espaciais, um para funções de análise exploratória dos dados de trajetória, um para pré-processamento e filtragem, outro para o cálculo de fluxo, e por fim um para identificação de motifs. No cálculo de fluxo, introduzimos a noção de divisão e categorização de tempo, para facilitar a inspeção de aspectos temporais do fluxo, por exemplo, fluxo médio por dia. Na identificação de motifs, propusemos uma nova técnica de rotulação dos grafos que representam cada padrão, levando em conta as características específicas desses grafos, o que permitiu obter um algoritmo de complexidade de tempo linear. Para avaliar a proposta, aplicamos as funcionalidades apresentadas num dataset de 49.790 usuários únicos e cerca de 8,5 milhões de registros. Foi comparado o tempo de execução de cada funcionalidade considerando a execução sequencial e a paralela, com diferentes números de threads, sendo o cálculo de fluxo também comparado com o desempenho da biblioteca Scikit-Mobility. Os resultados obtidos mostraram ganhos de 4 a 6 vezes no tempo de execução paralela da biblioteca em relação à execução não-paralela. Assim, as contribuições deste trabalho são múltiplas: refinamos conceitos da análise de mobilidade, propusemos técnicas de melhor desempenho e elaboramos uma nova ferramenta de utilidade para a comunidade científica.
Palavras-chave mobiliade humana, big data, análise de mobilidade
Forma de apresentação..... Painel
Link para apresentação Painel
Gerado em 0,68 segundos.