“Bicentenário da Independência: 200 anos de ciência, tecnologia e inovação no Brasil e 96 anos de contribuição da UFV”.

8 a 10 de novembro de 2022

Trabalho 16447

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Ciência da computação
Setor Instituto de Ciências Exatas e Tecnológicas - Campus Florestal
Bolsa PIBITI/CNPq
Conclusão de bolsa Sim
Apoio financeiro CNPq
Primeiro autor Pedro Augusto Maia Silva
Orientador THAIS REGINA DE MOURA BRAGA SILVA
Outros membros FABRICIO AGUIAR SILVA, Guilherme Sérgio de Oliveira
Título Classificação semântica de pontos de interesse
Resumo No decorrer dos anos, a computação tem passado por diversas transformações. Essas transformações permitiram que um simples computador pudesse ser acessível em nossas mãos no dia a dia, por meio dos dispositivos conhecidos como Smartphones. Esses aparelhos oferecem diversas aplicações na área de ciência de dados, visto que fornecem uma quantidade enorme de dados. Um grande gerador de dados são as redes sociais, que oferecem acesso a diversas informações, como a localização de acesso, por exemplo.
Analisar e extrair informações desses dados de localização podem trazer diversos benefícios, tanto para empresas privadas quanto para o âmbito público. Dentre as várias possibilidades de extração de conhecimento, uma delas é entender os pontos de interesses (PoI) dos usuários, que são locais importantes e constantemente visitados pelos mesmos. Essa é uma tarefa muito importante, pois dados brutos de localização geralmente contém pouca informação para ser utilizada.
Dessa maneira, foi implementado uma versão do algoritmo chamado KFN utilizando as tecnologias Scala, Python e Spark, visando trabalhar com grandes volumes de dados. O KFN explora a informação dos padrões de mobilidade dos usuários para prever cada categoria de um local visitado, ao invés de usar a maioria votada entre as categorias de locais concorrentes mais próximos. A decisão de usar este algoritmo leva em consideração o fato dele utilizar ambas as distâncias entre os vizinhos mais próximos e informações de movimentos sobre o usuário na cidade para selecionar o vizinho mais favorável.
Nesse sentido, a solução foi implementada para conseguir trabalhar com os dados de maneira paralela e distribuída e após feita a implementação, conduziram-se tentativas de melhoria no algoritmo original, onde foram realizadas avaliações comparando com a implementação base. As modificações feitas apresentaram leves melhorias quando comparado com o KFN original. A validação levou em conta dados do Foursquare e as cidades de Nova Iorque e Londres, utilizando uma validação cruzada com 5-folds. Também foi utilizado um dataset sintético simulado aplicando um ruído. A melhoria na acurácia foi de até 4% se comparada com a versão original.
Destarte, para a atual conjuntura, foi observado que mesmo com os resultados não suficientemente satisfatórios, houve melhorias com relação ao KFN inicialmente proposto, o que indica a possibilidade de abertura para mais contextos a serem analisados, visando alcançar uma relevância ainda maior. Além disso, o trabalho feito conta com uma implementação que permite trabalhar com grandes volumes de dados.
Palavras-chave Dados geoespaciais, Pontos de Interesse, Algoritmo de classificação
Forma de apresentação..... Vídeo
Link para apresentação Vídeo
Gerado em 0,70 segundos.