ISSN | 2237-9045 |
---|---|
Instituição | Universidade Federal de Viçosa |
Nível | Graduação |
Modalidade | Pesquisa |
Área de conhecimento | Ciências Exatas e Tecnológicas |
Área temática | Ciência da computação |
Setor | Instituto de Ciências Exatas e Tecnológicas - Campus Florestal |
Bolsa | PIBITI/CNPq |
Conclusão de bolsa | Sim |
Apoio financeiro | CNPq |
Primeiro autor | Pedro Augusto Maia Silva |
Orientador | THAIS REGINA DE MOURA BRAGA SILVA |
Outros membros | FABRICIO AGUIAR SILVA, Guilherme Sérgio de Oliveira |
Título | Classificação semântica de pontos de interesse |
Resumo | No decorrer dos anos, a computação tem passado por diversas transformações. Essas transformações permitiram que um simples computador pudesse ser acessível em nossas mãos no dia a dia, por meio dos dispositivos conhecidos como Smartphones. Esses aparelhos oferecem diversas aplicações na área de ciência de dados, visto que fornecem uma quantidade enorme de dados. Um grande gerador de dados são as redes sociais, que oferecem acesso a diversas informações, como a localização de acesso, por exemplo. Analisar e extrair informações desses dados de localização podem trazer diversos benefícios, tanto para empresas privadas quanto para o âmbito público. Dentre as várias possibilidades de extração de conhecimento, uma delas é entender os pontos de interesses (PoI) dos usuários, que são locais importantes e constantemente visitados pelos mesmos. Essa é uma tarefa muito importante, pois dados brutos de localização geralmente contém pouca informação para ser utilizada. Dessa maneira, foi implementado uma versão do algoritmo chamado KFN utilizando as tecnologias Scala, Python e Spark, visando trabalhar com grandes volumes de dados. O KFN explora a informação dos padrões de mobilidade dos usuários para prever cada categoria de um local visitado, ao invés de usar a maioria votada entre as categorias de locais concorrentes mais próximos. A decisão de usar este algoritmo leva em consideração o fato dele utilizar ambas as distâncias entre os vizinhos mais próximos e informações de movimentos sobre o usuário na cidade para selecionar o vizinho mais favorável. Nesse sentido, a solução foi implementada para conseguir trabalhar com os dados de maneira paralela e distribuída e após feita a implementação, conduziram-se tentativas de melhoria no algoritmo original, onde foram realizadas avaliações comparando com a implementação base. As modificações feitas apresentaram leves melhorias quando comparado com o KFN original. A validação levou em conta dados do Foursquare e as cidades de Nova Iorque e Londres, utilizando uma validação cruzada com 5-folds. Também foi utilizado um dataset sintético simulado aplicando um ruído. A melhoria na acurácia foi de até 4% se comparada com a versão original. Destarte, para a atual conjuntura, foi observado que mesmo com os resultados não suficientemente satisfatórios, houve melhorias com relação ao KFN inicialmente proposto, o que indica a possibilidade de abertura para mais contextos a serem analisados, visando alcançar uma relevância ainda maior. Além disso, o trabalho feito conta com uma implementação que permite trabalhar com grandes volumes de dados. |
Palavras-chave | Dados geoespaciais, Pontos de Interesse, Algoritmo de classificação |
Forma de apresentação..... | Vídeo |
Link para apresentação | Vídeo |
---|