Resumo |
Em muitos artigos de previsão de crimes se nota que os tipos criminais mais frequentes são aqueles que envolvem roubos de carros, homicídios e outros, sendo poucos os registros de roubos de pertences pessoais. Em vista disso, é perceptível que as pessoas geralmente não relatam algum boletim de ocorrência quando tem algo furtado, tais como: celular, dinheiro e relógios, por exemplo. Diante disso, uma forma de se procurar por denúncias de crimes que não são relatados à polícia seria utilizando outras fontes de dados. Em uma primeira etapa deste trabalho tentou-se buscar dados em sistemas de sensoriamento participativo. Porém a maioria desses sistemas eram fechados ou antigos, e alguns destes não funcionavam mais. Dado isso, decidiu-se por utilizar a API do Twitter para encontrar denúncias de crimes que não são relatados nas bases policiais, uma vez que esta rede social é uma grande fonte de informações, que pode ajudar a encontrar crimes reais tweetados pelas pessoas. Como forma de deixar a pesquisa mais objetiva, foi escolhido o município de São Paulo para a realização da análise de tweets proposta. É importante ressaltar que neste trabalho foi usada inicialmente a API versão 1 do Twitter. Porém ela não permitia acesso a base completa de dados do Twitter, sendo possível apenas raspar dados diariamente para se ter acesso aos tweets. Dessa forma, como não foi obtido um bom volume de resultados ao longo de 3 meses de raspagem de dados, decidiu-se pela migração para a API versão 2 do Twitter, a qual permite acesso ao seu banco de dados. Nesse sentido, já usando a APIv2 do Twitter, que está disponível apenas para pesquisadores acadêmicos, foi possível raspar dados no intervalo de 2010 a 2022. Um impasse na versão 2 desta API, é que não é possível raspar dados a partir de uma latitude e longitude e passando um raio para abranger uma certa área de tweets, como na versão 1. Porém, mesmo não conseguindo definir apenas uma certa região foi possível pegar todos os tweets do Brasil. Uma vez obtidos os dados, foi feita uma limpeza dos mesmos considerando-se apenas os tweets com geocalização dentro de um dos municípios de São Paulo. Todavia também só foram selecionados tweets que continham as palavras chaves consideradas ligadas ao vocabulário de relatos criminais. Como resultado, aplicando a estratégia descrita, até o momento foram obtidos 12.024 tweets que possivelmente estão relacionados à informação de ocorrências de crimes na cidade de São Paulo. O trabalho prossegue com um refinamento da limpeza sobre os tweets retornados, uma vez que muitos destes, apesar de usarem termos relacionados à criminalidade, não reportam de fato esse tipo de informação. Com os dados obtidos, a expectativa é que seja possível clusterizá-los, e no mapa do município de São Paulo, mostrar as regiões mais perigosas, ajudando assim a tarefa de definição de rotas seguras para veículos. |