Resumo |
O uso de câmeras vestíveis vem crescendo nos últimos anos por permitir a gravação de vídeos em que o gravador pode realizar diversas tarefas diárias com as mãos livres, como a interação com objetos ou pessoas. Geralmente, a gravação do vídeo é iniciada antes da tarefa e permanece gravando por longos períodos de tempo. Com isso nem todos os momentos gravados são relevantes, o que pode gerar desinteresse em assistir o conteúdo gravado por completo. Para endereçar esse problema, o método Hyperlapse Semântico acelera o vídeo com dois objetivos principais: optimizar a estabilidade visual do vídeo gerado, e enfatizar as partes relevantes do vídeo diminuindo o fator de aceleração. O desafio destas técnicas é em definir as partes relevantes a serem enfatizadas. Neves et al., descreveu em “A gaze driven fast-foward method for first-person videos” um método para determinar o que é relevante em um vídeo utilizando gaze obtido por dispositivo próprio ao calcular a pontuação de cada frame. O gaze é a região focada pelo olho humano diante do campo de visão. O ponto fraco deste trabalho é a necessidade que o gravador utilize um dispositivo de gravação próprio que captura o gaze, dispositivo esse que tem alto custo e sua usabilidade é pouco agradável. Alternativamente, o gaze em cada frame pode ser inferido, como descrito por Huang, et al., em “Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition”. Dessa forma, o objetivo deste projeto é acelerar vídeos gravados por câmeras vestíveis utilizando uma versão modificada do método descrito por Neves et al. para a utilização do gaze inferido utilizando o método desenvolvido por Huang. Para cada vídeo, é feita a inferência do gaze em cada frame e o gaze obtido é usado no método desenvolvido por Neves para acelerar o vídeo. A avaliação dos resultados será executada utilizando os datasets DoMSEV e A*Star e a métrica Intersection over Union (IoU) para os frames do vídeo marcados como relevantes pelo método e os mesmos frames marcados como relevantes pelo gravador. A métrica varia entre 0.0 e 1.0, tal que, quanto mais próximo de 1.0 melhor. Os valores médios do IoU para os vídeos dos datasets DoMSEV e A*Star utilizando o método original de Neves et al. foram, respectivamente, 0.069 e 0.058. Após a modificação para trabalhar melhor com o gaze inferido,os resultados obtidos foram 0.131 e 0.084, o que representa uma melhora média de 90% e 45%, respectivamente. Outro ponto de análise foi em relação à interferência dos ambientes em que os vídeos foram gravados dentre os seguintes cenários: interior, natureza, urbano e ambiente lotado. Identificou-se que intervalos gravados em ambientes internos tiveram a maior média de IoU no dataset DoMSEV com 0.156. Este resultado está de acordo com estudos preliminares que mostram que o gaze é mais controlado em ambientes fechados do que em mundo aberto. |