“Bicentenário da Independência: 200 anos de ciência, tecnologia e inovação no Brasil e 96 anos de contribuição da UFV”.

8 a 10 de novembro de 2022

Trabalho 16565

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Ciência da computação
Setor Departamento de Informática
Bolsa PIBIC/CNPq
Conclusão de bolsa Não
Apoio financeiro CNPq
Primeiro autor Daniela Assis de Sousa
Orientador MICHEL MELO DA SILVA
Outros membros MARCOS HENRIQUE FONSECA RIBEIRO
Título Aceleração semântica de vídeos em primeira pessoa baseada na atenção do gravador
Resumo O uso de câmeras vestíveis vem crescendo nos últimos anos por permitir a gravação de vídeos em que o gravador pode realizar diversas tarefas diárias com as mãos livres, como a interação com objetos ou pessoas. Geralmente, a gravação do vídeo é iniciada antes da tarefa e permanece gravando por longos períodos de tempo. Com isso nem todos os momentos gravados são relevantes, o que pode gerar desinteresse em assistir o conteúdo gravado por completo. Para endereçar esse problema, o método Hyperlapse Semântico acelera o vídeo com dois objetivos principais: optimizar a estabilidade visual do vídeo gerado, e enfatizar as partes relevantes do vídeo diminuindo o fator de aceleração. O desafio destas técnicas é em definir as partes relevantes a serem enfatizadas. Neves et al., descreveu em “A gaze driven fast-foward method for first-person videos” um método para determinar o que é relevante em um vídeo utilizando gaze obtido por dispositivo próprio ao calcular a pontuação de cada frame. O gaze é a região focada pelo olho humano diante do campo de visão. O ponto fraco deste trabalho é a necessidade que o gravador utilize um dispositivo de gravação próprio que captura o gaze, dispositivo esse que tem alto custo e sua usabilidade é pouco agradável. Alternativamente, o gaze em cada frame pode ser inferido, como descrito por Huang, et al., em “Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition”. Dessa forma, o objetivo deste projeto é acelerar vídeos gravados por câmeras vestíveis utilizando uma versão modificada do método descrito por Neves et al. para a utilização do gaze inferido utilizando o método desenvolvido por Huang. Para cada vídeo, é feita a inferência do gaze em cada frame e o gaze obtido é usado no método desenvolvido por Neves para acelerar o vídeo. A avaliação dos resultados será executada utilizando os datasets DoMSEV e A*Star e a métrica Intersection over Union (IoU) para os frames do vídeo marcados como relevantes pelo método e os mesmos frames marcados como relevantes pelo gravador. A métrica varia entre 0.0 e 1.0, tal que, quanto mais próximo de 1.0 melhor. Os valores médios do IoU para os vídeos dos datasets DoMSEV e A*Star utilizando o método original de Neves et al. foram, respectivamente, 0.069 e 0.058. Após a modificação para trabalhar melhor com o gaze inferido,os resultados obtidos foram 0.131 e 0.084, o que representa uma melhora média de 90% e 45%, respectivamente. Outro ponto de análise foi em relação à interferência dos ambientes em que os vídeos foram gravados dentre os seguintes cenários: interior, natureza, urbano e ambiente lotado. Identificou-se que intervalos gravados em ambientes internos tiveram a maior média de IoU no dataset DoMSEV com 0.156. Este resultado está de acordo com estudos preliminares que mostram que o gaze é mais controlado em ambientes fechados do que em mundo aberto.
Palavras-chave gaze, aceleração de vídeo, hyperlapse sêmantico
Forma de apresentação..... Vídeo
Link para apresentação Vídeo
Gerado em 0,65 segundos.