Resumo |
Os avanços da Inteligência Artificial têm desempenhado um papel crucial em muitas tarefas diárias, desde corretores automáticos simples, passando por assistentes virtuais que desempenham atividades complexas como reserva de hotéis, até máquinas teleoperadoras para realização de cirurgias. Um passo primordial para o desenvolvimento desses sistemas baseados em Inteligência Artificial é a criação de conjuntos de dados para o treinamento dos mesmos. A combinação de conjuntos de dados dedicados e bem preparados com técnicas de Aprendizado de Máquina tem potencial para revolucionar as mais diversas áreas, desde agricultura até saúde. Essas inovações também têm se mostrado promissoras na área de Tecnologias Assistivas para deficientes auditivos ou visuais, abrangendo recursos como o reconhecimento de objetos perigosos, descrição de imagens, reconhecimento e síntese de linguagem de sinais, e sistemas de respostas para perguntas relacionadas a dados visuais. Apesar dos resultados positivos alcançados, esses métodos ainda apresentam limitações relacionadas a tarefas específicas devido à escassez de dados disponíveis. A pandemia da COVID-19 impulsionou a crescente disseminação e dependência do uso de tecnologias para fazer frente ao isolamento social, por exemplo, o uso de videoconferências (webinários) como uma alternativa para palestras, reuniões e aulas presenciais. No entanto, esse novo mundo conectado trouxe desafios adicionais para deficientes visuais, que enfrentam dificuldades em compreender os elementos visuais fundamentais para criação de contexto em webinários. Apesar dos esforços para as pessoas fornecerem descrições visuais, muitas vezes essas são incompletas ou não atendem às recomendações. Diante desse cenário, a construção de descrições automáticas para imagens em webinários com o auxílio da Inteligência Artificial tem sido explorada. Um dos principais obstáculos para essa tarefa é a falta de conjuntos de dados adequados. Neste trabalho, propomos uma abordagem para coletar automaticamente imagens focadas no apresentador de webinário, usando técnicas de reconhecimento de faces e análise de características da imagem, a partir de vídeos disponíveis no YouTube, como palestras, jornais, aulas, podcasts e entrevistas. Através da avaliação experimental conduzida, foi possível demonstrar a eficácia do método em selecionar imagens de pessoas únicas, centradas na imagem e com proporção adequada entre a área da face e a área total da imagem. Além disso, uma outra análise foi realizada para avaliar a representatividade dos dados coletados pelo método proposto, sendo que as imagens representam bem pessoas de diferentes etnias, gêneros, faixas etárias, cenas, objetos presentes nas cenas, roupas, entre outros. Com isso, conclui-se que o método proposto foi capaz de gerar um conjunto de dados expressivo no número de imagens e diversificado em características, sendo estas, desejáveis para o treinamento de modelos de Inteligência Artificial. |