| Resumo |
Considerando as grandes vantagens dos dados sintéticos em relação aos dados tradicionais, propomos um pipeline automatizado capaz de replicar movimentos humanos em avatares de alta fidelidade visual a partir de qualquer vídeo de entrada, utilizando a Unreal Engine 5. Entre as motivações para o desenvolvimento do pipeline, destaca-se a necessidade de superar limitações da coleta de dados reais, especialmente em relação às variáveis de ambientes que comprometem a qualidade. Além disso, diversas aplicações atuais demandam dados visualmente realistas, como é o caso do reconhecimento de gestos em linguagens de sinais. Para atingir tais objetivos, o avatar precisa ser inserido em cenários coerentes com o contexto humano e apresentar aparência convincente. Também é necessário garantir variedade, tanto na composição dos personagens quanto nos ambientes, promovendo diversidade visual ao pipeline. A combinação desses fatores permite a replicação de movimentos humanos em contextos sintéticos com alta fidelidade à realidade. Este trabalho busca enriquecer o pipeline por meio da inserção de elementos visuais mais refinados, como a diversidade de cenários de fundo e a personalização de avatares. Para isso, empregamos os MetaHumans, modelos humanoides 3D com elevado nível de realismo, que podem ser ajustados manualmente no MetaHuman creator ou escolhidos a partir de 67 versões pré-definidas que variam em formato de corpo e tons de pele, utilizando o City Sample Crowds da Epic Games, que inclui também um extenso guarda roupa para os MetaHumans. Quanto à construção dos ambientes, propomos duas abordagens: (i) cenas estáticas, nas quais imagens HDR são aplicadas em SkySpheres da Unreal para compor o pano de fundo e ambientar a gravação; e (ii) cenas dinâmicas, baseadas no projeto City Sample, que simulam ambientes urbanos com veículos e pedestres em movimento. O pipeline final gera um vídeo RGB com o avatar reproduzindo os movimentos capturados no vídeo original, além de mapas de profundidade sincronizados quadro a quadro, localização das juntas e parâmetros de câmera. |