Resumo |
A dança é um dos momentos importantes de interação social na natureza, seja encontrar um parceiro ou um momento de descontração. Para os humanos, a dança está intimamente relacionada à musicalidade e ao ritmo de uma música, o que significa que os participantes da dança precisam ouvir a música para se comunicarem. No entanto, muitas vezes os surdos ou deficientes auditivos são excluídos desse ambiente de interação social, dificultando a convivência em sociedade. Essa dificuldade de integração à sociedade pode levar a problemas mais graves, como depressão e até tendências suicidas. Portanto, este projeto utilizou filtragem de áudio e redes neurais profundas para determinar o ritmo do passo base de uma música de forró. Através da filtragem de áudio, foram extraídas características relevantes da música, e esses dados foram alimentados em redes neurais profundas para realizar a análise e identificação do ritmo. O tempo estimado resultante dessas redes pode então ser usado para fornecer estímulos sensoriais que informam o ritmo em que uma pessoa com deficiência deve dançar. Para determinar o tempo, as músicas foram divididas em amostras e aplicou-se a transformada Wavelet. Em seguida, selecionou-se o nível de detalhamento relevante e gerou-se o espectrograma como entrada para o modelo de rede neural ResNet50V2, que foi treinada para medir o tempo do passo base da música de forró. Embora haja estudos anteriores que utilizam redes neurais rasas, é necessário realizar avaliações com conjuntos de dados mais extensos para alcançar estimativas de erro mais precisas. Foram realizadas duas principais alterações no modelo, a reposição da camada final por uma camada densa e a de saída, assim como a alteração da função de ativação da saída por uma função que é limitada pelo espaço amostral das músicas. Com essas alterações, verificou-se que a rede obteve erro absoluto médio de 8,30% e uma correlação das entradas com a saída de 0,757. Desta forma, obteve-se uma rede mais generalista do que a literatura. Aumentando a confiabilidade do valor correto, assim como a aplicabilidade da estimativa de tempo, resultando em uma rede que é mais adequada para implementação. Portanto, a partir de redes neurais profundas, uma rede mais generalista foi criada, sendo a mais adequada para dispositivos que possam auxiliar os surdos a dançar, inserindo-os em outro ambiente de interação social. |