Resumo |
As redes neurais convolucionais são amplamente utilizadas para classificação de sons ambientes, uma vez que as músicas podem ser representadas por imagens espectrais. Essas redes possuem grande capacidade de reter informações, mas necessitam de bancos de dados extensos para serem capazes de obter altas taxas de acurácias. Em situações de escassez de dados, técnicas de aumento de dados são eficazes para melhorar o desempenho de modelos convolucionais, inclusive para classificação de sons ambientes. A diversidade de técnicas existentes pode dificultar o processo de escolha e nem sempre é computacionalmente viável testar todas. A fim de facilitar o aprendizado e implementação de técnicas de aumento de aumento de dados, esta revisão visa (i) apresentar uma visão geral das técnicas mais utilizadas para aumentar dados de áudio em trabalhos atuais; (ii) detalhar ferramentas gratuitas e as técnicas que são possíveis ser implementadas; e (iii) avaliar, de forma objetiva, os custos e benefícios de técnicas de aumento de dados para modelos convolucionais de classificação de áudio. Foram encontrados três bancos de dados de sons ambientes amplamente utilizados: o Urbansoun8k com 10 classes e 8732 amostras; o ESC10, com 10 classes e 400 amostras; e o ESC50, com 50 classes e 2000 amostras. Foram encontradas 32 técnicas de aumento de áudio e imagem offline e oito ferramentas de aumento gratuitas. Quando as técnicas tiveram seu incremento avaliado de forma individual, a mudança de tom do áudio foi superior às demais testadas, enquanto que, a inserção de ruído de fundo acarretou a menor melhoria. A combinação de uma rede convolucional de sete camadas com aumento de áudio atingiu acurácia maior que 93% para os três bancos avaliados. A maior contribuição ocorreu para banco de dados ESC50, com incremento absoluto de 32% de acurácia em relação ao modelo treinado com banco de dados sem aumento, no entanto, o tempo de treino aumentou em 5,5 vezes. Além disso, técnicas de aumento de áudio proporcionaram aumento de 50% em relação às técnicas de aumento de imagem para o ESC50. O banco de dados Urbansoun8k foi o menos afetado, chegando a necessitar de seis vezes mais tempo de treino em razão de aumento absoluto de 1% na taxa de acurácia. A transferência de aprendizado e aumento de áudio, obteve uma taxa de acurácia superior a 97% e foi a combinação com maior taxa de acurácia. O trabalho mostrou a potencialidade de técnicas de aumento de áudio e ineficiência de técnicas de aumento de imagem para classificação de sons. Mostrou-se que bancos de dados maiores podem ser menos sensíveis à técnicas de aumento, mas são fortemente indicadas para bancos de dados com muitas classes. Desta forma, este trabalho apresenta atalhos que podem auxiliar na escolha das técnicas a serem utilizadas. Para maior segurança dos indícios apresentados, se faz necessário a revisão de mais trabalhos, além de ampliar a pesquisa para de técnicas de aumento online e baseadas em redes neurais. |