Resumo |
Em uma visão geral, o sistema de reconhecimento de comandos de voz deve identificar um sinal de áudio e classificar entre cinco comandos a priori definidos: frente, direita, esquerda, trás e para. Cada comando de voz deve ser um padrão detectável por uma rede neural artificial (RNA). Primeiramente, faz-se uma análise do sinal de entrada, a fim de detectar um possível padrões. Caso os dados de voz não apresentem padrões aparentes, um processo de filtragem é aplicado, com o intuito de destacar e enfatizar as informação relevantes do sinal, ou seja, destacar o comando de voz. Para a criação do banco de dados, o áudio de cada comando foi gravado 20 vezes por dois interlocutores, ou seja, 40 áudios por comando, totalizando 200 áudios para os cinco comandos desejados. Os áudios têm durações de três segundos e não passaram por nenhum processo de pré processamento. Para posterior análise da relação sinal-ruído, foi capturado o sinal sonoro do ambiente natural no momento da gravação. A metodologia usada foi a seguinte: da duração total de três segundos, os primeiros 0.5 segundos refere-se ao som ambiente. Na sequência, o interlocutor fala por dois segundos. Por fim, grava-se novamente o som ambiente por outros 0.5 segundos. Conforme mencionado, o som ambiente é considerado ruído e foi gravado de forma intercalado, a fim de se obter uma amostragem mais homogênea, considerando possíveis variações do som ambiente durante a gravação. Na etapa de análise dos dados, fez-se uma análise representativa dos comandos de voz no tempo, de modo a encontrar um padrão aparante. Em outras palavras, o comando de voz foi exibido em um gráfico tempo versus amplitude do sinal sonoro. Em seguida, fez-se uma análise do espectro de frequência do sinal, a fim de destacar as regiões do comando de voz. Uma vez visualizados, foram extraída informações sobre os comando de voz, que serviram de dados de entrada de treinamento e validação das RNAs. No caso desse trabalhos, foram utilizados coeficientes obtidos pela escala Mel-Cepstral. As RNAs foram montadas seguindo a estrutura um contra todos (one against all), como, por exemplo, identificar se o sinal de voz se refere ou não ao comando frente. Neste caso, um comando somente será identificado e classificado, se uma única RNA das cinco possível for excitada na saída pelos dados de entrada. Após etapa de treinamento, o sistema apresentou um nível de acerto de 91,67%, para um ambiente de gravação silencioso, cuja relação sinal-ruído era de 49,58 dB. |