Simpósio de Integração Acadêmica - Universidade Federal de Viçosa

Ciência e Tecnologia: bases para o Desenvolvimento Social

20 a 25 de outubro de 2014

Trabalho 2363

ISSN	2237-9045
Instituição	Universidade Federal de Viçosa
Nível	Graduação
Modalidade	Pesquisa
Área de conhecimento	Ciências Exatas e Tecnológicas
Área temática	Teoria e Tecnologia da informação
Setor	Departamento de Engenharia Elétrica
Bolsa	FAPEMIG
Conclusão de bolsa	Não
Apoio financeiro	FAPEMIG
Primeiro autor	Jhonatan de Souza Oliveira
Orientador	ALEXANDRE SANTOS BRANDAO
Título	Redes Neurais Artificiais Aplicadas ao Reconhecimento de Voz
Resumo	Em uma visão geral, o sistema de reconhecimento de comandos de voz deve identificar um sinal de áudio e classificar entre cinco comandos a priori definidos: frente, direita, esquerda, trás e para. Cada comando de voz deve ser um padrão detectável por uma rede neural artificial (RNA). Primeiramente, faz-se uma análise do sinal de entrada, a fim de detectar um possível padrões. Caso os dados de voz não apresentem padrões aparentes, um processo de filtragem é aplicado, com o intuito de destacar e enfatizar as informação relevantes do sinal, ou seja, destacar o comando de voz. Para a criação do banco de dados, o áudio de cada comando foi gravado 20 vezes por dois interlocutores, ou seja, 40 áudios por comando, totalizando 200 áudios para os cinco comandos desejados. Os áudios têm durações de três segundos e não passaram por nenhum processo de pré processamento. Para posterior análise da relação sinal-ruído, foi capturado o sinal sonoro do ambiente natural no momento da gravação. A metodologia usada foi a seguinte: da duração total de três segundos, os primeiros 0.5 segundos refere-se ao som ambiente. Na sequência, o interlocutor fala por dois segundos. Por fim, grava-se novamente o som ambiente por outros 0.5 segundos. Conforme mencionado, o som ambiente é considerado ruído e foi gravado de forma intercalado, a fim de se obter uma amostragem mais homogênea, considerando possíveis variações do som ambiente durante a gravação. Na etapa de análise dos dados, fez-se uma análise representativa dos comandos de voz no tempo, de modo a encontrar um padrão aparante. Em outras palavras, o comando de voz foi exibido em um gráfico tempo versus amplitude do sinal sonoro. Em seguida, fez-se uma análise do espectro de frequência do sinal, a fim de destacar as regiões do comando de voz. Uma vez visualizados, foram extraída informações sobre os comando de voz, que serviram de dados de entrada de treinamento e validação das RNAs. No caso desse trabalhos, foram utilizados coeficientes obtidos pela escala Mel-Cepstral. As RNAs foram montadas seguindo a estrutura um contra todos (one against all), como, por exemplo, identificar se o sinal de voz se refere ou não ao comando frente. Neste caso, um comando somente será identificado e classificado, se uma única RNA das cinco possível for excitada na saída pelos dados de entrada. Após etapa de treinamento, o sistema apresentou um nível de acerto de 91,67%, para um ambiente de gravação silencioso, cuja relação sinal-ruído era de 49,58 dB.
Palavras-chave	redes neurais artificiais, comandos de voz, inteligência artificial
Forma de apresentação.....	Oral

Universidade Federal de Viçosa

Gerado em 0,73 segundos.