Post on 27-Dec-2018
Universidade Estadual do Oeste do Paraná
Controle De Robô Lego® Mindstorms NXT por
Comandos de Voz Utilizando MATLAB®
Diego Henrique Pagani
Bolsista: PET - MEC/SiSU
Ciência da Computação - 2009
Adriana Postal – CCET/Cascavel
Introdução
Objetivo
Justificativa
Sistema de Reconhecimento de Comandos de Voz
Fase de treinamento
Fase de testes
Experimento
Resultados obtidos
Considerações finais
Trabalhos futuros
Introdução
Objetivo
Estudar e implementar um sistema de manipulação do Robô Lego® NXT utilizando a voz
Justificativa
Tornar a interação humano-robô mais eficiente;
Desenvolvimento de tecnologias assistivas Cadeiras de rodas motorizadas
Comandar utensílios domésticos por voz
Batedeira, liquidificador, fogão
Sistema de reconhecimento
Módulo de treinamento
1. Captura da voz
2. Pré-processamento
3. Classificação manual
4. Armazenagem
Módulo de testes
1. Captura da voz
2. Pré-processamento
3. Classificação pelo sistema
4. Envio ao robô
Pré-processamento Som é coletado com
11.000 amostras por segundo
16 bits
1 canal
É utilizado o MFC (mel frequency cepstral)
Espectro do som capturado diretamente traz ondulações;
Com isso o som é filtrado para remover as imperfeições;
Aplicado o Mel Cepstrum (envolve FFT e normalização);
Retirado os níveis de energia em cada tom, normalizado pela escala Mel
Para o reconhecedor, o fator mais importante é a mudança do espectro da voz(PLANNER,2005)
Fase de treinamento Captura múltiplas amostras
Realiza o pré-processamento
Classifica o comando manualmente
Armazena estas informações Utilizando o formato próprio do MATLAB®
Coleta de
várias amostras
Pré-processamento
Classificação manual
Armazenagem
Fase de testes 1. Captura o comando a ser avaliado;
2. Realiza o pré-processamento;
3. Carrega o banco de dados
4. Faz a comparação com a base de dados.
Algoritmo da distância de Levenshtein:
Retorna o total de operações necessárias para alterar um elemento A para que seja igual a um elemento B;
X = bananna
Y = canana
Levenshtein(X,Y) = 2
O Experimento 2 Locutores
3 comandos
Base: 10 amostras por comando
Teste: 33 amostras por comando
Base A Base B Base A+B
Locutor 1 96% 85% 96%
Locutor 2 49% 72% 75%
Resultados obtidos
Problemas Metodológicos
Falta de padronização de captura do som;
Local para coleta sucetível a ruídos externos.
Do Sistema
Carência de locutores/amostras de diferentes tons e intensidades;
Poucos testes realizados;
Falta: avaliar se os tons, intensidades e timbre influenciam na classificação.
Revisão bibliográfica
Falta de explicações concretas
Considerações Finais
O Sistema apresentou resultados esperados;
Faltam testes a serem feitos;
Locutores com maior diferença entre voz
Aumentar quantidade de locutores
Outros métodos de classificação
Revisar a Implementação;
Trabalhos futuros
Avaliar outros métodos de classificação
Redes Neurais
Árvores de decisão
Portar o Sistema para outra linguagem
C++
Java (aplicação em dispositivos móveis)
Revisão bibliográfica
Outros métodos de processamento da voz e filtragem