Sistema de Reconhecimento de Locutor Baseado em Mistura de ...lee/TALK/Presentation_DIA.pdf · Nas...
Transcript of Sistema de Reconhecimento de Locutor Baseado em Mistura de ...lee/TALK/Presentation_DIA.pdf · Nas...
Sistema de Reconhecimento de Locutor
Baseado em Mistura de Gaussianas
Diana C. Gonzalez, Lee Luan Ling e Fábio Violaro
DECOM - Departamento de Comunicações
Faculdade de Eng. Elétrica e de Computação
Universidade Estadual de Campinas (Unicamp)
Nas últimas décadas, os sistemas biométricos baseados
em reconhecimento de fala têm tido uma excelente
aceitação, por serem métodos econômicos para resolver
problemas de autorização/senha.
Combinação da anatomia inerente ao trato vocal
Hábitos usados pelos diferentes indivíduos
Não presencial
Quem Falou? Esta voz pertence a Jose?
Adicionalmente são classificados dependendo o tipo de
material de treinamento
Independente de Texto
Dependente de texto
Extração de
parâmetros
Treinamento
Modelo
Modelo
Comparação
com modelos
Modelo
Modelo Usuário 1
Usuário 2
Usuário 3
Extração de
parâmetrosUsuário 3
(1-0.95z-1 )
Pré-ênfase Janelamento de
Hamming
FFT |o|2
Banco de filtros
Escala Mel
Parâmetros
mel-cepstrais
Transformada
do Cosseno
Diagrama de blocos do processo de extração dos parâmetros mel-cepstrais
Análise Mel Cepstral
ix
Para a geração do modelo de cada locutor foi usado um mistura de
gaussianas λ•A entrada (parâmetros mel-cepstrais) são vetores D- dimensional
aleatórios.
•Cada dimensão e independente.
•Escolhe o numero de gaussianas para efetuar a modelagem.
iiip ,,
Mi ,,1
)()|(1
xbpxpM
i
ii
)()'(2
1exp
)2(
1)( 1
212 iii
i
Di xxxb
Densidade de Mistura de Gaussianas
Em nosso modelo empregamos matriz de covariância Σ diagonal
1. Escolhe-se um modelo inicial λ (KMEANS).
2. Estime-se um novo modelo dado:
Usando-se um algoritmo iterativo para reestimar os parâmetros
visando uma maximização da verossimilhança(Maximum
Likelihood Estimation– MLE)
)|()|( XpXp
Comparação
com modelosUsuário 2
Modelo
Modelo
Modelo Usuário 1
Usuário 3
Extração de
parâmetros
Usuário 3
No processo de treinamento o sistema gera um modelo (λ1, λ2, λ3... λN)
para cada um dos N locutores.
Neste processo o sistema recebe novas locuções pertencentes a qualquer
um dos locutores treinados e, após submeter seus parâmetros a cada um
dos modelos, procura o modelo que assegura a máxima verossimilhança.
Composta por sinais de fala de 71 locutores (50 homens e 21 mulheres)
Digitalizada a 22,05 kHz com 16 bits/amostra.
20 locuções de treinamento para cada locutor (90 s).
10 locuções para o testado cada locutor (2,5 s e 7 s).
Composta por sinais de fala de 30 locutores (15 homens e 15 mulheres)
Digitalizada a 11,025 kHz
30 locuções de treinamento para cada locutor (70 s). Frases foneticamente
balanceadas
10 locuções para o teste de cada locutor (2,5 s e 7 s).
Para a avaliação experimental tem-se projetado diferentes testes usando as
bases de dados, nos quais os parâmetros envolvidos no sistema (número de
gaussianas na mistura, deslocamento das janelas, etc.) são modificados.
Tabela 1. Desempenho do sistema com diferentes
deslocamentos das janelas.
Tabela 2. Desempenho do sistema de reconhecimento
com diferentes ordens do modelo.
Apresenta-se a percentagem de identificação correta, empregando-se
misturas com 3, 5 e 8 gaussianas (ordem do modelo).
Referências
[1] J. Campell, Speaker Recognition: A Tutorial, Proceeding of the IEEE,
vol.85, no 9, 1998.
[2] B.B. Mandelbrot, The Fractal Geometry of Nature, W. H. Freeman,
1982.
[3] Douglas A. Reynolds and Richard C. Rose, Robust Text-Independent
Speaker Identification Using
Mixture Speaker Model, IEEE Trans. Speech Audio Processing, vol. 3, no
1, pp.72-82, Jan. 1995.
[4] K. V. Mardia, J. T. Kent and J. M. Bibby, Multivariate Analysis. San
Diego: Academic Press, Series
of Monographs and Textbooks.