Sistema de Reconhecimento de Locutor Baseado em Mistura de ...lee/TALK/Presentation_DIA.pdf · Nas...

Sistema de Reconhecimento de Locutor

Baseado em Mistura de Gaussianas

Diana C. Gonzalez, Lee Luan Ling e Fábio Violaro

DECOM - Departamento de Comunicações

Faculdade de Eng. Elétrica e de Computação

Universidade Estadual de Campinas (Unicamp)

Nas últimas décadas, os sistemas biométricos baseados

em reconhecimento de fala têm tido uma excelente

aceitação, por serem métodos econômicos para resolver

problemas de autorização/senha.

Combinação da anatomia inerente ao trato vocal

Hábitos usados pelos diferentes indivíduos

Não presencial

Quem Falou? Esta voz pertence a Jose?

Adicionalmente são classificados dependendo o tipo de

material de treinamento

Independente de Texto

Dependente de texto

Extração de

parâmetros

Treinamento

Modelo

Modelo

Comparação

com modelos

Modelo

Modelo Usuário 1

Usuário 2

Usuário 3

Extração de

parâmetrosUsuário 3

(1-0.95z-1 )

Pré-ênfase Janelamento de

Hamming

FFT |o|2

Banco de filtros

Escala Mel

Parâmetros

mel-cepstrais

Transformada

do Cosseno

Diagrama de blocos do processo de extração dos parâmetros mel-cepstrais

Análise Mel Cepstral

ix

Para a geração do modelo de cada locutor foi usado um mistura de

gaussianas λ•A entrada (parâmetros mel-cepstrais) são vetores D- dimensional

aleatórios.

•Cada dimensão e independente.

•Escolhe o numero de gaussianas para efetuar a modelagem.

iiip ,,

Mi ,,1

)()|(1

xbpxpM

i

ii

)()'(2

1exp

)2(

1)( 1

212 iii

i

Di xxxb

Densidade de Mistura de Gaussianas

Em nosso modelo empregamos matriz de covariância Σ diagonal

1. Escolhe-se um modelo inicial λ (KMEANS).

2. Estime-se um novo modelo dado:

Usando-se um algoritmo iterativo para reestimar os parâmetros

visando uma maximização da verossimilhança(Maximum

Likelihood Estimation– MLE)

)|()|( XpXp

Comparação

com modelosUsuário 2

Modelo

Modelo

Modelo Usuário 1

Usuário 3

Extração de

parâmetros

Usuário 3

No processo de treinamento o sistema gera um modelo (λ1, λ2, λ3... λN)

para cada um dos N locutores.

Neste processo o sistema recebe novas locuções pertencentes a qualquer

um dos locutores treinados e, após submeter seus parâmetros a cada um

dos modelos, procura o modelo que assegura a máxima verossimilhança.

Composta por sinais de fala de 71 locutores (50 homens e 21 mulheres)

Digitalizada a 22,05 kHz com 16 bits/amostra.

20 locuções de treinamento para cada locutor (90 s).

10 locuções para o testado cada locutor (2,5 s e 7 s).

Composta por sinais de fala de 30 locutores (15 homens e 15 mulheres)

Digitalizada a 11,025 kHz

30 locuções de treinamento para cada locutor (70 s). Frases foneticamente

balanceadas

10 locuções para o teste de cada locutor (2,5 s e 7 s).

Para a avaliação experimental tem-se projetado diferentes testes usando as

bases de dados, nos quais os parâmetros envolvidos no sistema (número de

gaussianas na mistura, deslocamento das janelas, etc.) são modificados.

Tabela 1. Desempenho do sistema com diferentes

deslocamentos das janelas.

Tabela 2. Desempenho do sistema de reconhecimento

com diferentes ordens do modelo.

Apresenta-se a percentagem de identificação correta, empregando-se

misturas com 3, 5 e 8 gaussianas (ordem do modelo).

Referências

[1] J. Campell, Speaker Recognition: A Tutorial, Proceeding of the IEEE,

vol.85, no 9, 1998.

[2] B.B. Mandelbrot, The Fractal Geometry of Nature, W. H. Freeman,

1982.

[3] Douglas A. Reynolds and Richard C. Rose, Robust Text-Independent

Speaker Identification Using

Mixture Speaker Model, IEEE Trans. Speech Audio Processing, vol. 3, no

1, pp.72-82, Jan. 1995.

[4] K. V. Mardia, J. T. Kent and J. M. Bibby, Multivariate Analysis. San

Diego: Academic Press, Series

of Monographs and Textbooks.

Sistema de Reconhecimento de Locutor Baseado em Mistura de ...lee/TALK/Presentation_DIA.pdf · Nas...

Documents

Transcript of Sistema de Reconhecimento de Locutor Baseado em Mistura de ...lee/TALK/Presentation_DIA.pdf · Nas...