Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes.

40
CELP Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes

Transcript of Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes.

  • Slide 1
  • Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes
  • Slide 2
  • Motivao Comunicaes de voz permanecer o meio predominante de comunicao humana. Proporciona a transmisso de sinais de fala com boa qualidade atravs de canais de comunicao com banda estreita. O sistema CELP o ncleo da maioria dos sistema celular, e sistemas de comunicao de banda estreita(VoIP).
  • Slide 3
  • SINAIS DA FALA Fala produzido por um sinal de excitao gerada em nossa garganta, o que modificado por ressonncias produzidas por diferentes formatos de nosso trato vocal, nasal e da faringe.
  • Slide 4
  • Vogais e Consoantes Este sinal de excitao pode ser a vibrao glotal produzido pela abertura e fechamento peridico cordas vocais o que cria voz sonora, como as vogais ou apenas o fluxo continuo de ar empurrado por nossos pulmes, que cria a fala no articulada, tais como o consoantes, ou mesmo uma combinao de ambos ao mesmo tempo
  • Slide 5
  • Anatomia da voz As trs estruturas mais importantes so os pulmes as cordas vocais e a laringe. A fonte de energia para a gerao de sons provida pelo diafragma e msculos abdominais que pressionam os pulmes e geram um fluxo de ar controlado que passa pelas cordas vocais. O mecanismo de produo da voz apresenta uma resposta limitada em freqncia, com limite por volta de 10kHz. 95% da energia do sinal de voz esta concentrada na faixa de freqncia entre 300 e 3400 Hz, pode se limitar o canal a esta banda com uma perda tolervel em qualidade.
  • Slide 6
  • Anatomia do voz Quando o ar vibrante entra na glote h uma mudana na resistncia do ar (ao abrir ou fechar a continuidade da traquia) e isso faz o processo de modulao da voz.
  • Slide 7
  • Anatomia da voz O som produzido quando a glote, que uma abertura nas cordas vocais, vibra abrindo e fechando. O fluxo de ar interrompido e assim se cria uma seqncia de impulsos que possuem algumas freqncias bsicas chamadas de tom (pitch). Nos homens estas freqncias esto entre 80 e 160Hz e nas mulheres entre 180 e 320Hz.
  • Slide 8
  • Vogais e consoantes Exemplos de sons do tipo VOICED so as 5 vogais, das quais notam-se claras diferenas no pitch e na formant do sinal ao comparar o som da vogal A com o som da vogal I dispostas nas figuras abaixo:
  • Slide 9
  • Vogais e consoantes
  • Slide 10
  • Vogais e Consoantes J os sons do tipo UNVOICED, so bem caracterizados atravs do exemplo do fonema S, que consta abaixo. Sons deste tipo so descritos atravs de AWGN Aditive White Gaussian Noise, e possui amplitude praticamente constante em todo espectro.
  • Slide 11
  • Pitch e formantes O componente peridica da excitao glotal caracterizado pela sua freqncia fundamental F0 [Hz], chamado pitch. As freqncias de ressonncia o trato vocal, oral e da faringe so chamados formantes. No espectro de um quadro de fala, o pitch aparece como picos estreitos na fundamental e harmnicas Formantes aparecem como picos largos do envelope do espectro
  • Slide 12
  • Pitch e formantes
  • Slide 13
  • Codecs existentes Comparao rudimentar de alguns dos esquemas de codec existens na atualidade em termos de qualidade de voz e bitrate.
  • Slide 14
  • Evoluo dos algoritmos
  • Slide 15
  • Linear Predictive Code Anlise de predio linear de sinais de voz o ncleo da maioria dos sistemas de codificao parametricos de voz (Celulares, VoIP, e etc). Um modelo simples de sntese da voz que tem sido usado em processamento de fala para vrias aplicaes de codificao.
  • Slide 16
  • Modelo do aparelho fonador Este modelo do sistema inspirado no mecanismo humano de produo da fala. Voz sonora produzida pela exitao do filtro do trato vocal com pulsos quasi-peridica do glote. A periodicidade da voz sonora devido vibrao cordas vocais. Fala no articulada (no vozeada) produzido forando o ar atravs de uma constrio no trato vocal.
  • Slide 17
  • Linear Predictive Coding O trato vocal geralmente representado por filtro digital de dcima ordem do tipo somente plos, como mostrado no modelo LPC da fala. A fala produzida pela excitao do filtro do trato vocal, com pulsos quasi-periodicos pulsos da glote E a fala no articulada gerada usando o estmulo rudo aleatrio ou pseudo-branco. Os coeficientes do filtro e os parmetros de excitao so geralmente determinadas a cada 20 ms ou menos.
  • Slide 18
  • Codificador LPC
  • Slide 19
  • Decodificador LPC
  • Slide 20
  • Comparao entre real e LPC
  • Slide 21
  • LINEAR PREDICTIVE CODING O filtro digital para aplicaes do linear predictive coding caracterizado pela seguinte equao de diferenas. Os parmetros de a i so os coeficientes do filtro e controlam as caractersticas de freqncia de resposta do filtro. Estes so determinados pela analise LPC.
  • Slide 22
  • Analise LPC
  • Slide 23
  • Derivao do algoritimo LPC O objetivo do LPC minimizar a informao contida no sinal de exitao. Os parametros de predio a i so desconhecidos e so determinadas pela minimizao Erro quadratico medio (MSE) do sinal de exitao (e(n)).
  • Slide 24
  • O sinal de excitao (e(n)) pode ser gerado apartir de um sinal de voz (s(n)) atraves da convoluo com o filtro LPC inverso, o qual um filtro FIR, com coeficientes a i (a determinar) Derivao do algoritimo LPC
  • Slide 25
  • Isto feito tomando a deriva do sinal de energia da exitao a cada uma dos coeficientes, e igualando a zero.
  • Slide 26
  • Derivao do algoritimo LPC Isto gera uma Matriz Toepliz, que pode ser resolvida usando o algoritmo recursivo Levinson-Durbin.
  • Slide 27
  • Fittro de sintese A predio dos parmetros a(i) tambm so usados para formar o filtro digital somente plos para sntese de voz. Os coeficientes do LPC so computados resolvendo o a matriz de autorrelao, gerando o filtro:
  • Slide 28
  • Estruturas de Filtros All-Pole Filtro all-pole, forma direta. Filtro lattice Tem a vantagem de ter maior imunidade a quantizao
  • Slide 29
  • Estimao do ganho O valor do ganho a ser aplicado no sinal de exitao escolhido determinado pelo valor RMS do sinal de exitao ideal. O qual obtido na analise LPC, sendo o primeiro coeficiente d matrix de autocorrelao
  • Slide 30
  • Seleo de sinal vozeado no vozeado Apartir do sinal de autocorrelao do sinal (excluindo o valor R(0)) definido um limiar de deciso. Usualmente 0,3 do valor normalizado do vetor.
  • Slide 31
  • Estimao periodo do Pitch A fala possui uma falsa periodicidade, oque dificulta a estimativa do pitch Pode ser determinado apartir do sinal de autocorrelao do sinal, procurando os valores de pico e repties do sinal (na faixa de 20 a 160). Como visto nas figuras abaixo.
  • Slide 32
  • Estimativa do pitch - Sinal no vozeado
  • Slide 33
  • Estimativa do pitch - Sinal vozeado
  • Slide 34
  • Code Excited Linear Prediction Explora melhor a idia de codificao anlise-por- sntese da fala, utilizando o conceito de quantizao vetorial (VQ) para a seqncia de excitao. O codificador seleciona uma sequncia de excitao de um codebook de seqncias pr-definidas estocsticas.
  • Slide 35
  • CELP CELP, adicionalmente, aproveita a periodicidade de sons vozeados e melhorar a eficincia do preditor. O filtro do preditor de termo longo cascateado com o filtro de sntese, o que melhora a eficincia do codebook O mais simples preditor de longo prazo consiste de um filtro de um nico polo, o qual representa um simples atraso com ganho ajustvel O mtodo de escolha dos vetores do Codebook a analise por sntese
  • Slide 36
  • CELP : Analise por sintese O sistema varre cada um dos possveis candidatos a sinal de excitao oriundos do gerador de excitao Identifica o sinal que minimiza o erro entre o correspondente sinal sintetizado e o sinal de fala da entrada O Decoder correspondente simplesmente o gerador de excitao e o filtro de sintetizao.
  • Slide 37
  • CELP : Com filtro LTP Esta estrutura adiciona o filtro de predio longa (LTP), o qual utilizado para aproveitar o fato de que o sinal de exitao tem uma alta autocorrelao na frequencia do pitch.
  • Slide 38
  • CELP : Estrutura Original A estrutura do codificador CELP original tem como filtro LTP um filtro de um plo apenas. Essa adio aproveita o fato de que o sinal de exitao apresenta uma alta autocorelao na frequencia do pitch. Porem esse modelo computacionalmente ineficiente.
  • Slide 39
  • CELP : Codebook Adaptativo Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parmetros do filtro de predio longa so simplificados a busca de um vetor no codebook adaptativo.
  • Slide 40
  • CELP : Estrutura final Retirar o efeito do frame anterior deixado nas condies iniciais do filtro de sintese. Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado.E retirar o efeito desta exitao Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.