CELP

40
CELP Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes

description

CELP. Artur Benneman Rafael Henrique de Moraes Feron Renan dos Santos Fagundes. Motivação. Comunicações de voz permanecer o meio predominante de comunicação  humana. Proporciona a transmissão de sinais de fala com boa qualidade através de canais de comunicação com banda estreita. - PowerPoint PPT Presentation

Transcript of CELP

VOVO

CELPArtur Benneman Rafael Henrique de Moraes FeronRenan dos Santos FagundesMotivaoComunicaes de voz permanecer o meio predominante decomunicaohumana.Proporciona a transmisso de sinais de fala com boa qualidade atravs de canais de comunicao com banda estreita.O sistema CELP o ncleo da maioria dos sistema celular, e sistemas de comunicao de banda estreita(VoIP).

O sistema de celular necessita cada vez mais de canais de comunicao para poder alocar mais usuarios falando simultaneamente, isso tudo sobre uma largura de espectro fixa, e uma das maneiras de conserguir alocar mais usuarios diminuindo a banda necessaria para alocar cada usuario.2

SINAIS DA FALAFala produzido por umsinal de excitaogerada emnossa garganta, o que modificado porressonnciasproduzidas pordiferentes formatos de nosso trato vocal,nasal e da faringe.Vogais e ConsoantesEstesinal de excitaopode ser avibrao glotalproduzido pela aberturae fechamentoperidico cordas vocaiso que criavoz sonora, comoas vogaisou apenas o fluxo continuo de arempurrado pornossos pulmes, que criaa fala no articulada, tais como oconsoantes, ou mesmouma combinao de ambosao mesmo tempoAnatomia da vozAs trs estruturas mais importantes so os pulmes as cordas vocais e a laringe. A fonte de energia para a gerao de sons provida pelo diafragma e msculos abdominais que pressionam os pulmes e geram um fluxo de ar controlado que passa pelas cordas vocais.O mecanismo de produo da voz apresenta uma resposta limitada em freqncia, com limite por volta de 10kHz.95% da energia do sinal de voz esta concentrada na faixa de freqncia entre 300 e 3400 Hz, pode se limitar o canal a esta banda com uma perda tolervel em qualidade.

que pressionam os pulmes e geram um fluxo de ar controlado que passa pelas cordas vocais.5Anatomia do vozQuando o ar vibrante entra na glote h uma mudana na resistncia do ar (ao abrir ou fechar a continuidade da traquia) e isso faz o processo de modulao da voz.

quando uma pessoa comea a falar, o ar empurrado do pulmo pela fora dos msculos e passa pela regio vocal, que se estende da glote at a boca, incluindo as trs cavidades mostradas na Figura 1.

6Anatomia da vozO som produzido quando a glote, que uma abertura nas cordas vocais, vibra abrindo e fechando. O fluxo de ar interrompido e assim se cria uma seqncia de impulsos que possuem algumas freqncias bsicas chamadas de tom (pitch). Nos homens estas freqncias esto entre 80 e 160Hz e nas mulheres entre 180 e 320Hz.

7Vogais e consoantesExemplos de sons do tipo VOICED so as 5 vogais, das quais notam-se claras diferenas no pitch e na formant do sinal ao comparar o som da vogal A com o som da vogal I dispostas nas figuras abaixo:

O codebook adaptativo uma maneira diferente de atingir efeitos similares ao filtro de predio longa (LTP). Os vetores do codebook adaptativo so formados pelo sinal de exitao deslocado de amostra em amostra (isso gera a necessidade de um buffer para o sinal de exitao). Em outras palavras, o codebook adaptativo obtido pela rotao de uma janela retangular sobre o sinal de exitao para retirar diferentes sees do buffer.

Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parametros do filtro de predio longa so simplificados a busca de um vetor no codebook adaptativo.Procedimento o qual seria de grande dificuldade computacional utilizando o filtro LTP, pois cada vetor do codebook fixo teria que ser analizado para todos os valores de pitch.

O procedimento a ser executado o seguinte:Retirar o efeito do frame anterior deixado nas condies iniciais do filtro de sintese.Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado. E retirar o efeito desta exitao.Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.

8Vogais e consoantes

Vogais e ConsoantesJ os sons do tipo UNVOICED, so bem caracterizados atravs do exemplo do fonema S, que consta abaixo. Sons deste tipo so descritos atravs de AWGN Aditive White Gaussian Noise, e possui amplitude praticamente constante em todo espectro.

Pitch e formantesO componenteperidicada excitaoglotal caracterizado pela sua freqncia fundamental F0[Hz], chamado pitch.As freqnciasde ressonncia o tratovocal,oral e da faringeso chamadosformantes.No espectro de umquadrode fala, o pitch aparece comopicosestreitos nafundamental eharmnicasFormantesaparecem comopicoslargosdo envelopedo espectroPitch e formantes

Codecs existentesComparaorudimentar dealguns dos esquemas decodec existens na atualidadeem termos dequalidade de vozebitrate.

A pontuaode opinioformalmente avaliados (MOS- means opinion score)valoresdosvrios codecs13Evoluo dos algoritmos

Linear Predictive CodeAnlise depredio linearde sinais de voz o ncleo da maioriados sistemas de codificao parametricos de voz (Celulares, VoIP, e etc).

Um modelo simples desntese da voz quetem sido usado em processamento de fala paravrias aplicaes de codificao. Modelo LPC o nucleo da maioria dos sitemas mostrados anteriormente15Modelo do aparelho fonador

Estemodelo do sistema inspirado no mecanismo humano deproduo da fala.

Voz sonora produzida pelaexitao do filtrodo trato vocal com pulsos quasi-peridica do glote.

A periodicidade davoz sonora devido vibrao cordasvocais.

Fala no articulada (no vozeada) produzidoforando o aratravs de umaconstriono trato vocal.

Linear Predictive CodingO tratovocal geralmenterepresentado por filtro digital de dcima ordem do tipo somente plos, como mostrado no modelo LPC da fala.A fala produzida pela excitao do filtro do trato vocal, com pulsos quasi-periodicos pulsos da glote E a fala no articulada geradausando o estmulo rudo aleatrio oupseudo-branco.Os coeficientes do filtroe os parmetrosde excitaoso geralmentedeterminadasa cada 20 msou menos.The periodicity of voiced speech is due to the vibrating vocal chords.17

Codificador LPCDecodificador LPC

As early as 1960, Fant proposed a linear model of speech production (Fant, 1960), termed as the source-filter model, based on the hypothesis that the glottis and the vocal tract are fully uncoupled. This model led to the well-known autoregressive (AR) or linear predictive (LP)2 model of speech production (Rabiner and Shafer 1978), which describes speech s(n) as the output of an all-pole filter 1/A(z), resulting from some excitation : s( n ) e( n ) 0

where and are the Z transforms of the speech and excitation signals respectively, and p is the prediction order. The excitation of the LP model (Fig. 1.2) is assumed to be either a sequence of regularly spaced pulses (whose period T0 and amplitude can be adjusted), or white Gaus-sian noise (whose variance can be adjusted), thereby implicitly defining the so-called Voiced/Unvoiced (V/UV) decision. The filter 1/Ap(z) is termed as the synthesis filter and Ap(z) is called the inverse filter. S( z ) E( z )

Equation (1.1) implicitly introduces the concept of linear predictability of speech (hence the name of the model), which states that each speech sample can be expressed as a weighted sum of the p previous samples, plus some excitation contribution: 19Comparao entre real e LPC

LINEAR PREDICTIVE CODINGO filtro digital para aplicaes do linear predictive coding caracterizado pela seguinte equao de diferenas.

Osparmetros deai so os coeficientes do filtroe controlamas caractersticas de freqnciade resposta do filtro.Estes so determinados pela analise LPC.Filtro de sintese21Analise LPC

Levinson-Durbin algoritmo que resolve matrix toeplizMatrix que as diagonais so constantes22Derivao do algoritimo LPCO objetivo do LPC minimizar a informao contida no sinal de exitao. Os parametros de predioaiso desconhecidos e so determinadas pela minimizao Erro quadratico medio (MSE) do sinal de exitao (e(n)).

The prediction parameters a(i) are also used to form the all-pole digitalfilter for speech synthesis. The minimization of the MSE yields a set of autocorrelation equationsthat can be represented in terms of the matrix equation,23O sinal de excitao (e(n)) pode ser gerado apartir de um sinal de voz (s(n)) atraves da convoluo com o filtro LPC inverso, o qual um filtro FIR, com coeficientes ai (a determinar)

Derivao do algoritimo LPCDerivao do algoritimo LPCIsto feito tomando a deriva do sinal de energia da exitao a cada uma dos coeficientes, e igualando a zero.

N numero de amostras no frame

The autocorrelation are computed once per speech frame25Derivao do algoritimo LPCIsto gera uma Matriz Toepliz, que pode ser resolvida usando o algoritmo recursivo Levinson-Durbin.

Para isso pode ser usados os seguintes metodos.The Gaussian elimination method.Any matrix inversion method (MATLAB).The Levinson-Durbin recursion (described below).

26Fittro de sinteseA predio dos parmetros a(i)tambm so usadospara formaro filtro digital somente plos parasntese de voz.

Os coeficientes do LPC so computados resolvendo o a matriz de autorrelao, gerando o filtro:

Estruturas de Filtros All-Pole

Filtro all-pole, forma direta.Filtro lattice Tem a vantagem de ter maior imunidade a quantizaoN pratica o filtro de sintese calculado com uma estrutura lattice.

Duas maneiras de implementar filtros all poles;O segundo menos sensvel a quantizao LATTICE;Os paramentros do primeiro so tranaformados para o LATTICELSP line spectral Pairs28Estimao do ganhoO valor do ganho a ser aplicado no sinal de exitao escolhido determinado pelo valor RMS do sinal de exitao ideal.

O qual obtido na analise LPC, sendo o primeiro coeficiente d matrix de autocorrelaoSeleo de sinal vozeado no vozeadoApartir do sinal de autocorrelao do sinal (excluindo o valor R(0)) definido um limiar de deciso.Usualmente 0,3 do valor normalizado do vetor.Estimao periodo do PitchA fala possui uma falsa periodicidade, oque dificulta a estimativa do pitchPode ser determinado apartir do sinal de autocorrelao do sinal, procurando os valores de pico e repties do sinal (na faixa de 20 a 160).Como visto nas figuras abaixo.Amais caramas tambmmais robustoEstritamente falandocampo, definida como afreqncia percebidafundamental.31Estimativa do pitch - Sinal no vozeado

Excluindo o valor em zero,A auto correlao muito baixa.Abaixo de 0,3.32

Estimativa do pitch - Sinal vozeadoPontinho vermelho em 53Logo o sinal se repete a cada 53 amostrasLogo o pitch = 5333

Code Excited Linear Prediction Explora melhor a idia decodificaoanlise-por-snteseda fala, utilizando o conceito dequantizao vetorial(VQ)para a seqnciade excitao.O codificadorselecionaumasequnciade excitaode um codebookde seqncias pr-definidas estocsticas.

CELPCELP, adicionalmente,aproveita aperiodicidade desons vozeados e melhorar a eficinciado preditor.O filtro do preditor de termo longo cascateado com o filtro de sntese, o que melhora a eficincia do codebookO mais simplespreditorde longo prazo consistede um filtro de um nico polo, o qual representa um simples atrasocom ganho ajustvelO mtodo de escolha dos vetores do Codebook a analise por snteseCELP : Analise por sintese

O sistema varre cada um dos possveis candidatos a sinal de excitao oriundos do gerador de excitao

Identifica o sinal que minimiza o erro entre o correspondente sinal sintetizado e o sinal de fala da entrada

O Decoder correspondente simplesmente o gerador de excitao e o filtro de sintetizao .

Na analise por sintese de codificadores de sinais de fala,Para alcanar um melhor eficiencia, o sinal de predio residual, ou sinal de excitao, usualmentequantizado bloco por bloco, ao inves de amostra por amostra,Onde cada bloco tipicamente 0,5 10ms de comprimento (4-80 amostras a 8ksps)Cada bloco de amostras comumente chamado de vetor

O retangulo consiste de gerador de excitao seguido do filtro de sinteseO sistema varre cada um dos possiveis candidatos a sinal de excitao oriundos do gerador de excitaoPassando cada um deles pelo filtro de sintese e identifica o sinal que minimiza o erro entre o correspondente sinal sintetizado E o sinal de fala da entradaNote que este apenas a estrutura do encoder.O Decoder correspondente simplismente o gerador de excitao e o filtro de sintetizao .

36CELP : Com filtro LTPEsta estrutura adiciona o filtro de predio longa (LTP), o qual utilizado para aproveitar o fato de que o sinal de exitao tem uma alta autocorrelao na frequencia do pitch.

A figura mostra a estrutura do codificador Analise por sintese de fala um pouco mais detalhada e generalizada

Esta figura cobre a maioria dos codificadores de fala por analise por sintese, pelo menos no nivel conceitual

Este modelo adicionou:1. Adicionou um modificador de sinal de fala opicional 2. Usa minimizao de erros ponderado3. Expandiou o gerador de excitao e filtro de sintese em mais blocos

O proposito do modificador do sinal de entrada que no haja degradao apreciavel da qualidade de sinalE ainda assim fazer o resultado da pala modificada facil de codificar (oque requer uma taxa de transmisso menor, para um mesma qualidade de som percebida). Esta tecnica usada para melhorar a eficiencia do codificador. Contudo em alguns analise por sintese codificadores de fala no usam isso, porqueaumenta a complexidadee pode, ocasionalmente, causar degradaoligeiramenteaudvel paraqualidade de voz.

O bloco minmizador de erro ponderado normalmente usado paramoldar oespectro do rudode codificaoassim isto segue o espectro do sinal de entrada para algum medido um processo usualmente referido como moldagem de espetro de ruidoDevido ao efeito demascaramentodorudosistema auditivo humano, comoformade codificaode espectro o rudo menos audveis aosouvidos humanos.

O gerador deformade excitaogeravetoresde excitaocom todos os tiposde possveisformas vetoriaisenquanto tomaganhos(medidopor um vetornormal)sejaigual a um valornico ouencontram-se dentrouma estreita faixaem torno de umnico valor.

37

CELP : Estrutura OriginalA estrutura do codificador CELP original tem como filtro LTP um filtro de um plo apenas. Essa adio aproveita o fato de que o sinal de exitao apresenta uma alta autocorelao na frequencia do pitch. Porem esse modelo computacionalmente ineficiente.Esta estrutura basicamente a mesma que o codificador Analise por sintese de fala mostrado na figura anteriorExeto pelas especificao da estruta do filtro e a funo de trasnferencia so dados aplicado sobre o sinal de exitao do filtro de sintese, esse filtro comumente chamado de filtro de predio longa (LTP).O Codebook Adaptativo, o filtro de sintesis For convenience of later discussion of theso-called adaptive codebook, the long-term synthesisfilter is reverted from a three-tap filter back to a singletapfilter as used in the improved MPLPC [17.19]. Theshort-term synthesis filter is 1/A(z). The weighted errorminimizationis explicitly separated into a perceptualweighting filter as defined in (17.3) followed by MSEminimization.Por 38

CELP : Codebook AdaptativoCada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parmetros do filtro de predio longa so simplificados a busca de um vetor no codebook adaptativo.

CELP : Estrutura final

Retirar o efeito do frame anterior deixado nas condies iniciais do filtro de sintese.

Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado.E retirar o efeito desta exitao

Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.

O codebook adaptativo uma maneira diferente de atingir efeitos similares ao filtro de predio longa (LTP). Os vetores do codebook adaptativo so formados pelo sinal de exitao deslocado de amostra em amostra (isso gera a necessidade de um buffer para o sinal de exitao). Em outras palavras, o codebook adaptativo obtido pela rotao de uma janela retangular sobre o sinal de exitao para retirar diferentes sees do buffer.

Cada vetor do Codebook adaptativo representa diferentes valores de pitch. Assim a busca pelos os parametros do filtro de predio longa so simplificados a busca de um vetor no codebook adaptativo.Procedimento o qual seria de grande dificuldade computacional utilizando o filtro LTP, pois cada vetor do codebook fixo teria que ser analizado para todos os valores de pitch.

O procedimento a ser executado o seguinte:Retirar o efeito do frame anterior deixado nas condies iniciais do filtro de sintese.Encontrar o vetor do codebook Adaptativo que minimiza o Erro quadratico do sinal sintetizado. E retirar o efeito desta exitao.Encontrar o vetor do codebook Fixo que minimiza o Erro quadratico do sinal sintetizado.

40