Avaliação perceptual do codec G729 utilizando algoritmo PESQ

PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL FACULDADE DE ENGENHARIA

PROGRAMA DE PS GRADUAO EM ENGENHARIA ELTRICA

FL`VIO LUIS WISNEVSKI.

CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E

PERCEPTUAL DO SINAL DE VOZ

Porto Alegre Agosto - 2011

2

FL`VIO LUIS WISNEVSKI

CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E PERCEPTUAL DO SINAL DE VOZ

DISSERTAO APRESENTADA COMO REQUISITO PARCIAL PARA OBTENO DO GRAU DE MESTRE, PELO PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA DA PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL.

Orientador: Prof. Dr. Rubem Dutra Ribeiro Fagundes

Porto Alegre Agosto - 2011

3

CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E PERCEPTUAL DO SINAL DE VOZ

FL`VIO LUIS WISNEVSKI

DISSERTAO APRESENTADA COMO REQUISITO PARCIAL PARA OBTENO DO GRAU DE MESTRE, PELO PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA DA PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL.

Porto Alegre, 25 de Agosto de 2011.

_____________________________________________ Prof. Dr. Rubem Dutra Ribeiro Fagundes

Orientador

____________________________________________________

Prof. Dra. Letcia Maria Bolzani Phls

Coordenadora do Programa de Ps-Graduao em Engenharia Eltrica PUCRS

Banca Examinadora:

____________________________________________________ Prof. Dr. Miguel Arjona Ramrez EPUSP/USP

____________________________________________________

Prof. Dra. Letcia Maria Bolzani Phls PUCRS

_____________________________________________ Prof. Dr. Rubem Dutra Ribeiro Fagundes PUCRS

4

minha esposa Lisiane, meu amor e meu carinho.

5

AGRADECIMENTOS

Agradeo Deus pelas oportunidades de vida que tem me proporcionado.

minha amada Lisiane, por estar sempre comigo, confiando na nossa trajetria em

construo de uma famlia.

Agradeo, tambm, minha me, por me lembrar como a vida difcil quando tomamos

decises erradas.

Ao professor Rubem, pela sua pacincia em ensinar sem criticar, e pela sua sabedoria em me

mostrar que sempre existe uma sada no final.

Aos amigos Lcio e Lucas pelo seu auxlio durante a pesquisa e desenvolvimento deste

trabalho.

Ao professor Joo Ernandes, pelos ensinamentos de vida acadmica e profissional.

Enfim, meu obrigado a todos os que estiveram junto comigo nesta jornada.

6

Um professor afeta a eternidade; ele

nunca sabe onde a sua influncia termina.

Henry Adans

7

RESUMO

Esta dissertao apresenta um modelo de codificador da voz que avalia a qualidade

perceptual, utilizando-se um codificador paramtrico definido pela Recomendao do ITU-T,

o G729a , conhecido tecnicamente como Conjugate Structure Algebraic Code Excited Linear

Prediction (CS-ACELP).

Atualmente, a codificao de voz avaliada por parmetros subjetivos, em que no h

uma anlise para melhoria perceptual que altere os parmetros dinamicamente. O objetivo

deste trabalho a melhoria no desempenho do sinal codificado na fonte, considerando as

limitaes de trabalhar com as variveis escalares do codec.

Foi realizada uma anlise sobre os sinais de voz para dar subsdios ao leitor,

possibilitando o entendimento terico e uma descrio sobre o codificador G729a,

enfatizando os estgios de codificao dos parmetros escalares, objeto deste estudo.

Programou-se no codificador G729a, o algoritmo PESQ, o qual realiza a anlise

perceptual do sinal de voz. Tambm foi avaliada recomendao P.862 do ITU-T que descreve

o algoritmo de avaliao da qualidade perceptual.

Para validar a metodologia proposta, foram realizados experimentos em sinais de voz

do banco de dados Timit, em que se estudou o comportamento do sinal de voz e a melhoria

perceptual devido alterao dos parmetros escalares de codificao do sinal.

No experimento realizado, foi realizada a modificao no codificador CS-ACELP

com a utilizao de uma anlise perceptual ponderando a avaliao do algoritmo do PESQ

para deciso de atuao sobre a codificao, o que resultou em sinais de maior qualidade para

os usurios, garantindo a estabilidade de 72,41% e melhorando 50,38% dos quadros avaliados

pelo PESQ. Houve alterao no ganho de pitch, sem a modificao da essncia do codec.

.

Palavras-chaves: Codificao de voz, predio linear, anlise perceptual, G729a, PESQ .

8

ABSTRACT

This thesis presents a model that evaluates the perceptual quality of the enconding

voice, using a parametric encoder defined by the ITU-T Recommendation G729a, technically

known as Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP).

Currently the voice coding is evaluated by subjective parameters, where there is a

perceptual analysis to improve the parameters that change dynamically. The objective of this

study is improvement in the performance of the coded signal source, considering the

limitations of working with the codec scalar variables.

An analysis of the speech signals to improve input to the reader, allowing for better

understanding and a theoretical description of the encoder G729a, emphasizing the stages of

encoding scalar parameters, object of this study.

The PESQ algorithm has been inserted into the coder, which by these means performs

a perceptually based analysis of the speech signal. In so doing, we have also analyzed

thoroughly ITU-T Recommendation P.862 describing an algorithm for objectively evaluating

perceptual speech quality.

To validate the proposed methodology, test were performed for comparison which

speech signals from the Timit database for studying the improvement in coded speech quality

after the perceptual improvement algorithm applied to the scalar parameters in coding

In the experiment, was performed in modified CS-ACELP coder using a perceptual

analysis considering the evaluation of the PESQ algorithm for decision to operate on the

encoding, resulting in higher quality signals to users, ensuring the stability of 72.41% and

50.38% of the frames better evaluated by PESQ. There was change in the pitch gain, without

changing the essence of the codec.

Key words: Speech coding, linear prediction, perceptual analysis, G729a, PESQ.

9

SUM`RIO

1. Introduo ....................................................................................................................... 15

1.1. Objetivo ....................................................................................................................15 1.2. Motivao .................................................................................................................16 1.3. Estrutura da Dissertao ...........................................................................................16

2. Anlise do Aparelho Fonador........................................................................................ 18

2.1. Processo Fisiolgico de Produo de Voz................................................................18 2.1.1. Trato Vocal .......................................................................................................19 2.1.2. Sistema de produo de voz e as suas formantes .............................................20

2.2. Modelo de Produo do Sinal de Voz ......................................................................23 2.2.1. Gerador de excitao ........................................................................................23 2.2.2. Modelagem do Trato vocal...............................................................................24 2.2.3. Radiao ...........................................................................................................25 2.2.4. Modelo completo de produo de voz..............................................................26

3. Codificao de voz em DSP, Processamento Digital de Sinais ................................... 28

3.1. Sinais e comunicao................................................................................................28 3.1.1. Classificao do sinal para formao de modelos ...........................................29 3.1.2. Amostragem do sinal ........................................................................................29 3.1.3. Quantizao do sinal.........................................................................................29 3.1.4. Codificao do sinal .........................................................................................29 3.1.5. Anlise Homomrfica ou Anlise Cepstral ......................................................30

3.2. Tipos de codificadores..............................................................................................31 3.2.1. Codificadores de forma de onda .......................................................................31 3.2.2. Codificadores paramtricos ..............................................................................32 3.2.3. Codificadores hbridos......................................................................................32

3.3. Codificao Preditiva Linear ....................................................................................33 3.3.1. Anlise da Codificao Preditiva Linear ..........................................................33 3.3.2. Line Spectrum Frequency e Line Spectrum Pairs............................................36 3.3.3. Janelamento ......................................................................................................37

3.4. Quantizao Vetorial ................................................................................................39 3.4.1. Entendendo quantizao vetorial......................................................................39

4. Anlise da qualidade do sinal de voz ............................................................................ 42

4.1. Medidas subjetivas de qualidade ..............................................................................43 4.1.1. Mean Opinion Score (MOS).............................................................................43

4.2. Medidas objetivas de qualidade................................................................................44 4.2.1. Perceptual Speech Quality Mesure (PSQM)....................................................45 4.2.2. Perceptual Analysis Measurament System (PAMS) .......................................46 4.2.3. Perceptual Evaluation of Speech Quality (PESQ) ...........................................46

5. Codificadores ITU-T ...................................................................................................... 48

5.1. Codificadores ITU-T utilizados em telefonia ...........................................................48 5.1.1. Recomendao ITU-T G.711 ...........................................................................49 5.1.2. Recomendao ITU-T G.726 ...........................................................................50 5.1.3. Recomendao ITU-T G.728 ...........................................................................51 5.1.4. Recomendao ITU-T G.723.1 ........................................................................52 5.1.5. Recomendao ITU-T G.729 ...........................................................................53

5.2. CS-ACELP: Conjugate Structure Code-Excited Linear Prediction (G.729a) ..........54

10

5.2.1. O codificador CS-ACELP - (G.729a)...............................................................54 5.2.2. Codificador .......................................................................................................55 5.2.3. Decodificador ...................................................................................................57

6. Proposta ........................................................................................................................... 58

7. Estudo de Caso................................................................................................................ 62

7.1. Plataforma de experimento (G729a com PESQ) ......................................................62 7.2. Anlise dos parmetros de avaliao........................................................................63

7.2.1. Limites de frames do PESQ no bloco do codec ...............................................63 7.2.2. Formatao dos arquivos de testes ...................................................................64 7.2.3. Sinais analisados para alterao da codificao ...............................................67 7.2.4. Ajuste da avaliao Perceptual (alteraes significativas) ...............................68

7.3. Padro de avaliao perceptual proposto..................................................................73 8. Resultados Obtidos ......................................................................................................... 75

8.1. Testes realizados.......................................................................................................75 8.1.1. Anlise dos parmetros escalares .....................................................................75 8.1.2. Avaliao Perceptual Oradores masculino (Arquivo 01) ..............................77 8.1.3. Avaliao Perceptual Oradores feminino (Arquivo 01) ................................80 8.1.4. Avaliao Perceptual Oradores masculino (Arquivo 02) ..............................83 8.1.5. Avaliao Perceptual Oradores feminino (Arquivo 02) ................................86

9. Concluses ....................................................................................................................... 89

9.1. Sugestes para trabalhos futuros ..............................................................................91 10. Referncias Bibliogrficas ............................................................................................. 93

11. Anexo ............................................................................................................................... 98

11.1. Arquivos de testes do Banco de dados Timit .......................................................98 12. Apndices....................................................................................................................... 100

12.1. Apndice A - Resultado do Arquivo1 de Oradores masculinos.........................100 12.2. Apndice B - Resultado do Arquivo1 de Oradores femininos ...........................105 12.3. Apndice C - Resultado do Arquivo2 de Oradores masculinos .........................111 12.4. Apndice D - Resultado do Arquivo2 de Oradores femininos...........................119

11

LISTA DE FIGURAS

Figura 2-1 rgos de produo da fala Sistema do Trato Vocal. ......................................19

Figura 2-2 Segmento sonoro de voz com segmentos surdos de voz sinal irradiado ..........20

Figura 2-3 Ptch do sinal de voz amostrado............................................................................21

Figura 2-4 Exemplo de historiograma da frequncia fundamental .......................................22

Figura 2-5 Diagrama em blocos do modelo para produo de voz. .......................................23

Figura 2-6 Diagrama em blocos do sinal de excitao para sons sonoros ............................23

Figura 2-7 (a) Exemplo de dois tubos e trs tubos. ..............................................................24

Figura 2-8 Modelo completo para produo de voz..............................................................26

Figura 2-9 Modelo simplificado para produo de voz........................................................27

Figura 3-1 - Elementos de um sistema de comunicao. .........................................................28

Figura 3-2 - Classificao do sinal de voz em sons sonoros e surdos ......................................29

Figura 3-3 Partes bsica de um conversor analgico-digital (A/D) ......................................30

Figura 3-4 AnliseCepstral do sinal de voz..........................................................................31

Figura 3-5 Processo de gerao de voz humana num codificador LPC ................................32

Figura 3-6 Qualidade x Taxa de transmisso dos codificadores ...........................................33

Figura 3-7 a) Modelo de produo da fala b) Modelo do trato vocal.........................34

Figura 3-8 Diagrama de blocos do processo de anlise (a) e de sntese (b) .........................36

Figura 3-9 Anlise das janelas de Hanning e Hamming. ......................................................38

Figura 3-10 Processo de janelamento ....................................................................................38

Figura 3-11 Exemplo de quantizao em 1 dimenso..............................................................39

Figura 3-12 Exemplo de quantizao em 2 dimenses .........................................................40

Figura 3-13 Exemplo de espao vetorial com centrides de vetores de cdigos ..................41

Figura 4-1 Comportamento da avaliao MOS para dos diferentes tipos de codificadores..44

Figura 4-2 Modelo de avaliao objetiva, utilizando o PSQM. ...........................................45

Figura 5-1 Sistema de codificao de voz. ............................................................................48

Figura 5-2 Diagrama de blocos da tcnica PCM..................................................................49

Figura 5-3 Diagrama de blocos do processo de codificao ADPCM (VARY e MARTIN,

2006).................................................................................................................................50

Figura 5-4 Diagrama de blocos do processo de codificao LD-CELP (FURUI, 2001).....51

Figura 5-5 Diagrama de blocos do processo de codificao LD-CELP...............................52

Figura 5-6 Diagrama de blocos do processo de codificao CS-ACELP ............................55

Figura 5-7 Diagrama de blocos do processo de decodificao CS-ACELP ........................57

12

Figura 6-1 Relao do MOS x Taxa de Transferncia dos diversos codificadores..............58

Figura 6-2 - Diagrama de avaliao perceptual do codec no sinal de origem..........................59

Figura 6-3 - Diagrama de blocos simplificado de anlise do codec .........................................61

Figura 7-1 Arquivo01 Oradores masculinos Sinal de voz.....................................................64

Figura 7-2 Arquivo01 Oradores masculinos Anlise de frequncia de pitch........................65

Figura 7-3 Arquivo02 Oradores masculinos Sinal de voz.....................................................65

Figura 7-4 Arquivo02 Oradores masculinos Anlise de frequncia de pitch........................65

Figura 7-5 Arquivo01 Oradores femininos Sinal de voz.......................................................66

Figura 7-6 Arquivo01 Oradores femininos Anlise de frequncia de pitch..........................66

Figura 7-7 Arquivo02 Oradores femininos Sinal de voz.......................................................66

Figura 7-8 Arquivo02 Oradores femininos Anlise de frequncia de pitch..........................67

Figura 7-9 Inicializao dos trs primeiros frames e ao da avaliao zero...........................69

Figura 7-10 Avaliao dos ganhos no arquivo 01 de Oradores Femininos..............................70

Figura 7-11 Avaliao dos ganhos no arquivo 01 de Oradores Masculinos ............................71

Figura 7-12 Avaliao dos ganhos no arquivo 02 de Oradores Femininos..............................71

Figura 7-13 Avaliao dos ganhos no arquivo 02 de Oradores Masculinos ............................72

Figura 8-1 Grfico da aplicao do ganho no arquivo 01 de Oradores Masculinos ................77

Figura 8-2 Arquivo1 Oradores masculinos, sinal codificado e decodificado com atuao do

PESQ ................................................................................................................................79

Figura 8-3 Arquivo1 Oradores masculinos, anlise da frequncia de pitch .............................79

Figura 8-4 Grfico da aplicao do ganho no arquivo 01 de Oradores Femininos ..................80

Figura 8-5 Arquivo1 Oradores femininos, sinal codificado e decodificado com atuao do

PESQ ................................................................................................................................82

Figura 8-6 Arquivo1 Oradores femininos, analise da frequncia de pitch ...............................82

Figura 8-7 Grfico da aplicao do ganho no arquivo 02 de Oradores Masculinos ................83

Figura 8-8 Arquivo2 Oradores masculinos, sinal codificado e decodificado com atuao do

PESQ ................................................................................................................................85

Figura 8-9 Arquivo2 Oradores masculinos, analise da frequncia de pitch .............................85

Figura 8-10 Grfico da aplicao do ganho no arquivo 02 de Oradores Femininos ................86

Figura 8-11 Arquivo2 Oradores femininos, sinal codificado e decodificado com atuao do

PESQ ................................................................................................................................88

Figura 8-12 Arquivo2 Oradores femininos, analise da frequncia de pitch .............................88

13

LISTA DE TABELAS

Tabela 4-1 Escala de classificao do MOS..........................................................................43

Tabela 4-2 Comparao de eficincia do Modelo PSQM & PESQ. ....................................47

Tabela 4-3 Valores de referncia do MOS para os codificadores Standards utilizados em

telefonia. ...........................................................................................................................47

Tabela 5-1 Comparao de codecs ITU-T para telefonia......................................................48

Tabela 5-2 Parmetros codificados pelo G729a (ITU-T G729). ..........................................54

Tabela 7-1 Avaliao do PESQ para adio de ganho nos sinais de pitch e codificao ....68

Tabela 7-2 Ganhos avaliados para os arquivos de teste .......................................................70

Tabela 7-3 Ajuste do controle de ganho para os arquivos de teste.......................................73

Tabela 8-1 Testes somente com o PESQ inserido no codificador........................................76

Tabela 8-2 Resultado do programa executado no arquivo1 de Oradores Masculinos .........77

Tabela 8-3 Avaliao dos parmetros extrados do Arquivo1 de Oradores Masculinos......78

Tabela 8-4 Resultado do programa executado no arquivo1 de Oradores Femininos...........80

Tabela 8-5 Avaliao dos parmetros extrados do Arquivo1 de Oradores Femininos .......81

Tabela 8-6 Resultado do programa executado no arquivo2 de Oradores Masculinos .........83

Tabela 8-7 Avaliao dos parmetros extrados do Arquivo2 de Oradores Masculinos......84

Tabela 8-8 Resultado do programa executado no arquivo2 de Oradores Femininos...........86

Tabela 8-9 Avaliao dos parmetros extrados do Arquivo2 de Oradores Femininos .......87

Tabela 9-1 Anlise do ganho de pitch sobre a proposta de avaliao ................................90

14

LISTA DE SIGLAS

CS-ACELP - Conjugate Structure Algebraic Code Excited Linear Prediction

PESQ - Perceptual Evaluation of Speech Quality

MOS - Mean Opinion Score

ITU-T - Telecomunication Standardization of International Telecomunication Union

PCM - Pulse Code Modulation

G.729 - Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP

G.729.A - Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP Anexo A

GSM - Global System for Mobile Communications

RELP - Residual Excited Linear Prediction

CODEC - Dispositivo de hardware ou software que codifica e decodifica sinais.

ENCODER - Codificador do sinal de voz amostrado

DECODER - Decodificador do sinal de voz amostrado

LSF - Line Spectrum Frequency

LSP - Line Spectrum Pair

Timit - Banco de dados de 630 oradores em 8 dialetos do ingls Americano.

Audacity - Software de anlise e manipulao de sinais de udio.

15

1. Introduo

O sistema de telecomunicaes abrange uma gama de sinais e servios e os sinais

constituem um ingrediente bsico de nossa vida. Uma forma comum de comunicao humana

o uso de sinais de fala, seja conversao frente a frente ou por canal telefnico. Neste

trabalho sobre codificao do sinal de voz utilizado em telefonia e redes de pacotes, a anlise

de qualidade perceptual do sinal codificado na fonte o principal fator de estudo. Embora o

estudo do sinal de voz e a avaliao perceptual sejam processos amplamente difundidos, a

pesquisa sobre esses tpicos esto relacionadas com a abordagem do codificador utilizado,

isto , um algoritmo de avaliao perceptual, tendo como vantagem a anlise do sinal de voz ,

com alteraes dinmicas em tempo real para melhoria em tempo real.

1.1. Objetivo

A anlise de codificao de fala avalia alguns requisitos para busca de um desempenho

satisfatrio. Um codificador de voz pode ser til por reduzir a taxa de transmisso apesar de

aumentar a distoro, diminuindo o desempenho mesmo sendo mais eficiente na sua funo.

O procedimento experimental deste trabalho consiste em avaliar a qualidade perceptual do

sinal codificado com os experimentos e alteraes realizadas no encoder do codificador CS-

ACELP (Conjugate Structure Algebraic Code Excited Linear Prediction).

Os trabalhos de avaliao de qualidade que foram pesquisados durante este projeto,

enfatizavam o processo de codificar/transmitir/decodificar o sinal e avaliar externamente o

sinal original de entrada no encoder com o sinal de sada do decoder. A qualidade estava

associada s alteraes que o sinal sofria quando submetido s aes do meio fsico1. Neste

trabalho foi avaliada a estrutura do codificador com suas alteraes propostas para melhoria

perceptual, excluindo-se as variaes do meio de transmisso.

1 Entende-se por aes do meio fsico toda oscilao que ocorre no sinal de voz: degradao, perda, variao e atraso.

16

1.2. Motivao

Avaliar as caractersticas do sinal de voz amostrado no bloco do codificador, atravs

da implementao do algoritmo do PESQ (Perceptual Evaluation of Speech Quality) no

cdigo fonte do codificador G729a possibilitando, assim, a avaliao perceptual do sinal,

independente das variaes do meio de transmisso entre os blocos encoder e decoder.

Implantar um modelo de treinamento para os padres do algoritmo PESQ sobre o

bloco do codificador, fazendo com que exista coerncia no valor dos resultados do MOS

(Mean Opinion Score), tendo como base as especificaes da recomendao P.862 do ITU-T,

a qual descreve o tamanho da amostra em relao ao tempo de envio dos pacotes.

Propor alteraes na estrutura do bloco encoder do codificador CS-ACELP para obter

uma melhoria do sinal codificado analisado pelo algoritmo PESQ.

Avaliar a codificao do sinal de voz e a sua qualidade perceptual baseado nos

parmetros restritos ao codificador, ou seja, o objetivo melhorar qualidade perceptual nos

frames codificados.

1.3. Estrutura da Dissertao

Esta dissertao de mestrado foi estruturada em trs grandes partes compostas por

captulos conforme abaixo:

Parte I Fundamentos Tericos

Captulos: 2 ,3,4 e 5

Esses captulos abordam a fisiologia do aparelho fonador, o modelo de produo de

voz, princpios de codificao do sinal de voz, modelo que quantizao e anlise para

mensurar a qualidade do sinal de voz. So descritos os conceitos relacionados arquitetura

dos codificadores, introduz a codificao de sinais e aborda o codec G729a e os parmetros

especficos para anlise desta pesquisa.

17

Parte II Metodologia

Captulos: 6 e 7

Esses captulos detalham a proposta de avaliao dos parmetros escalares do G729a,

bem como a implementao do algoritmo PESQ, enfatizando as particularidades e limitaes

para anlise dos frames de voz. Assim, com a metodologia aplicada pretende-se obter uma

qualidade perceptual atravs do estudo do comportamento dos parmetros escalares, que

atuam sobre o sinal de voz codificado.

Parte III Resultados e Concluses

Captulos: 8 e 9

Esses captulos identificam os objetivos de melhoria perceptual sobre as alteraes

passveis de modificao da estrutura do codec. Tambm so apresentadas as especificaes

para obteno dos resultados, descrevendo possveis desenvolvimentos de trabalhos futuros

sobre a proposta da tcnica apresentada nesta dissertao.

18

2. Anlise do Aparelho Fonador

O processo de produo da fala utilizado para a comunicao entre os interlocutores

d-se atravs das ondas acsticas que so formadas e emitidas pelo sistema vocal. Este

processo tem como fonte a variao de presso gerando, assim, um sinal variante no tempo

em que altera suas caractersticas quando o sistema vocal tem sua dimenso e forma alterada.

2.1. Processo Fisiolgico de Produo de Voz

O sistema de produo de voz formado pelos rgos da fala: pulmes, laringe,

traquia, faringe, cavidade nasal e cavidade oral. Na figura 2.1 podemos verificar os rgos

que integram o sistema vocal ( FURUI, 2001). Esta diviso feita em trs grandes grupos:

pulmes, laringe e trato vocal.

O sinal de voz originado pelo fluxo de ar dos pulmes, esse fluxo percorrido pela

traquia at a laringe.

A laringe formada por quatro cartilagens, possui as cordas vocais na parte superior,

um par de estruturas elsticas de tendo e msculos. A movimentao destes msculos da

laringe faz com que as cordas vocais possam variar de comprimento e espessura, tendo

diferentes configuraes. Durante esse processo de respirao, a glote est normalmente

aberta. Quando a glote se fecha ocorre obstruo do fluxo de ar que vem dos pulmes. Neste

instante que ocorre a vibrao das cordas vocais. Quando a glote est aberta, a passagem de

ar e as cordas vocais no vibram.

Durante esse processo, o ar originado nos pulmes tendo sua variao de presso na

laringe, chega at a faringe e a cavidade oral, o que forma o trato vocal, o qual inicia na glote

e vai at a irradiao dos lbios. Existe uma cavidade auxiliar, a cavidade nasal, a qual

acoplada ao trato vocal para a produo de sons nasais.

O aparelho fonador humano composto pelos rgos responsveis pela gerao dos

sons da voz, em que cada rgo efetua seu trabalho de forma dinmica e simultnea durante o

processo da fala.

19

2.1.1. Trato Vocal

A descrio do trato vocal (OSHAUGHNESSY, 1999) relata que os pulmes so

responsveis por fornecer o fluxo de ar e presso para o processo de fala. As cordas vocais

geralmente modulam o fluxo de ar para criar um som, mas o trato vocal o componente mais

importante na produo da fala.

Uma passagem tubular composta de tecidos musculares e sseos, o trato vocal,

fornece os meios para produzir os sons diversos que caracterizam a linguagem falada.

O trato vocal tem duas funes:

- pode modificar a distribuio espectral de energia das ondas sonoras da glote;

- pode contribuir para a gerao de som obstrudo (fricativos).

Diferentes sons so distinguidos principalmente por suas caractersticas:

periodicidade (fala ou silncio), forma espectral (frequncias com seus nveis de

energia) e a durao. As cordas vocais especificam a caracterstica sonora e durao

de um som, so resultados das aes sincronizadas, mas a diviso principal do sinal de

voz realizada pelo trato vocal via filtragem espectral.

20

2.1.2. Sistema de produo de voz e as suas formantes

O sistema de produo de voz formado por um conjunto de frequncias de

ressonncia e anti-ressonncia e estas dependem do formato do trato vocal. O trato vocal um

tubo acstico com rea e seco transversal no uniforme e varivel com o tempo, em que as

frequncias de ressonncia do tubo so classificadas como formantes.

O movimento dos rgos de produo da fala, quando irradiados para o espao livre,

tanto pelos lbios quanto pelas narinas, alteram a forma do tubo acstico, consequentemente

alteram a resposta em frequncia. Cada forma do trato vocal representada por um conjunto

de formantes. Diferentes sons irradiados variam a frequncia de ressonncia e as suas

formantes. Abaixo, na figura 2.2, o sinal de voz e, na figura 2.3, as formantes deste sinal

distribudas no tempo.

Abaixo a anlise do espectro de frequncia de pitch realizada no sinal da figura 2.2.

Os valores mais escuros (em vermelho) representam as formantes do sinal de voz, sendo a

primeira formante a frequncia fundamental ou perodo de pitch.

Na figura 2.3, o arquivo formatado possui sentenas com o sinal de voz elaborado por

seis oradores do gnero masculino. Observa-se na primeira formante que a oscilao do sinal

associada com a frequncia de pitch do orador.

21

!"

O sistema vocal, conforme excitao do trato vocal, classifica-se em trs categorias:

sonoros, fricativos e explosivos.

Sons Sonoros (voclicos)

Ocorre quanto a presso de ar aumenta nos pulmes e fora a passagem do ar pela

glote, fazendo com que as cordas vocais que esto tensionadas, entrem em vibrao. Isso

porque a passagem de fluxo de ar, quase peridico, gera a excitao do trato vocal, os

chamados pulsos glotais, os sons vocais so recorrentes em intervalos espaados igualmente.

A frequncia fundamental ou frequncia de pitch a taxa de vibrao das cordas vocais, a

qual depende da presso do ar na traqueia e da variao de espessura e comprimento das

cordas vocais. A variao das cordas vocais, o tom, so os valores entre 50Hz e 500Hz. Um

exemplo a sonoridade da vogal a.

Sons Fricativos (no voclicos):

Esses sons ocorrem quando existe o estreitamento criado pelos rgos de produo de

fala em algum ponto do trato vocal, e o ar dos pulmes tem velocidade suficiente para

produzir uma turbulncia. A localizao da compresso do ar no trato vocal que produz o

22

som fricativo. Um exemplo a produo do som da vogal f (compresso do trato vocal

com o a articulao dos lbios).

Sons Plosivos:

Esse tipo de som resultante do fechamento completo de algum ponto do trato vocal,

em que o ar originado pelos pulmes interrompido, fazendo uma presso atrs da obstruo.

Quando o trato vocal desobstrudo, resulta em um abrupto relaxamento de presso, gerando

um som com baixa energia. Exemplos de som explosivo so as letra p e b .

O sistema de produo de voz formado por frequncias de ressonncia e anti-

ressonncia, dependendo do formato do trato vocal. Os diversos sons produzidos no processo

de fala so consequncias da utilizao das trs formas de excitao do trato vocal.

As formantes, quando identificadas, podem detectar o gnero do orador atravs das

frequncias fundamentais dos sinais avaliados, em que o sinal produzido por mulheres e

crianas mais elevado do que o sinal produzido por homens.

#$%"&

23

2.2. Modelo de Produo do Sinal de Voz

Para a produo de voz existe um modelo representado pelas fontes de excitao e

pelo trato vocal que possuem uma independncia. O sistema de produo de voz pode ser

representado por um modelo linear invariante no tempo e um gerador de excitao, segundo

(RABINER e SCHAFER, 1978).

O sistema modela as ressonncias do trato vocal e os efeitos da radiao dos lbios.

Essa representao pode ser modelada por tubos acsticos ou pelos filtros digitais.

()*

2.2.1. Gerador de excitao

Quando excitamos o trato vocal com um trem de impulsos quase peridico (pitch), os

sons sonoros so gerados. Esse modelo de gerao de excitao pode ser representado

conforme figura abaixo.

+)*%

Para representar a frequncia fundamental do sinal, um gerador de impulso produz o

trem de impulsos unitrios, que excitam o sistema linear com uma resposta impulsiva que a

forma de onda dos pulsos glotais, representada pela formulao abaixo:

g n a

=12fff B 1@cos

p B nN 1

ffffffffffffffffff gH

J

I

K se0 n N 1

X\

Z

24

g n a

= cosp B n@N1

b c

2B N 2fffffffffffffffffffffffffffffffffffffffff

h

lj

i

mk se N1 n N1 + N 2

X^\

^Z

(2.1)

g n a

= 0 casocontrrio

A funo g n a

tem comprimento finito e sua transformada Z apresenta apenas zeros.

A representao para g n a

, utilizando um modelo de dois plos, pode ser formulada

para representar G Z a

, tendo a seguinte formulao:

G Z a

=1

1@ecB T B Z@1b c2ffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.2)

No domnio da frequncia, o pulso glotal introduz um efeito passa-baixas, onde a

intensidade do pulso glotal controlada por um controle de ganho.

2.2.2. Modelagem do Trato vocal

O trato vocal pode ser modelado como uma associao de tubos conectados em

cascatas, tendo variao na rea da seco transversal. Dessa forma, a frequncia de

ressonncia em cada tubo corresponde a uma formante do espectro do sinal de voz.

,-.$%**

Na figura acima os modelos segundo (OSHAUGHNESSY, 1999) representam vogais

e consoantes. O modelo de dois tubos com seces A1 e A2 representam uma aproximao

das vogais, por exemplo a letra a.O tubo estreito (secoA1) representa a abertura da faringe

e o tubo maior (seco A2) representa a cavidade oral, considerando que do ponto de vista

tcnico, o sistema de voz um nico tubo acstico entre a glote e a boca, medindo 17cm,

para representar a vogal a em que temos dois tubos. Iremos considerar comprimentos

iguais ( l1 = l 2 ) medindo 8,5cm, sendo as formantes mltiplos de 1kHz e devido ao

acoplamento no se aproximam uma das outras por 200Hz, temos que

F1 900HzeF2 1100Hz e F3 2900HzeF4 3100Hz . J o modelo de trs tubos com

25

seces Ab , Ac e A f representa uma aproximao das consoantes, sendo um modelo de

tubo estreito com constrio do trato vocal, em que a parte traseira (seco Ab) e o tubo do

meio (seco Ac) so ressonadores de meio comprimento de onda, e o tubo dianteiro (seco

A f ) um ressonador de quarto de onda, com ressonncias cB i2B lbffffffffffffffff,

cB i2B l cffffffffffffffff,

cB 2B i @1 a

4B l fffffffffffffffffffffffffffffffffffffffffff ,

para i=1,2,3.... onde c (velocidade do som) e lb ,l c l f so os comprimentos dos tubos,

gerando ressonncias em mltiplos de 5.333Hz para constries de 3cm em perodos de fala

com durao tpica, podendo ser desconsiderado em aplicaes que utilizam sinais de voz de

4 ou 5kHz de largura de banda.

A funo de transferncia do trato vocal pode ser modelada pela formulao:

V Z a

=G

Yi = 1

N

1@pi B Z@1

b cfffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.3)

Na equao acima, estamos desprezando os efeitos gerados pela radiao dos lbios.

Temos o ganho G associado amplitude do sinal de voz e os plos pi , com i sendo o

ndice de cada plo, variando de 1 at N, esses plos fazem a modelagem da frequncia de

ressonncia do trato vocal.

O modelo apresentado uma boa representao do trato vocal, ele modela apenas as

frequncias de ressonncias, que abrange a maioria dos sons voclicos, pois para

considerarmos a produo de sons fricativos e nasais, precisamos representar as frequncias

de anti-ressonncias. Para isso seria necessrio que, na formulao de transferncia do trato

vocal ( V Z a

), tivssemos plos e zeros. Entretanto, uma forma de conseguirmos o efeito dos

zeros, aumentando o nmero de plos da funo.

Desta forma, o trato vocal representado por um sistema linear, um sistema estvel,

formado somente por plos, onde todos os plos de V Z a

esto dentro do raio de circulo

unitrio.

2.2.3. Radiao

No sistema de produo de fala, temos a atuao dos lbios e das narinas (no caso das

vogais nasais como avio), que irradiam para o espao livre os sons articulados pelo trato

26

vocal, ocorrendo uma difrao das ondas sonoras. Esse efeito de radiao pode ser modelado

como um filtro passa-altas (representa um ganho de 6dB por oitava).

R Z a

= Ro 1@Z@1

b c (2.4)

2.2.4. Modelo completo de produo de voz

O sistema vocal para a produo da voz pode ser representado no modelo completo

abaixo:

/0

Pela representao acima (RABINER e SCHAFER, 1978), podemos definir um

modelo combinando as funes de transferncia do pulso glotal do trato vocal e da radiao,

em que temos:

H Z a

= G Z a

B V Z a

B R Z a

(2.5)

Com o equacionamento acima, temos um modelo simples de para a produo de voz,

que pode ser representado por um modelo apenas com plos, onde a funo H Z a

descrita

como:

H Z a

=G

1@Xk = 1

Pak B Z

@k

ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.6)

Para representar o sinal de voz variante no tempo, so atualizados em intervalos

regulares os coeficientes de H Z a

e o sinal de excitao, tendo como resposta a produo de

voz sintetizada.

27

1 0

O modelo apresentado na figura 2-9 (RABINER e SCHAFER, 1978) tem uma boa

representao para sons que possuem variaes lentas, a exemplo das vogais. Entretanto, esse

modelo no consegue representar fielmente os sons transitrios, a exemplo dos sons plosivos.

J os sons fricativos sonoros, cuja excitao gerada pela combinao de rudos e pulsos

peridicos, no so possveis representar a partir desse modelo, pois uma forma de excitao

(rudo ou pulso peridico) exclui a outra. O som originado nesse processo consegue obter uma

voz sintetizada com boa qualidade, mas com perda de naturalidade.

28

3. Codificao de voz em DSP, Processamento Digital de Sinais

Um sinal definido como uma funo de uma varivel, no caso dos sinais de voz. A

fala um sinal unidimensional. A amplitude varia com o tempo, dependendo da palavra

falada e o locutor que fala essa palavra. Esse sinal um veculo de informaes sobre a

natureza de um fenmeno fsico. (HAYKIN e VEEN, 1999).

3.1. Sinais e comunicao

Existem trs elementos fundamentais em todos os sistemas de comunicao: o

transmissor, o canal e o receptor. Cada um desses elementos possui um sistema de sinais

prprios associados, a figura 3.1 mostra essa relao.

$

O transmissor converte ou codifica o sinal da mensagem produzida por uma fonte de

informao em um formato apropriado para ser transmitido pelo canal. O canal o meio pelo

qual o sinal se propaga. medida em que o sinal transmitido, ele sofre distores devido as

caractersticas fsicas deste canal, tendo tambm a contribuio para degradao do sinal

transmitido atravs de rudos e interferncias originados de outras fontes. O receptor

responsvel por receber o sinal codificado, o qual pode ter sido corrompido (alterando a

informao codificada), sendo este responsvel pelo processamento do sinal convertendo

(decodificando) o formato recebido pelo canal na informao da mensagem, em que o

objetivo estimar o sinal original.

29

3.1.1. Classificao do sinal para formao de modelos

A produo da fala originada atravs de uma onda sonora gerada pela vibrao das

cordas vocais, que uma consequncia da propagao de ar emitida pelos pulmes, passando

por todo trato vocal e irradiada pelos lbios. Esse processo tem como resultado um sinal de

voz com sons sonoros e sons surdos.

.

2

3.1.2. Amostragem do sinal

O processo de amostragem importante para a transformao do sinal analgico

contnuo em amplitude e no tempo, em um sinal discreto no tempo e em amplitude.

3.1.3. Quantizao do sinal

Segundo (EMBREE e KIMBLE, 1991), "quantizao o domnio da amplitude de um

sinal analgico contnuo amostrado em um certo domnio de tempo", ou seja, o processo de

quantizao , basicamente, a medida discreta da intensidade do sinal. Essa discretizao da

amplitude usualmente definida em termos de nmero de bits. Uma converso de 8 bits, por

exemplo, proporciona a representao de 256 nveis de quantizao.

3.1.4. Codificao do sinal

O processo de codificao faz a representao do sinal amostrado entre o domnio

continuo e o domnio discreto. A otimizao de representao desses sinais, a melhoria da

codificao, est associada quantizao do sinal na origem do processo no domnio discreto.

Os sinais digitais so representados pela amostragem, quantizao e codificao. O

ultimo estgio ser tratado na abordagem da melhoria de qualidade perceptual. A converso

analgico/digital um processo de trs passos(PROAKIS & MANOLAKIS, 2007), conforme

figura 3.3.

30

!

!*34 -56).

3.1.5. Anlise Homomrfica ou Anlise Cepstral

Os sinais de voz so formados pelo o sinal de excitao e pela resposta impulsiva do

trato vocal, conforme vimos no capitulo anterior. Neste contexto, existe uma tcnica que a

Anlise Homomrfica ou Anlise Cepstral, muito til para desconvoluir os dois sinais. A

partir do modelo matemtico para a produo de voz temos:

s t a

= e t a

B v t a

convoluo do sinal (3.1)

S W a

= E W a

AV W a

sinal no domnio da frequncia (3.2)

Para realizar a anlise homomrfica aplicada a funo logartmica para separar o

sinal:

logS W a

= log E W a

AV W ab c

(3.3)

logS W a

= logE W a

+ logV W a

(3.4)

Aplicando a transformada inversa nesse sinal, tem-se o cepstrum ou coeficientes

cepstrais do sinal de voz.

F@1 logS W aB C

= F@1 logE W aB C

+ F@1 logV W aB C

(3.5)

Com essa manipulao algbrica pode-se obter o sinal de excitao e a resposta

impulsiva separadamente.

31

#532

3.2. Tipos de codificadores

Um paradigma para os codificadores de voz alcanar a melhor qualidade com a

menor taxa de bits possvel. Neste processo, h trs classificaes: codificadores de forma de

onda, codificadores paramtricos e codificadores hbridos. Essas classificaes diferem na

forma de como a informao transmitida: os codificadores de forma de onda encaminham o

sinal de voz e suas variaes, os codificadores paramtricos encaminham parmetros

extrados do sinal de voz original da mensagem e os codificadores hbridos realizam uma

combinao dos dois casos citados anteriormente.

3.2.1. Codificadores de forma de onda

So codificadores de baixa complexidade, com pouco atraso. Esses codificadores

reproduzem o mais exato possvel a forma de onda analgica, em que o tratamento da

mensagem fielmente reproduzido incluindo, at mesmo, rudo de fundo. Uma caracterstica

desse codificador a alta qualidade o sinal que eleva tambm a largura de banda para

32

transmisso. Um exemplo desse tipo de codificao a recomendao ITU-T G.711 (PCM)

que utiliza a taxa de transmisso de 64kbps (ITU G711, 1988).

3.2.2. Codificadores paramtricos

Esses codificadores avaliam o sinal de voz, no reproduzem a forma de onda original,

constroem um conjunto de parmetros que so enviados ao decodificador. A codificao de

predio linear utilizada para obter os parmetros do filtro utilizado, isso causa um aumento

na complexidade computacional, atraso no tempo de processamento, reduz a qualidade do

sinal decodificado e, em troca, reduz a largura de banda para transmisso. Portanto, no so

sinais expressivos para o uso nos sistemas de telefonia.

Nos codificadores paramtricos temos um gerador de pulsos (sons voclicos), um

gerador de rudo branco (sons no voclicos). Esses dois parmetros combinados formam a

excitao e t a

, a excitao gerada passa por um filtro de plos que representa o trato vocal

v t a

e tem como resultado a sada do sinal de voz gerado s n a

.

(!" 7!2

3.2.3. Codificadores hbridos

So codificadores que utilizam a tcnica de anlise por sntese baseados na predio

linear.Esses codificadores utilizam as vantagens dos codificadores de forma de onda

(reproduzir o sinal com alta qualidade) analisando as caractersticas espectrais e temporais do

sinal, e as vantagens dos codificadores paramtricos (enviar sinal com baixa taxa transmisso)

que conseguem extrair os parmetros do sinal, o que resulta na mxima dos codificadores de

voz, fazer mais por menos.

Ser analisado, no captulo seguinte, a tcnica de codificao CELP (Code-Excited

Linear Prediction), sobre o estudo do codificador G729a, o qual a base o tema de anlise

desta dissertao.

33

Abaixo uma anlise realizada por (GOMES, 2008), descreve os tipos de codificadores

e a qualidade obtida em relao taxa de transmisso. Podemos observar que os codificadores

hbridos, por reunirem a caracterstica dos codificadores de forma de onda e paramtricos, so

os que possuem melhor qualidade com baixas taxas de transmisso (valores aceitveis para o

sistema de telefonia, otimizando o sinal de voz entre 2kbps e 16kbps) .

+8%%

3.3. Codificao Preditiva Linear

A predio linear um arranjo muito importante na codificao do sinal de voz e sua

formulao est relacionada produo da fala. uma tcnica comum para a codificao de

baixa taxa de bits e tambm uma importante ferramenta na anlise do sinal de voz.

3.3.1. Anlise da Codificao Preditiva Linear

A codificao linear uma sntese para estimativa da frequncia fundamental,

realizando uma anlise sobre as funes do trato vocal, representando as formantes, em que se

deseja estimar o sinal amostrado baseado numa combinao linear utilizando filtros digitais.

34

Foi verificado, no captulo anterior, o modelo de produo de fala e o modelo do trato

vocal, conforme figura abaixo:

,.0 *.0

Sabemos que o trato vocal um modelo auto-regressivo (AR), formado por um filtro

s de plos descrito pela equao:

s n a

= b0B u n a

@Xk@1

m

ck B s n@k a

(3.6)

Em que s n a

corresponde ao sinal de voz sintetizado e u n a

ao sinal de excitao que

passa pelo filtro H Z a

. Nesta anlise, existe a modelagem os parmetros reais ck que so

desconhecidos. Para modelar esses parmetros reais, tenta-se obter uma predio, ou seja,

uma estimativa de s n a

atravs da equao:

s n a

estimado=X

k@1

p

ak B s n@k a

(3.7)

Esse equacionamento modela um filtro no-recursivo (FIR), que um preditor linear

de ordem p, em que os parmetros ak representam os coeficientes do preditor.

Para este procedimento considerado que no h uma soluo computacionalmente

praticvel que modele o filtro de forma totalmente fiel ao sinal original de voz, sendo assim

iremos utilizar uma quantidade p de amostras passadas de voz para predizer o sinal com o

menor erro possvel.

35

O sinal residual r n a

ou sinal de erro de predio o resultado da diferena entre o

sinal de voz e a sua aproximao, r n a

= s n a

@s n a

estimado .

Para que o sinal de voz estimado tenha uma boa aproximao do sinal de voz original,

devem-se obter valores timos para os coeficientes ak do preditor dentro do intervalo de

tempo n1 n n2 , esse valor representado por:

akP Q

otimo= ArgMin

akXn = n1

n2

r 2 n a

(3.8)

Estabelecendo que o sinal de voz obtido pelo s n a

estimado descrito da equao (3.7),

e assumindo que p=m, resulta que os coeficientes ak so uma boa estimativa dos

coeficientes ck descrito na equao (3.6).

O sinal de erro de predio no domnio tempo descrito por:

r n a

= s n a

@s n a

estimado= s n

a@X

k = 1

p

ak B s n@k a

(3.9)

Aplicando a transformada Z na expresso, tem-se:

R z a

= A z a

B S z a

, (3.10)

Nesta expresso R z a

e S z a

so respectivamente a transformada Z do sinal residual

e a transformada Z do sinal de voz, em que A z a

um filtro de anlise, formado somente por

zeros, descrito por:

A z a

= 1@Xk = 1

p

ak B Z@k (3.11)

Temos o filtro inverso de A z a

, que um filtro de sntese, formado somente por

plos, que representa o comportamento espectral do sinal de voz:

H z a

=1

A z affffffffffffffff=

1

1@Xk = 1

p

ak B Z@k

ffffffffffffffffffffffffffffffffffffffffffffffffff (3.12)

Realizando uma substituio algbrica da equao (3.10) e (3.12), resulta em

S z a

= H z a

B R z a

(3.13)

Aplicando inversa da transformada Z na equao acima ou utilizando a equao (3.9),

obtm-se o modelo, no domnio tempo, o modelo de sntese, representado pela expresso:

s n a

=Xk = 1

p

ak B s n@k a

+ r n a

(3.14)

Com esse desenvolvimento, podemos representar o processo de anlise do sinal de

voz, equaes (3.9) ou (3.10), e o processo de sntese do sinal de voz equaes (3.13) ou

36

(3.14) atravs dos diagramas de blocos a e b descritos (RABINER e SCHAFER, 1978), e

representados na figura 3.8.

/)*3 -.9-*.

Os filtros de anlise A z a

e os filtros de sntese H z a

so modelados pela relao de

preciso espectral , complexidade computacional e quantidade de bits transmitir. Neste caso,

cada formante do espectro do sinal de voz constituda por um par de plos que esto

separadas, em mdia, a cada 1kHz de banda. Para o sinal amostrado taxa de 8kHz temos

uma banda inferior a 4 kHz, em que o filtro de sntese utilizado de ordem 10 geralmente,

que seriam os 8 plos do espaamento espectral de 4kHz mais 2 plos para evitar anti

ressonncia, aproximando possveis zeros.

3.3.2. Line Spectrum Frequency e Line Spectrum Pairs

Para anlise de predio linear so gerados os coeficientes de predio, coeficientes

LPC. Muito sensveis transmisso do sinal de voz e ao processo de quantizao, uma

alternativa para a codificao dos coeficientes de predio representar esses em coeficientes

LSF (Line Spectrum Frequency) e LSP (Line Spectrum Pairs).

Segundo (OSHAUGHNESSY, 1999), a representao LSF produz uma qualidade de

voz melhor, pois provem a estabilidade dos coeficientes manipulados e possui propriedades

adequadas, uma vez que os coeficientes de reflexo so muito sensveis quantizao do

sinal. Os coeficientes LSP so representados por dois polinmios P z a

(simtrico) e

Q z a

(anti-simtrico), descritos abaixo:

P z a

= A z a

+ z@ p + 1b c

B A z@1b c

(3.15)

Q z a

= A z a

@z@ p + 1b c

B A z@1b c

(3.16)

37

Como consequncia desta manipulao algbrica, a representao LSF faz com que

P z a

e Q z a

tenham as seguintes propriedades:

- todas as razes dos polinmios esto sobre o raio de crculo unitrio;

- as razes dos polinmios P z a

e Q z a

esto entrelaadas;

Esses dois modelos se relacionam com os coeficientes LPC representados pelo

polinmio A z a

:

A z a

=P z

a+ Q z

a

2ffffffffffffffffffffffffffffffffffffffff (3.17)

A definio acima originada pelos clculos de converso dos coeficientes LPCs para

os coeficientes LSFs, essa transformao foi realizada em 1975 por Itakura. Dessa anlise,

definido que as razes dos polinmios P z a

e Q z a

correspondem s frequncias que so os

coeficientes LFS, esses so extrados do filtro de anlise A z a

de ordem p. Nesta

verificao o polinmio P z a

corresponde anlise do trato vocal com o a glote fechada, em

que o coeficiente de reflexo K p + 1 = 1 e o polinmio Q z a

correspondem anlise do trato

vocal com o a glote aberta, coeficiente de reflexo K p + 1 =@1.

3.3.3. Janelamento

No sinal de voz amostrado, utilizado nos codificadores, temos uma gravao finita.

Utilizamos a tcnica de janelamento para aumentar as caractersticas do sinal amostrado, a

operao algbrica a multiplicao do sinal de voz s n a

pelo sinal W n a

(janela escolhida).

A aplicao de uma janela sobre o sinal amostrado para definir a durao do tempo de

observao do sinal, para reduzir a perda espectral e separar sinais com frequncias muito

prximas e com amplitudes demasiadamente distantes.

Abaixo a avaliao realizada (FURUI, 2001) para janelamento dos sinais de voz.

38

Figura 3-9 Anlise das janelas de Hanning e Hamming.

Para os casos especficos de sinais de voz, devido s caractersticas do sinal e a

resposta em frequncia que se deseja obter, ser utilizada uma janela de Hamming, pois essa

produz uma melhor resoluo em frequncia e mais utilizada para o processamento de fala.

Abaixo, a funo geradora do sinal para a janela de Hamming dada por:

W n a

= 0,54@0,46B cos 2p Bn

N @1ffffffffffffffffff

d ef g; para0 n N @1 (3.22)

A 0 paraosdemaiscasos

Para janelar o sinal de voz de forma a minimizar o erro introduzido pelas amostras dos

extremos da janela, utiliza-se a sobreposio (overlap) dos intervalos dos frames de s n a

,

onde amostramos o sinal atual e uma parcela de comprimento L do sinal anterior que sero

consideradas no frame atual.

:!;

39

3.4. Quantizao Vetorial

Quantizao Vetorial (VQ Vector Quantization) o mtodo de compresso de

dados, em que ocorrem perdas com relao ao sinal original.

3.4.1. Entendendo quantizao vetorial

O processo busca codificar um vetor de coeficientes (neste caso os coeficientes do

filtro LPC) atravs da aproximao que ser realizada com algum vetor de referncia

previamente calculado. Sendo assim, podemos considerar que a VQ uma aproximao do

vetor do coeficiente LPC com um dos vetores analisados da tabela de vetores cdigos

denominada de codebook.

Um exemplo de aproximao com a utilizao de 1 bits a figura abaixo:

$%&

Na figura acima, cada nmero entre -2 e 0 aproximado por -1. Similarmente,

cada nmero entre +2 e +4 aproximado por +3. Dessa forma, temos uma quantizao

vetorial de uma dimenso (1-dimensional) e de com taxa de dois bits.

Um exemplo de quantizao vetorial de 2 dimenses demonstrado na figura 3.12.

Existem 16 regies, em cada regio h um nico ponto vermelho representado por 4 bits.

40

$%&

41

$%4 4

Os centrides so os vetores cdigos escolhidos, parmetros armazenados no codebook, os

quais possuem parmetros importantes para realizar a quantizao vetorial.

42

4. Anlise da qualidade do sinal de voz

Os codificadores de voz buscam ofertar uma melhoria de qualidade em detrimento da

taxa de transmisso. Entretanto, existem outros fatores que no so intrnsecos dos

codificadores de voz, que so os ofensores externos (delay, jitter, eco, perda de pacotes e erro

no canal de transmisso).

Para minimizar os problemas de qualidade dos codificadores, diversas tcnicas so

realizadas. Nesse contexto, avaliaremos, principalmente, os fatores intrnsecos aos

codificadores de voz, no descrevendo a contribuio, degradao ou melhoria, relacionada

aos fatores externos do codificador.

Uma das principais formas de avaliao do sinal de voz, em codificadores de forma de

onda, a relao sinal rudo, medida SNR, descrita por:

SNR= 10B log10

Xn = 0

M @1

s n a 2

Xn = 0

M @1

s n a

@s@ n ab c 2

fffffffffffffffffffffffffffffffffffffffffffffffffff fffff ff

H

LLLLLLJ

I

MMMMMMK (4.1)

A medida SNR tem limitaes, pesa todos os erros domnio do tempo de forma igual.

Uma medida SNR alta, com resultados indesejveis, pode ser obtido se o trecho da fala

apresenta alta concentrao de segmentos de voz (segmentos de alta energia), uma vez que o

rudo tem um maior efeito na percepo de segmentos de baixa energia, tais como sons surdos

ou fricativos. Uma medida de melhoria da qualidade pode ser obtida se SNR for medida em

intervalos de tempo curtos e os resultados em mdia. Essa medida chamada relao baseado

sinal-rudo segmentada(SNRseg) uma expressa por:

SNRseg= SNR jb cD E

onde j= intervalo de tempo da anlise SNR (4.2)

43

Essas anlises so ineficientes para as tcnicas de codificao paramtrica, pois se faz

necessrio a avaliao perceptual do sinal de voz. Para anlise perceptual, foram criados testes

objetivos e subjetivos.

4.1. Medidas subjetivas de qualidade

Inicialmente, os testes em codificadores de voz utilizados para telefonia eram

realizados pelo mtodo de avaliao subjetiva, tcnica para a medio atravs da percepo

do ouvido humano. Esse tipo de medida necessita seguir algumas diretrizes, tais como:

- analisar um nmero de ouvintes suficiente para assegurar um resultado estatstico

confivel;

- garantir que todos os ouvintes tenham uma percepo auditiva normal;

- garantir que todos os ouvintes efetuem corretamente as respostas dos testes

mensurados e tabelados;

- garantir um material abrangente e diversificado. Neste caso, o corpo de dados para os

testes, um banco de arquivos de voz;

- garantir que o codificador foi testado em todas as condies;

- escolher adequadamente as condies em que sero realizados os testes.

4.1.1. Mean Opinion Score (MOS)

Os testes efetuados segundo a norma especificada na recomendao (ITU P800, 1996)

analisam a avaliao perceptual subjetiva e denominado MOS (Mean Opinion Score). Nessa

recomendao, os ouvintes utilizam uma escala para medir a qualidade do sinal de voz, o qual

classificado conforme tabela 4.1:

Pontuao Qualidade da fala Esforo necessrio para a compreenso do significad o

5 Excelente Relaxamento completo; nenhum esforo necessrio

4 Boa ateno necessria; no preciso muito esforo

3 Regular um certo esforo necessrio

2 Pobre muito esforo necessrio

1 Pssima Ininteligvel, apesar de qualquer esforo empregado

*#$0=

44

Com base no processo de avaliao subjetiva2, os codificadores so analisados tendo como

referncia a pontuao MOS. A maioria das medidas de qualidade de voz so baseadas em

uma escala de classificao absoluta (ACR Absolute Category Rating), essa escala

utilizada para verificao do MOS.

Abaixo a figura 4.1 (Gomes, A. G., 2008) aput (Jayant e Noll, 1984) mostra a relao

taxa de bits em detrimento qualidade do sinal de voz amostrado para diferentes tipos de

codificadores.

#20=

4.2. Medidas objetivas de qualidade

Conforme processo apresentado anteriormente, o mtodo subjetivo de avaliao de

qualidade demanda tempo. Assim, esse processo criterioso com os parmetros e as

condies para realizao dos testes conforme especificao da recomendao do ITU-T.

Contudo, necessrio outro mtodo para anlise da qualidade de voz em telefonia em

2 Mtodos para determinao subjetiva da qualidade de transmisso so descritos na Recomendao ITU-T P.800, essa recomendao descreve os outros dois mtodos: Degradation Category Rating (DCR) e Comparison Category Rating (CCR).

45

tempo real. Esse tipo de medida a avaliao objetiva a qual permite a avaliao em tempo

real, podendo realizar o controle da qualidade do sinal de voz.

4.2.1. Perceptual Speech Quality Mesure (PSQM)

O PSQM um mtodo de medio da qualidade de voz baseado na recomendao do

ITU-T (ITU P861,1998). O PSQM(Objective quality measurement of telephone-band, 300-

3400Hz, speech codecs) estima a qualidade de voz nos codificadores. Esse algoritmo efetua a

medida de qualidade por um modelo psicoacstico, o qual tenta reproduzir a qualidade do

som percebida pelo ouvido humano.

#0*;> !80

Na figura 4.2, o modelo analisado tem como base a anlise dos sinais de entrada e

sada do codificador:

- o sinal convertido onde ocorre o mapeamento no tempo e em frequncia atravs

da implementao da FFT utilizando uma janela de Hamming;

46

- realizada uma alterao de escala de frequncia, utilizando uma escala

psicoacstica chamada escala de Bark 3, que realiza uma anlise subjetiva do udio, cobrindo

24 bandas audveis em Hertz;

- tambm realizada uma alterao da escala de amplitude do sinal, em que efetua

ajuste da potncia sonora atravs de filtros de ponderao, cujo objetivo o ajuste do som

percebido pelo ouvido humano.

4.2.2. Perceptual Analysis Measurament System (PAMS)

Esse algoritmo foi desenvolvido em 1998, e tambm efetua uma anlise no tempo e

em na frequncia. O PAMS um algoritmo complementar ao PSQM, ele resolveu um

problema que ocorria no PSQM, a realizao de sincronismo no tempo.

4.2.3. Perceptual Evaluation of Speech Quality (PESQ)

A anlise para este estudo utilizou o algoritmo do PESQ, que a recomendao do

ITU-T (ITU P862, 2001). Foi desenvolvida para utilizao de redes de pacotes, uma

evoluo dos algoritmos PSQM e PAMS, e apresenta uma medida de qualidade relacionada

diretamente com a escala MOS (ITU P800, 1996).

O PESQ possui os mesmos parmetros e processos do PSQM, entretanto, algumas

modificaes foram consideradas neste modelo:

- equalizao dos ganhos dos sinais de entrada (sinal original) e sada (sinal

degradado) do codificador, os dois sinais so analisados no domnio tempo e no domnio

frequncia, para que ao final da anlise tenham o mesmo nvel de potncia;

- os sinais so filtrados para que tenham a mesma caracterstica, e so alinhados no

tempo, para definir o intervalo de anlise;

- realiza-se uma converso para o domnio frequncia utilizando uma janela de

Hamming com 50% de sobreposio em quadros de 32ms.

3 uma escala psicoacstica proposta por Eberhard Zwicker em 1961. Ela foi nomeada aps Heinrich Barkhausen ter proposto a primeira medio subjetiva de intensidade sonora. A escala varia de 1 24, corresponde a 24 bandas crticas de audio. As frequncias base da escala Bark de audiometria esto no range de 20Hz 15500Hz.

47

Segundo (MAGRO, 2005), em uma anlise comparativa entre os algoritmos de

medida de qualidade, o PESQ o modelo de avaliao objetiva, que possui maior exatido

quando realizado testes cujo resultado correlacionado com a medida subjetiva MOS,

conforme tabela 4.2 .

Tipo Coeficiente Correlao PESQ PSQM

Rede Mvel mdia

pior_caso 0,962 0,905

0,924 0,843

Rede Fixa mdia

pior_caso 0,942 0,902

0,881 0,657

VoIP mdia

pior_caso 0,918 0,810

0,674 0,260

*#20! 80?!$8

Dentre os diversos codificadores de voz analisados em telecomunicaes, abaixo

segue um quadro comparativo com valores orientativos, segundo (KONDOZ, 2003). Essas

medidas de qualidade foram pontuadas atravs de testes subjetivos pontuais, usando material

de ensaio de literaturas variadas. Esses valores so teis para um parmetro entretanto no

deve ser tomado como uma indicao definitiva de desempenho do codec.

Recomendao Ano Algoritmo Taxa (kbits/seg) MOS G.711 1992 PCM 64 4.3 G.726 1991 VBR-ADPCM 16/24/32/40 .-x- G.728 1994 LD-CELP 16 4 G.723.1 1995 A/MP-MLQ CELP 5.3/6.3 .-x- G.729 1995 CS-ACELP 8 4

*# 0=

48

5. Codificadores ITU-T

Neste captulo, realizada uma anlise dos codificadores utilizados comumente em

redes de telefonia. Em geral os sistemas de codificao de voz possuem o seguinte diagrama,

segundo (CHU, 2003).

(

5.1. Codificadores ITU-T utilizados em

telefonia

Abaixo segue uma breve descrio dos codificadores padronizados pelo ITU-T. Os

mais relevantes descritos segundo (CHU, 2003), utilizados em redes de pacotes, estrutura

atual das operadoras de telecomunicaes em substituio s redes comutadas por circuito.

Codificador de voz Taxa

(kbits/seg) VAD Reduo de rudo Atraso (ms) Ano

G.711 (A/ -Law PCM) 64 no no 0 1972 G.726 (ADPCM) 16/24/32/40 no no 0,25 1990 G.728 (LD-CELP) 16 no no 1,25 1992 G.723.1 5.3/6.3 sim no 67,5 1995 G.729 (CS-ACELP) 8 sim no 25 1996

*(2 @A

49

5.1.1. Recomendao ITU-T G.711

Ano de aprovao: 1972

Taxa de codificao: 64kbit/s, pois temos uma frequncia de amostragem de 8000 Hz

e quantizamos 8bits por amostras.

Algoritmo de codificao: PCM - Pulse Code Modulation

Principio do codificador: Realiza a quantizao com escala logartmica. Desta forma,

obtm a relao sinal rudo (SNR) independente da intensidade. A tcnica de codificao

PCM obedece ao critrio de um codificador Nyquist, em que a frequncia de amostragem

igual ou superior ao dobro da maior frequncia presente no espectro:

f amostragem= 2B f mxima (5.1)

A codificao em telefonia utiliza uma frequncia de amostragem de 8kHz (8000

amostras do sinal de voz a cada segundo), as amostras so representadas com 256 nveis de

quantizao, o que define 8 bits por amostra. Sendo assim, o sinal de voz com a codificao

PCM possui a taxa padro 64k bits/seg.

Nesta tcnica de codificao so utilizados dois algoritmos de quantizao que so

chamados de leis: lei a (alaw) a leim (mlaw), pois o processo da tcnica PCM atribuir um

valor discreto a amplitude do sinal amostrado. Esse processo gera rudo de quantizao,

sendo necessrio utilizar uma das leis de quantizao para minimizar o sinal de entrada no

quantizador com o sinal de sada quantizado.

()*B!20

50



Taxa de codificao: varivel 16kbit/s, 24kbit/s, 32kbit/s e 40kbit/s

Algoritmo de codificao: ADPCM Adaptive Pulse Code Modulation

Principio do codificador: Este codificador foi desenvolvido com a proposta de

melhorar a codificao PCM, codificar a voz com a metade da taxa utilizada no PCM,

mantendo a qualidade do sinal codificado. Essa tcnica de codificao possui um quantizador

adaptativo, podendo fazer um ajuste no preditor linear com base nas variaes do sinal ser

codificado. As diferentes taxas de codificao so relativas aos bits utilizados por amostra:

2,3,4 e 5, tendo respectivamente as taxas: 16kbit/s, 24kbit/s, 32kbit/s e 40kbit/s.

( )* 5)!20-@AC,+.-5DE05D@F>::+.

51



Taxa de codificao: 16kbit/s

Algoritmo de codificao: LD-CELP Low-Delay Code Excited Linear Prediction

Princpio do codificador: Este codificador reduz o tempo da amostra processada entre

codificador e o decodificador. Transmite uma nica excitao e possui uma anlise de

predio capaz de avaliar recurssivamente cinco amostras PCM, sendo essa rotina a base do

algoritmo implementado para melhoria do atraso de codificao.

(#)* 7)2$7!-ADA@>::.

52

5.1.4. Recomendao ITU-T G.723.1


Taxa de codificao: 5,3kbit/s e 6,3kbit/s

Algoritmo de codificao: MP-MLQ ACELP,

onde MP-MLQ-Multi-Pulse Maximum Likelihood Quantization

Princpio do codificador: Codifica o sinal de voz mediante codificao linear de

anlise por sntese. Foi projetado para videoconferncia e voz sobre IP. um codificador de

taxa dupla em que codifica taxa de 5.3 kbps utilizando a estrutura ACELP. A codificao

taxa de 6.3kbps corresponde a codificao MP-MLQ que oferece uma qualidade um pouco

melhor.

(()* 7)2$7!

53



Taxa de codificao: 8kbit/s

Codificao: CS-ACELP ConjugateStructure- Algebraic Code excited

Linear Prediction

Principio do codificador: a transmisso do sinal de voz com uma baixa taxa de bits,

para uso de telefonia. muito utilizado em redes que necessitam compresso de banda.

Realiza a codificao do sinal em frames de 10ms, efetua uma anlise das amostras futuras de

5ms, o que resulta num atraso de 15ms para realizar o algoritmo de codificao.

No item 5.2 faremos uma descrio detalhada do bloco de codificao do sinal de voz,

pois este codificador a caso de estudo para realizar a avaliao perceptual do sinal de voz.

54

5.2. CS-ACELP: Conjugate Structure Code-

Excited Linear Prediction (G.729a)

O codificador G.729a baseia-se na filtragem do sinal analgico especificado na

recomendao G712 do ITU-T com a taxa de amostragem a 8000 amostras por segundo,

codificando os sinais de udio em frames de 10ms.Possui um atraso de 5ms, sendo seu bit rate

de 8Kbps

5.2.1. O codificador CS-ACELP - (G.729a)

. O modelo de codificao baseado algoritmo de codificao CS-ACELP. Efetua a

predio linear por excitao com cdigo algbrico. Nesse intervalo de tempo, o sinal de voz

(quase estacionrio) analisado e parametrizado, comparado atravs de uma anlise por

sntese em busca da melhor excitao do sinal que corresponda ao sinal alvo. Cada frame de

10ms que analisado, gera 80 amostras do sinal por segundo, em que so extrados os

parmetros por frame: Coeficientes de predio linear do filtro, ndices do codebook fixo,

ndices do codebook adaptativo e ganho. Esses parmetros codificados e transmitidos so

distribudos de acordo com a tabela 5.2, a qual explica a alocao de bit dos 8kb/s do

algoritmo CS-ACELP em um frame em 10ms:

Parameter Codeword Sub frame 1 Sub frame 2 Total pe r frame

Line spectrum pairs L0, L1, L2, L3 18 Adaptive-codebook delay P1, P2 8 5 13 Pitch-delay parity P0 1 1 Fised-codebook index C1, C2 13 13 23 Fixed-codebook sign S1, S2 4 4 8 Codebook gains (stage 1) GA1, GA2 3 3 6 Codebook gains (stage 2) GB1, GB2 4 4 8 Total 80

*(!GC,1-@ AC,1.

55

5.2.2. Codificador

As principais etapas de codificao do sinal de voz so executadas conforme o

diagrama de blocos abaixo:

(+ )*2 52$7!

Descrio dos estgios de codificao do CS-ACELP:

1) O sinal de entrada passa por um filtro passa alta para eliminao de rudo, pr-

processado e esse sinal utilizado para as anlises subsequentes da codificao.

56

2) A anlise de Predio Linear realizada uma vez a cada frame de 10ms calculando-

se os coeficientes de filtro de Predio Linear. Esses coeficientes so convertidos para Line

Spectrum Pairs (LSP) e quantizados, Vector Quantization (VQ).

3) O sinal de excitao escolhido por meio de uma anlise por sntese, procedimento

de busca em que o erro entre o sinal de voz original e o reconstrudo minimizado de acordo

com uma medida de distoro perceptualmente ponderada. Isso feito atravs da filtragem

do sinal de erro com um filtro de ponderao perceptual, cujos coeficientes so derivados da

Predio Linear no quantizada do filtro.

4) Os parmetros de excitao (parmetros dos dicionrios fixos e adaptativo) so

determinados por um subframe de 5ms (40 amostras) cada um. Os coeficientes quantizados e

no quantizados do filtro de Predio Linear so usados no segundo subframe, enquanto no

primeiro subframe os coeficientes de predio linear interpolados so usados (ambos

quantizados e no quantizados).

5) Um valor do pitch estimado com base no sinal resultante da amostra analisada

pelo filtro de ponderao, em malha aberta.

6) Os estados iniciais do filtro so atualizados pela filtragem do erro residual. Calcula-

se o circuito em malha fechada para estimar o ganho e o valor do dicionrio adaptativo.

7) Com os valores do dicionrio adaptativo e com as duas estimativas de pitch, busca-

se no dicionrio fixo um valor para encontrar a soluo tima.

8) Os ganhos dos dicionrios (fixo e adaptativo) so quantizados, o filtro atualizado

e o sinal de excitao determinado.

57

5.2.3. Decodificador

Na decodificao do sinal, os parmetros do fluxo de bits recebidos so extrados

conforme diagrama de blocos abaixo:

(, )* 252$7!

Descrio dos estgios de decodificao do CS-ACELP:

1) Os ndices so decodificados para obter os parmetros do codificador

correspondente a um quadro de fala de 10 ms.

2) Esses parmetros so os coeficientes LSP, e duas fraes de delay do pitch, dois

vetores do codebook fixo, e os dois conjuntos de ganhos referente ao codebook adaptativo e o

codebook fixo;

3) Efetua-se a sntese de curto prazo: Os coeficientes LSP so interpolados e

convertidos em coeficientes do filtro de predio linear para cada sub frame.

4) Efetua-se a sntese de longo prazo: avaliado um subframe de 5ms, em que so

executadas as seguintes etapas:

a) A excitao calculada adicionando os vetores do codebook fixo e do codebook

adaptativo, dimensionado pelos respectivos ganhos

b) O sinal de fala reconstrudo atravs da filtragem da excitao, realizada pelo

filtro de sntese de predio linear.

5) A reconstruo do sinal de fala ocorre aps o estgio de ps filtragem, que inclui

um filtro adaptativo baseado nos filtros de sntese a curto e longo prazos, seguido por um

filtro passa-alta que completa a operao de filtragem e dimensionamento da operao.

58

6. Proposta

Neste trabalho, foi avaliada a estrutura do codificador com suas alteraes propostas

para melhoria perceptual, excluindo-se as variaes do meio de transmisso.

Os codificadores de voz buscam a melhoria de qualidade utilizando uma baixa taxa de

bits para transmisso. Um exemplo disso o codificador G.729a, padro do ITU-T que

consegue operar a uma taxa de 8Kbps. Geralmente, se a anlise baseia-se nessa premissa

(maior qualidade com menor taxa de transmisso), o processo para a garantia de qualidade e a

decodificao do sinal possuem mecanismos incorporados para tratar os fenmenos inerentes

ao meio de transmisso (atraso, jitter e perda de pacotes).

Segundo avaliao da figura 6.1, apresentada abaixo, que se baseia no estudo do codec

G729a apresentado em (PREGO e NETTO, 2008), os valores de MOS esto dentro do limiar

aceitvel para experimentos acadmicos e aplicaes prticas implementadas no mercado.

+D0=%%

59

Como a anlise neste estudo enfoca a melhoria perceptual no sinal de origem, optou-

se pela escolha de um codificador que fosse bastante utilizado nos sistemas de

telecomunicaes, o codec G729a.

Convm mencionar que a avaliao perceptual foi realizada em trabalhos que

analisavam o desempenho do codificador mediante a ponderao de qualidade sobre o meio

de transmisso.

A proposta obter uma melhora na ausncia do meio de transmisso, o que factvel

de ser avaliado, uma vez que as caractersticas deste codificador j foram objeto de estudo em

diversos trabalhos na comunidade acadmica e no meio coorporativo. (MAGRO, 2005),

(FERNANDES, 2003)

Neste estudo, foi aplicado o processo proposto, avaliao do sinal na origem do

codificador com a implementao do algoritmo do PESQ no encoder.

Para verificao do estudo, foi implementado a recomendao do ITU-T, P.862

(PESQ), no encoder do codificador CS-ACELP (G729a), com a finalidade de mensurar uma

ponderao do MOS, pois esta mtrica a atual referncia para avaliao de qualidade do

sinal de udio percebido nos sistemas de telecomunicaes.

A proposta deste trabalho realiza uma anlise objetiva baseada em critrios

perceptuais do sinal de voz, sendo este verificado e analisado no bloco de origem do sinal a

ser transmitido.

+)

60

A produo do sinal de voz tem suas caractersticas variantes no tempo, que

dependem da variao do trato vocal. Pensando do ponto de vista do orador, se

consegussemos realizar uma analise das formantes do sinal de voz, mapeando alguns

parmetros no processo de codificao, seramos capazes de indicar alteraes dinmicas para

melhorar esse sinal de voz emitido.

Sendo constantes os avanos nos hardwares de processamento digital de sinais,

entende-se que a capacidade de processamento no mais o problema, mas a busca por uma

melhoria contnua no sinal de voz um tema ainda em discusso. Neste cenrio, o tema

proposto, melhoria da qualidade perceptual do sinal de voz na origem do codificador, pode ter

uma expressiva contribuio na busca por melhoria contnua.

Na proposta apresentada, realizada uma heurstica em que o controle perceptual do

sinal de voz realizado em tempo real. Utilizaremos o codificador G729a e o algoritmo do

PESQ para avaliao do sinal de voz.

A anlise foi implementada no bloco do codificador de voz. Neste bloco, foi realizada

a codificao, decodificao e anlise perceptual do sinal de voz amostrado. Em cada instante

desta anlise deseja-se obter uma melhoria no sinal codificado. Essa melhoria foi avaliada

com o algoritmo do PESQ interagindo no processo de codificao do sinal de voz.

A figura 6.3 abaixo mostra o diagrama do bloco de origem do codificador que efetua a

anlise do processo de avaliao perceptual durante a transmisso dos dados:

61

+ )* 3

O objeto de estudo o codificador G729a, em que foram implementados, nesse

codificador, os blocos relacionados na figura 6.3 conforme descrio abaixo:

- o bloco do encoder realiza a codificao do sinal, em que foi realizada a

segmentao para leitura de um nmero especfico de frames do sinal de entrada;

- o bloco do decoder foi duplicado na estrutura. O bloco D2 para receber o sinal

de voz que necessita ser decodificado, estrutura normal do codificador (encoder / decoder). O

bloco D1 decoder inserido na estrutura do codificador responsvel pela decodificao dos

frames codificados originados no enonder. Esses frames necessitam ser decodificados para

avaliao perceptual do sinal;

- o bloco do PESQ responsvel por receber o sinal de referncia da entrada do

codificador e o sinal que passou pelo encoder e foi codificado para envio e transmisso. Esse

mesmo sinal passa por um decoder D1 e decodificado para avaliao perceptual;

- a indicao de MOS, ou seja, a pontuao dos sinais avaliados incide sobre uma ao

de controle no bloco do encoder, alterando os frames seguintes avaliao presente.

Os blocos descritos acima, estruturados nesta formatao, compem o estudo de caso

e anlise desta dissertao. O principal objetivo deste trabalho verificar o sinal do ponto de

vista perceptual, essa verificao ocorre em tempo real com aes de controle no bloco de

origem de codificao, o encoder, para garantir e melhorar perceptual os frames codificados.

62

7. Estudo de Caso

Para anlise do problema proposto, avaliao perceptual do sinal de voz na origem da

codificao para obter melhoria perceptual, foram estudadas a codificao e a avaliao do

sinal codificado. Neste trabalho utilizaram-se os programas:

1) ITU-T G.729a CS-ACELP Speech Coder ANSI-C Source Code

Version 1.1 Last modified: September 1996

Copyright (c): AT&T, France Telecom, NTT, Universite de Sherbrooke

2) ITU-T P862 PESQ Algorithm Software ANSI-C Source Code

Version 1.2 Last modified: August 2002

Copyright (c): Psytechnics Limited e OPTICOM GmbH

7.1. Plataforma de experimento (G729a com

PESQ)

O processo de anlise consiste no bloco do codificador G.279a

(codificao/decodificao) na origem do interlocutor, sobre o qual foi inserido o algoritmo

do PESQ para avaliao perceptual do sinal de voz na origem da codificao.

Nessa formatao, o processo de codificao (extrai os coeficientes LPC, o ganho e os

ndices dos dicionrios) encaminha o fluxo de bits ao decodificador que foi duplicado no

bloco do codificador G729. O sinal de entrada, ao mesmo tempo em que codificado na

origem, tem seu valor decodificado e avaliado pelo algoritmo do PESQ.

Os arquivos PCM 16Bits, amostrado a 8KHz de entrada e de sada do bloco do

codificador de origem do interlocutor, so verificados a cada intervalo de tempo. Obtm uma

63

resposta do algoritmo PESQ para uma anlise curta de frames, de modo que a representao

seja a mais prxima do tempo real.

7.2. Anlise dos parmetros de avaliao

Durante os estudos, foram avaliados os parmetros escalares de ganho de codificao

e ganho de pitch do codificador G729a. Tambm se avaliou o algoritmo PESQ, que foram

verificados parmetros intrnsecos do algoritmo. Essa anlise dos parmetros definida no item

7.3 descreve o processo de anlise dos arquivos codificados e decodificados no bloco do

encoder para obter uma garantia de melhora perceptual dos frames do sinal de voz.

7.2.1. Limites de frames do PESQ no bloco do codec

Para a avaliao perceptual na implementao do algoritmo do PESQ dentro do

encoder do codificador do G729a

Avaliação perceptual do codec G729 utilizando algoritmo PESQ

Documents

Transcript of Avaliação perceptual do codec G729 utilizando algoritmo PESQ