Avaliação perceptual do codec G729 utilizando algoritmo PESQ
-
Upload
flavio-wisnevski -
Category
Documents
-
view
23 -
download
3
description
Transcript of Avaliação perceptual do codec G729 utilizando algoritmo PESQ
-
PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL FACULDADE DE ENGENHARIA
PROGRAMA DE PS GRADUAO EM ENGENHARIA ELTRICA
FL`VIO LUIS WISNEVSKI.
CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E
PERCEPTUAL DO SINAL DE VOZ
Porto Alegre Agosto - 2011
-
2
FL`VIO LUIS WISNEVSKI
CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E PERCEPTUAL DO SINAL DE VOZ
DISSERTAO APRESENTADA COMO REQUISITO PARCIAL PARA OBTENO DO GRAU DE MESTRE, PELO PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA DA PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL.
Orientador: Prof. Dr. Rubem Dutra Ribeiro Fagundes
Porto Alegre Agosto - 2011
-
3
CODIFICADOR G729a ORIENTADO AVALIAO DA QUALIDAD E PERCEPTUAL DO SINAL DE VOZ
FL`VIO LUIS WISNEVSKI
DISSERTAO APRESENTADA COMO REQUISITO PARCIAL PARA OBTENO DO GRAU DE MESTRE, PELO PROGRAMA DE PS-GRADUAO EM ENGENHARIA ELTRICA DA PONTIFCIA UNIVERSIDADE CATLICA DO RIO GRANDE DO SUL.
Porto Alegre, 25 de Agosto de 2011.
_____________________________________________ Prof. Dr. Rubem Dutra Ribeiro Fagundes
Orientador
____________________________________________________
Prof. Dra. Letcia Maria Bolzani Phls
Coordenadora do Programa de Ps-Graduao em Engenharia Eltrica PUCRS
Banca Examinadora:
____________________________________________________ Prof. Dr. Miguel Arjona Ramrez EPUSP/USP
____________________________________________________
Prof. Dra. Letcia Maria Bolzani Phls PUCRS
_____________________________________________ Prof. Dr. Rubem Dutra Ribeiro Fagundes PUCRS
-
4
minha esposa Lisiane, meu amor e meu carinho.
-
5
AGRADECIMENTOS
Agradeo Deus pelas oportunidades de vida que tem me proporcionado.
minha amada Lisiane, por estar sempre comigo, confiando na nossa trajetria em
construo de uma famlia.
Agradeo, tambm, minha me, por me lembrar como a vida difcil quando tomamos
decises erradas.
Ao professor Rubem, pela sua pacincia em ensinar sem criticar, e pela sua sabedoria em me
mostrar que sempre existe uma sada no final.
Aos amigos Lcio e Lucas pelo seu auxlio durante a pesquisa e desenvolvimento deste
trabalho.
Ao professor Joo Ernandes, pelos ensinamentos de vida acadmica e profissional.
Enfim, meu obrigado a todos os que estiveram junto comigo nesta jornada.
-
6
Um professor afeta a eternidade; ele
nunca sabe onde a sua influncia termina.
Henry Adans
-
7
RESUMO
Esta dissertao apresenta um modelo de codificador da voz que avalia a qualidade
perceptual, utilizando-se um codificador paramtrico definido pela Recomendao do ITU-T,
o G729a , conhecido tecnicamente como Conjugate Structure Algebraic Code Excited Linear
Prediction (CS-ACELP).
Atualmente, a codificao de voz avaliada por parmetros subjetivos, em que no h
uma anlise para melhoria perceptual que altere os parmetros dinamicamente. O objetivo
deste trabalho a melhoria no desempenho do sinal codificado na fonte, considerando as
limitaes de trabalhar com as variveis escalares do codec.
Foi realizada uma anlise sobre os sinais de voz para dar subsdios ao leitor,
possibilitando o entendimento terico e uma descrio sobre o codificador G729a,
enfatizando os estgios de codificao dos parmetros escalares, objeto deste estudo.
Programou-se no codificador G729a, o algoritmo PESQ, o qual realiza a anlise
perceptual do sinal de voz. Tambm foi avaliada recomendao P.862 do ITU-T que descreve
o algoritmo de avaliao da qualidade perceptual.
Para validar a metodologia proposta, foram realizados experimentos em sinais de voz
do banco de dados Timit, em que se estudou o comportamento do sinal de voz e a melhoria
perceptual devido alterao dos parmetros escalares de codificao do sinal.
No experimento realizado, foi realizada a modificao no codificador CS-ACELP
com a utilizao de uma anlise perceptual ponderando a avaliao do algoritmo do PESQ
para deciso de atuao sobre a codificao, o que resultou em sinais de maior qualidade para
os usurios, garantindo a estabilidade de 72,41% e melhorando 50,38% dos quadros avaliados
pelo PESQ. Houve alterao no ganho de pitch, sem a modificao da essncia do codec.
.
Palavras-chaves: Codificao de voz, predio linear, anlise perceptual, G729a, PESQ .
-
8
ABSTRACT
This thesis presents a model that evaluates the perceptual quality of the enconding
voice, using a parametric encoder defined by the ITU-T Recommendation G729a, technically
known as Conjugate Structure Algebraic Code Excited Linear Prediction (CS-ACELP).
Currently the voice coding is evaluated by subjective parameters, where there is a
perceptual analysis to improve the parameters that change dynamically. The objective of this
study is improvement in the performance of the coded signal source, considering the
limitations of working with the codec scalar variables.
An analysis of the speech signals to improve input to the reader, allowing for better
understanding and a theoretical description of the encoder G729a, emphasizing the stages of
encoding scalar parameters, object of this study.
The PESQ algorithm has been inserted into the coder, which by these means performs
a perceptually based analysis of the speech signal. In so doing, we have also analyzed
thoroughly ITU-T Recommendation P.862 describing an algorithm for objectively evaluating
perceptual speech quality.
To validate the proposed methodology, test were performed for comparison which
speech signals from the Timit database for studying the improvement in coded speech quality
after the perceptual improvement algorithm applied to the scalar parameters in coding
In the experiment, was performed in modified CS-ACELP coder using a perceptual
analysis considering the evaluation of the PESQ algorithm for decision to operate on the
encoding, resulting in higher quality signals to users, ensuring the stability of 72.41% and
50.38% of the frames better evaluated by PESQ. There was change in the pitch gain, without
changing the essence of the codec.
Key words: Speech coding, linear prediction, perceptual analysis, G729a, PESQ.
-
9
SUM`RIO
1. Introduo ....................................................................................................................... 15
1.1. Objetivo ....................................................................................................................15 1.2. Motivao .................................................................................................................16 1.3. Estrutura da Dissertao ...........................................................................................16
2. Anlise do Aparelho Fonador........................................................................................ 18
2.1. Processo Fisiolgico de Produo de Voz................................................................18 2.1.1. Trato Vocal .......................................................................................................19 2.1.2. Sistema de produo de voz e as suas formantes .............................................20
2.2. Modelo de Produo do Sinal de Voz ......................................................................23 2.2.1. Gerador de excitao ........................................................................................23 2.2.2. Modelagem do Trato vocal...............................................................................24 2.2.3. Radiao ...........................................................................................................25 2.2.4. Modelo completo de produo de voz..............................................................26
3. Codificao de voz em DSP, Processamento Digital de Sinais ................................... 28
3.1. Sinais e comunicao................................................................................................28 3.1.1. Classificao do sinal para formao de modelos ...........................................29 3.1.2. Amostragem do sinal ........................................................................................29 3.1.3. Quantizao do sinal.........................................................................................29 3.1.4. Codificao do sinal .........................................................................................29 3.1.5. Anlise Homomrfica ou Anlise Cepstral ......................................................30
3.2. Tipos de codificadores..............................................................................................31 3.2.1. Codificadores de forma de onda .......................................................................31 3.2.2. Codificadores paramtricos ..............................................................................32 3.2.3. Codificadores hbridos......................................................................................32
3.3. Codificao Preditiva Linear ....................................................................................33 3.3.1. Anlise da Codificao Preditiva Linear ..........................................................33 3.3.2. Line Spectrum Frequency e Line Spectrum Pairs............................................36 3.3.3. Janelamento ......................................................................................................37
3.4. Quantizao Vetorial ................................................................................................39 3.4.1. Entendendo quantizao vetorial......................................................................39
4. Anlise da qualidade do sinal de voz ............................................................................ 42
4.1. Medidas subjetivas de qualidade ..............................................................................43 4.1.1. Mean Opinion Score (MOS).............................................................................43
4.2. Medidas objetivas de qualidade................................................................................44 4.2.1. Perceptual Speech Quality Mesure (PSQM)....................................................45 4.2.2. Perceptual Analysis Measurament System (PAMS) .......................................46 4.2.3. Perceptual Evaluation of Speech Quality (PESQ) ...........................................46
5. Codificadores ITU-T ...................................................................................................... 48
5.1. Codificadores ITU-T utilizados em telefonia ...........................................................48 5.1.1. Recomendao ITU-T G.711 ...........................................................................49 5.1.2. Recomendao ITU-T G.726 ...........................................................................50 5.1.3. Recomendao ITU-T G.728 ...........................................................................51 5.1.4. Recomendao ITU-T G.723.1 ........................................................................52 5.1.5. Recomendao ITU-T G.729 ...........................................................................53
5.2. CS-ACELP: Conjugate Structure Code-Excited Linear Prediction (G.729a) ..........54
-
10
5.2.1. O codificador CS-ACELP - (G.729a)...............................................................54 5.2.2. Codificador .......................................................................................................55 5.2.3. Decodificador ...................................................................................................57
6. Proposta ........................................................................................................................... 58
7. Estudo de Caso................................................................................................................ 62
7.1. Plataforma de experimento (G729a com PESQ) ......................................................62 7.2. Anlise dos parmetros de avaliao........................................................................63
7.2.1. Limites de frames do PESQ no bloco do codec ...............................................63 7.2.2. Formatao dos arquivos de testes ...................................................................64 7.2.3. Sinais analisados para alterao da codificao ...............................................67 7.2.4. Ajuste da avaliao Perceptual (alteraes significativas) ...............................68
7.3. Padro de avaliao perceptual proposto..................................................................73 8. Resultados Obtidos ......................................................................................................... 75
8.1. Testes realizados.......................................................................................................75 8.1.1. Anlise dos parmetros escalares .....................................................................75 8.1.2. Avaliao Perceptual Oradores masculino (Arquivo 01) ..............................77 8.1.3. Avaliao Perceptual Oradores feminino (Arquivo 01) ................................80 8.1.4. Avaliao Perceptual Oradores masculino (Arquivo 02) ..............................83 8.1.5. Avaliao Perceptual Oradores feminino (Arquivo 02) ................................86
9. Concluses ....................................................................................................................... 89
9.1. Sugestes para trabalhos futuros ..............................................................................91 10. Referncias Bibliogrficas ............................................................................................. 93
11. Anexo ............................................................................................................................... 98
11.1. Arquivos de testes do Banco de dados Timit .......................................................98 12. Apndices....................................................................................................................... 100
12.1. Apndice A - Resultado do Arquivo1 de Oradores masculinos.........................100 12.2. Apndice B - Resultado do Arquivo1 de Oradores femininos ...........................105 12.3. Apndice C - Resultado do Arquivo2 de Oradores masculinos .........................111 12.4. Apndice D - Resultado do Arquivo2 de Oradores femininos...........................119
-
11
LISTA DE FIGURAS
Figura 2-1 rgos de produo da fala Sistema do Trato Vocal. ......................................19
Figura 2-2 Segmento sonoro de voz com segmentos surdos de voz sinal irradiado ..........20
Figura 2-3 Ptch do sinal de voz amostrado............................................................................21
Figura 2-4 Exemplo de historiograma da frequncia fundamental .......................................22
Figura 2-5 Diagrama em blocos do modelo para produo de voz. .......................................23
Figura 2-6 Diagrama em blocos do sinal de excitao para sons sonoros ............................23
Figura 2-7 (a) Exemplo de dois tubos e trs tubos. ..............................................................24
Figura 2-8 Modelo completo para produo de voz..............................................................26
Figura 2-9 Modelo simplificado para produo de voz........................................................27
Figura 3-1 - Elementos de um sistema de comunicao. .........................................................28
Figura 3-2 - Classificao do sinal de voz em sons sonoros e surdos ......................................29
Figura 3-3 Partes bsica de um conversor analgico-digital (A/D) ......................................30
Figura 3-4 AnliseCepstral do sinal de voz..........................................................................31
Figura 3-5 Processo de gerao de voz humana num codificador LPC ................................32
Figura 3-6 Qualidade x Taxa de transmisso dos codificadores ...........................................33
Figura 3-7 a) Modelo de produo da fala b) Modelo do trato vocal.........................34
Figura 3-8 Diagrama de blocos do processo de anlise (a) e de sntese (b) .........................36
Figura 3-9 Anlise das janelas de Hanning e Hamming. ......................................................38
Figura 3-10 Processo de janelamento ....................................................................................38
Figura 3-11 Exemplo de quantizao em 1 dimenso..............................................................39
Figura 3-12 Exemplo de quantizao em 2 dimenses .........................................................40
Figura 3-13 Exemplo de espao vetorial com centrides de vetores de cdigos ..................41
Figura 4-1 Comportamento da avaliao MOS para dos diferentes tipos de codificadores..44
Figura 4-2 Modelo de avaliao objetiva, utilizando o PSQM. ...........................................45
Figura 5-1 Sistema de codificao de voz. ............................................................................48
Figura 5-2 Diagrama de blocos da tcnica PCM..................................................................49
Figura 5-3 Diagrama de blocos do processo de codificao ADPCM (VARY e MARTIN,
2006).................................................................................................................................50
Figura 5-4 Diagrama de blocos do processo de codificao LD-CELP (FURUI, 2001).....51
Figura 5-5 Diagrama de blocos do processo de codificao LD-CELP...............................52
Figura 5-6 Diagrama de blocos do processo de codificao CS-ACELP ............................55
Figura 5-7 Diagrama de blocos do processo de decodificao CS-ACELP ........................57
-
12
Figura 6-1 Relao do MOS x Taxa de Transferncia dos diversos codificadores..............58
Figura 6-2 - Diagrama de avaliao perceptual do codec no sinal de origem..........................59
Figura 6-3 - Diagrama de blocos simplificado de anlise do codec .........................................61
Figura 7-1 Arquivo01 Oradores masculinos Sinal de voz.....................................................64
Figura 7-2 Arquivo01 Oradores masculinos Anlise de frequncia de pitch........................65
Figura 7-3 Arquivo02 Oradores masculinos Sinal de voz.....................................................65
Figura 7-4 Arquivo02 Oradores masculinos Anlise de frequncia de pitch........................65
Figura 7-5 Arquivo01 Oradores femininos Sinal de voz.......................................................66
Figura 7-6 Arquivo01 Oradores femininos Anlise de frequncia de pitch..........................66
Figura 7-7 Arquivo02 Oradores femininos Sinal de voz.......................................................66
Figura 7-8 Arquivo02 Oradores femininos Anlise de frequncia de pitch..........................67
Figura 7-9 Inicializao dos trs primeiros frames e ao da avaliao zero...........................69
Figura 7-10 Avaliao dos ganhos no arquivo 01 de Oradores Femininos..............................70
Figura 7-11 Avaliao dos ganhos no arquivo 01 de Oradores Masculinos ............................71
Figura 7-12 Avaliao dos ganhos no arquivo 02 de Oradores Femininos..............................71
Figura 7-13 Avaliao dos ganhos no arquivo 02 de Oradores Masculinos ............................72
Figura 8-1 Grfico da aplicao do ganho no arquivo 01 de Oradores Masculinos ................77
Figura 8-2 Arquivo1 Oradores masculinos, sinal codificado e decodificado com atuao do
PESQ ................................................................................................................................79
Figura 8-3 Arquivo1 Oradores masculinos, anlise da frequncia de pitch .............................79
Figura 8-4 Grfico da aplicao do ganho no arquivo 01 de Oradores Femininos ..................80
Figura 8-5 Arquivo1 Oradores femininos, sinal codificado e decodificado com atuao do
PESQ ................................................................................................................................82
Figura 8-6 Arquivo1 Oradores femininos, analise da frequncia de pitch ...............................82
Figura 8-7 Grfico da aplicao do ganho no arquivo 02 de Oradores Masculinos ................83
Figura 8-8 Arquivo2 Oradores masculinos, sinal codificado e decodificado com atuao do
PESQ ................................................................................................................................85
Figura 8-9 Arquivo2 Oradores masculinos, analise da frequncia de pitch .............................85
Figura 8-10 Grfico da aplicao do ganho no arquivo 02 de Oradores Femininos ................86
Figura 8-11 Arquivo2 Oradores femininos, sinal codificado e decodificado com atuao do
PESQ ................................................................................................................................88
Figura 8-12 Arquivo2 Oradores femininos, analise da frequncia de pitch .............................88
-
13
LISTA DE TABELAS
Tabela 4-1 Escala de classificao do MOS..........................................................................43
Tabela 4-2 Comparao de eficincia do Modelo PSQM & PESQ. ....................................47
Tabela 4-3 Valores de referncia do MOS para os codificadores Standards utilizados em
telefonia. ...........................................................................................................................47
Tabela 5-1 Comparao de codecs ITU-T para telefonia......................................................48
Tabela 5-2 Parmetros codificados pelo G729a (ITU-T G729). ..........................................54
Tabela 7-1 Avaliao do PESQ para adio de ganho nos sinais de pitch e codificao ....68
Tabela 7-2 Ganhos avaliados para os arquivos de teste .......................................................70
Tabela 7-3 Ajuste do controle de ganho para os arquivos de teste.......................................73
Tabela 8-1 Testes somente com o PESQ inserido no codificador........................................76
Tabela 8-2 Resultado do programa executado no arquivo1 de Oradores Masculinos .........77
Tabela 8-3 Avaliao dos parmetros extrados do Arquivo1 de Oradores Masculinos......78
Tabela 8-4 Resultado do programa executado no arquivo1 de Oradores Femininos...........80
Tabela 8-5 Avaliao dos parmetros extrados do Arquivo1 de Oradores Femininos .......81
Tabela 8-6 Resultado do programa executado no arquivo2 de Oradores Masculinos .........83
Tabela 8-7 Avaliao dos parmetros extrados do Arquivo2 de Oradores Masculinos......84
Tabela 8-8 Resultado do programa executado no arquivo2 de Oradores Femininos...........86
Tabela 8-9 Avaliao dos parmetros extrados do Arquivo2 de Oradores Femininos .......87
Tabela 9-1 Anlise do ganho de pitch sobre a proposta de avaliao ................................90
-
14
LISTA DE SIGLAS
CS-ACELP - Conjugate Structure Algebraic Code Excited Linear Prediction
PESQ - Perceptual Evaluation of Speech Quality
MOS - Mean Opinion Score
ITU-T - Telecomunication Standardization of International Telecomunication Union
PCM - Pulse Code Modulation
G.729 - Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP
G.729.A - Recomendao ITU-T cdigo de voz 8kbps para CS-ACELP Anexo A
GSM - Global System for Mobile Communications
RELP - Residual Excited Linear Prediction
CODEC - Dispositivo de hardware ou software que codifica e decodifica sinais.
ENCODER - Codificador do sinal de voz amostrado
DECODER - Decodificador do sinal de voz amostrado
LSF - Line Spectrum Frequency
LSP - Line Spectrum Pair
Timit - Banco de dados de 630 oradores em 8 dialetos do ingls Americano.
Audacity - Software de anlise e manipulao de sinais de udio.
-
15
1. Introduo
O sistema de telecomunicaes abrange uma gama de sinais e servios e os sinais
constituem um ingrediente bsico de nossa vida. Uma forma comum de comunicao humana
o uso de sinais de fala, seja conversao frente a frente ou por canal telefnico. Neste
trabalho sobre codificao do sinal de voz utilizado em telefonia e redes de pacotes, a anlise
de qualidade perceptual do sinal codificado na fonte o principal fator de estudo. Embora o
estudo do sinal de voz e a avaliao perceptual sejam processos amplamente difundidos, a
pesquisa sobre esses tpicos esto relacionadas com a abordagem do codificador utilizado,
isto , um algoritmo de avaliao perceptual, tendo como vantagem a anlise do sinal de voz ,
com alteraes dinmicas em tempo real para melhoria em tempo real.
1.1. Objetivo
A anlise de codificao de fala avalia alguns requisitos para busca de um desempenho
satisfatrio. Um codificador de voz pode ser til por reduzir a taxa de transmisso apesar de
aumentar a distoro, diminuindo o desempenho mesmo sendo mais eficiente na sua funo.
O procedimento experimental deste trabalho consiste em avaliar a qualidade perceptual do
sinal codificado com os experimentos e alteraes realizadas no encoder do codificador CS-
ACELP (Conjugate Structure Algebraic Code Excited Linear Prediction).
Os trabalhos de avaliao de qualidade que foram pesquisados durante este projeto,
enfatizavam o processo de codificar/transmitir/decodificar o sinal e avaliar externamente o
sinal original de entrada no encoder com o sinal de sada do decoder. A qualidade estava
associada s alteraes que o sinal sofria quando submetido s aes do meio fsico1. Neste
trabalho foi avaliada a estrutura do codificador com suas alteraes propostas para melhoria
perceptual, excluindo-se as variaes do meio de transmisso.
1 Entende-se por aes do meio fsico toda oscilao que ocorre no sinal de voz: degradao, perda, variao e atraso.
-
16
1.2. Motivao
Avaliar as caractersticas do sinal de voz amostrado no bloco do codificador, atravs
da implementao do algoritmo do PESQ (Perceptual Evaluation of Speech Quality) no
cdigo fonte do codificador G729a possibilitando, assim, a avaliao perceptual do sinal,
independente das variaes do meio de transmisso entre os blocos encoder e decoder.
Implantar um modelo de treinamento para os padres do algoritmo PESQ sobre o
bloco do codificador, fazendo com que exista coerncia no valor dos resultados do MOS
(Mean Opinion Score), tendo como base as especificaes da recomendao P.862 do ITU-T,
a qual descreve o tamanho da amostra em relao ao tempo de envio dos pacotes.
Propor alteraes na estrutura do bloco encoder do codificador CS-ACELP para obter
uma melhoria do sinal codificado analisado pelo algoritmo PESQ.
Avaliar a codificao do sinal de voz e a sua qualidade perceptual baseado nos
parmetros restritos ao codificador, ou seja, o objetivo melhorar qualidade perceptual nos
frames codificados.
1.3. Estrutura da Dissertao
Esta dissertao de mestrado foi estruturada em trs grandes partes compostas por
captulos conforme abaixo:
Parte I Fundamentos Tericos
Captulos: 2 ,3,4 e 5
Esses captulos abordam a fisiologia do aparelho fonador, o modelo de produo de
voz, princpios de codificao do sinal de voz, modelo que quantizao e anlise para
mensurar a qualidade do sinal de voz. So descritos os conceitos relacionados arquitetura
dos codificadores, introduz a codificao de sinais e aborda o codec G729a e os parmetros
especficos para anlise desta pesquisa.
-
17
Parte II Metodologia
Captulos: 6 e 7
Esses captulos detalham a proposta de avaliao dos parmetros escalares do G729a,
bem como a implementao do algoritmo PESQ, enfatizando as particularidades e limitaes
para anlise dos frames de voz. Assim, com a metodologia aplicada pretende-se obter uma
qualidade perceptual atravs do estudo do comportamento dos parmetros escalares, que
atuam sobre o sinal de voz codificado.
Parte III Resultados e Concluses
Captulos: 8 e 9
Esses captulos identificam os objetivos de melhoria perceptual sobre as alteraes
passveis de modificao da estrutura do codec. Tambm so apresentadas as especificaes
para obteno dos resultados, descrevendo possveis desenvolvimentos de trabalhos futuros
sobre a proposta da tcnica apresentada nesta dissertao.
-
18
2. Anlise do Aparelho Fonador
O processo de produo da fala utilizado para a comunicao entre os interlocutores
d-se atravs das ondas acsticas que so formadas e emitidas pelo sistema vocal. Este
processo tem como fonte a variao de presso gerando, assim, um sinal variante no tempo
em que altera suas caractersticas quando o sistema vocal tem sua dimenso e forma alterada.
2.1. Processo Fisiolgico de Produo de Voz
O sistema de produo de voz formado pelos rgos da fala: pulmes, laringe,
traquia, faringe, cavidade nasal e cavidade oral. Na figura 2.1 podemos verificar os rgos
que integram o sistema vocal ( FURUI, 2001). Esta diviso feita em trs grandes grupos:
pulmes, laringe e trato vocal.
O sinal de voz originado pelo fluxo de ar dos pulmes, esse fluxo percorrido pela
traquia at a laringe.
A laringe formada por quatro cartilagens, possui as cordas vocais na parte superior,
um par de estruturas elsticas de tendo e msculos. A movimentao destes msculos da
laringe faz com que as cordas vocais possam variar de comprimento e espessura, tendo
diferentes configuraes. Durante esse processo de respirao, a glote est normalmente
aberta. Quando a glote se fecha ocorre obstruo do fluxo de ar que vem dos pulmes. Neste
instante que ocorre a vibrao das cordas vocais. Quando a glote est aberta, a passagem de
ar e as cordas vocais no vibram.
Durante esse processo, o ar originado nos pulmes tendo sua variao de presso na
laringe, chega at a faringe e a cavidade oral, o que forma o trato vocal, o qual inicia na glote
e vai at a irradiao dos lbios. Existe uma cavidade auxiliar, a cavidade nasal, a qual
acoplada ao trato vocal para a produo de sons nasais.
O aparelho fonador humano composto pelos rgos responsveis pela gerao dos
sons da voz, em que cada rgo efetua seu trabalho de forma dinmica e simultnea durante o
processo da fala.
-
19
2.1.1. Trato Vocal
A descrio do trato vocal (OSHAUGHNESSY, 1999) relata que os pulmes so
responsveis por fornecer o fluxo de ar e presso para o processo de fala. As cordas vocais
geralmente modulam o fluxo de ar para criar um som, mas o trato vocal o componente mais
importante na produo da fala.
Uma passagem tubular composta de tecidos musculares e sseos, o trato vocal,
fornece os meios para produzir os sons diversos que caracterizam a linguagem falada.
O trato vocal tem duas funes:
- pode modificar a distribuio espectral de energia das ondas sonoras da glote;
- pode contribuir para a gerao de som obstrudo (fricativos).
Diferentes sons so distinguidos principalmente por suas caractersticas:
periodicidade (fala ou silncio), forma espectral (frequncias com seus nveis de
energia) e a durao. As cordas vocais especificam a caracterstica sonora e durao
de um som, so resultados das aes sincronizadas, mas a diviso principal do sinal de
voz realizada pelo trato vocal via filtragem espectral.
-
20
2.1.2. Sistema de produo de voz e as suas formantes
O sistema de produo de voz formado por um conjunto de frequncias de
ressonncia e anti-ressonncia e estas dependem do formato do trato vocal. O trato vocal um
tubo acstico com rea e seco transversal no uniforme e varivel com o tempo, em que as
frequncias de ressonncia do tubo so classificadas como formantes.
O movimento dos rgos de produo da fala, quando irradiados para o espao livre,
tanto pelos lbios quanto pelas narinas, alteram a forma do tubo acstico, consequentemente
alteram a resposta em frequncia. Cada forma do trato vocal representada por um conjunto
de formantes. Diferentes sons irradiados variam a frequncia de ressonncia e as suas
formantes. Abaixo, na figura 2.2, o sinal de voz e, na figura 2.3, as formantes deste sinal
distribudas no tempo.
Abaixo a anlise do espectro de frequncia de pitch realizada no sinal da figura 2.2.
Os valores mais escuros (em vermelho) representam as formantes do sinal de voz, sendo a
primeira formante a frequncia fundamental ou perodo de pitch.
Na figura 2.3, o arquivo formatado possui sentenas com o sinal de voz elaborado por
seis oradores do gnero masculino. Observa-se na primeira formante que a oscilao do sinal
associada com a frequncia de pitch do orador.
-
21
!"
O sistema vocal, conforme excitao do trato vocal, classifica-se em trs categorias:
sonoros, fricativos e explosivos.
Sons Sonoros (voclicos)
Ocorre quanto a presso de ar aumenta nos pulmes e fora a passagem do ar pela
glote, fazendo com que as cordas vocais que esto tensionadas, entrem em vibrao. Isso
porque a passagem de fluxo de ar, quase peridico, gera a excitao do trato vocal, os
chamados pulsos glotais, os sons vocais so recorrentes em intervalos espaados igualmente.
A frequncia fundamental ou frequncia de pitch a taxa de vibrao das cordas vocais, a
qual depende da presso do ar na traqueia e da variao de espessura e comprimento das
cordas vocais. A variao das cordas vocais, o tom, so os valores entre 50Hz e 500Hz. Um
exemplo a sonoridade da vogal a.
Sons Fricativos (no voclicos):
Esses sons ocorrem quando existe o estreitamento criado pelos rgos de produo de
fala em algum ponto do trato vocal, e o ar dos pulmes tem velocidade suficiente para
produzir uma turbulncia. A localizao da compresso do ar no trato vocal que produz o
-
22
som fricativo. Um exemplo a produo do som da vogal f (compresso do trato vocal
com o a articulao dos lbios).
Sons Plosivos:
Esse tipo de som resultante do fechamento completo de algum ponto do trato vocal,
em que o ar originado pelos pulmes interrompido, fazendo uma presso atrs da obstruo.
Quando o trato vocal desobstrudo, resulta em um abrupto relaxamento de presso, gerando
um som com baixa energia. Exemplos de som explosivo so as letra p e b .
O sistema de produo de voz formado por frequncias de ressonncia e anti-
ressonncia, dependendo do formato do trato vocal. Os diversos sons produzidos no processo
de fala so consequncias da utilizao das trs formas de excitao do trato vocal.
As formantes, quando identificadas, podem detectar o gnero do orador atravs das
frequncias fundamentais dos sinais avaliados, em que o sinal produzido por mulheres e
crianas mais elevado do que o sinal produzido por homens.
#$%"&
-
23
2.2. Modelo de Produo do Sinal de Voz
Para a produo de voz existe um modelo representado pelas fontes de excitao e
pelo trato vocal que possuem uma independncia. O sistema de produo de voz pode ser
representado por um modelo linear invariante no tempo e um gerador de excitao, segundo
(RABINER e SCHAFER, 1978).
O sistema modela as ressonncias do trato vocal e os efeitos da radiao dos lbios.
Essa representao pode ser modelada por tubos acsticos ou pelos filtros digitais.
()*
2.2.1. Gerador de excitao
Quando excitamos o trato vocal com um trem de impulsos quase peridico (pitch), os
sons sonoros so gerados. Esse modelo de gerao de excitao pode ser representado
conforme figura abaixo.
+)*%
Para representar a frequncia fundamental do sinal, um gerador de impulso produz o
trem de impulsos unitrios, que excitam o sistema linear com uma resposta impulsiva que a
forma de onda dos pulsos glotais, representada pela formulao abaixo:
g n a
=12fff B 1@cos
p B nN 1
ffffffffffffffffff gH
J
I
K se0 n N 1
X\
Z
-
24
g n a
= cosp B n@N1
b c
2B N 2fffffffffffffffffffffffffffffffffffffffff
h
lj
i
mk se N1 n N1 + N 2
X^\
^Z
(2.1)
g n a
= 0 casocontrrio
A funo g n a
tem comprimento finito e sua transformada Z apresenta apenas zeros.
A representao para g n a
, utilizando um modelo de dois plos, pode ser formulada
para representar G Z a
, tendo a seguinte formulao:
G Z a
=1
1@ecB T B Z@1b c2ffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.2)
No domnio da frequncia, o pulso glotal introduz um efeito passa-baixas, onde a
intensidade do pulso glotal controlada por um controle de ganho.
2.2.2. Modelagem do Trato vocal
O trato vocal pode ser modelado como uma associao de tubos conectados em
cascatas, tendo variao na rea da seco transversal. Dessa forma, a frequncia de
ressonncia em cada tubo corresponde a uma formante do espectro do sinal de voz.
,-.$%**
Na figura acima os modelos segundo (OSHAUGHNESSY, 1999) representam vogais
e consoantes. O modelo de dois tubos com seces A1 e A2 representam uma aproximao
das vogais, por exemplo a letra a.O tubo estreito (secoA1) representa a abertura da faringe
e o tubo maior (seco A2) representa a cavidade oral, considerando que do ponto de vista
tcnico, o sistema de voz um nico tubo acstico entre a glote e a boca, medindo 17cm,
para representar a vogal a em que temos dois tubos. Iremos considerar comprimentos
iguais ( l1 = l 2 ) medindo 8,5cm, sendo as formantes mltiplos de 1kHz e devido ao
acoplamento no se aproximam uma das outras por 200Hz, temos que
F1 900HzeF2 1100Hz e F3 2900HzeF4 3100Hz . J o modelo de trs tubos com
-
25
seces Ab , Ac e A f representa uma aproximao das consoantes, sendo um modelo de
tubo estreito com constrio do trato vocal, em que a parte traseira (seco Ab) e o tubo do
meio (seco Ac) so ressonadores de meio comprimento de onda, e o tubo dianteiro (seco
A f ) um ressonador de quarto de onda, com ressonncias cB i2B lbffffffffffffffff,
cB i2B l cffffffffffffffff,
cB 2B i @1 a
4B l fffffffffffffffffffffffffffffffffffffffffff ,
para i=1,2,3.... onde c (velocidade do som) e lb ,l c l f so os comprimentos dos tubos,
gerando ressonncias em mltiplos de 5.333Hz para constries de 3cm em perodos de fala
com durao tpica, podendo ser desconsiderado em aplicaes que utilizam sinais de voz de
4 ou 5kHz de largura de banda.
A funo de transferncia do trato vocal pode ser modelada pela formulao:
V Z a
=G
Yi = 1
N
1@pi B Z@1
b cfffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.3)
Na equao acima, estamos desprezando os efeitos gerados pela radiao dos lbios.
Temos o ganho G associado amplitude do sinal de voz e os plos pi , com i sendo o
ndice de cada plo, variando de 1 at N, esses plos fazem a modelagem da frequncia de
ressonncia do trato vocal.
O modelo apresentado uma boa representao do trato vocal, ele modela apenas as
frequncias de ressonncias, que abrange a maioria dos sons voclicos, pois para
considerarmos a produo de sons fricativos e nasais, precisamos representar as frequncias
de anti-ressonncias. Para isso seria necessrio que, na formulao de transferncia do trato
vocal ( V Z a
), tivssemos plos e zeros. Entretanto, uma forma de conseguirmos o efeito dos
zeros, aumentando o nmero de plos da funo.
Desta forma, o trato vocal representado por um sistema linear, um sistema estvel,
formado somente por plos, onde todos os plos de V Z a
esto dentro do raio de circulo
unitrio.
2.2.3. Radiao
No sistema de produo de fala, temos a atuao dos lbios e das narinas (no caso das
vogais nasais como avio), que irradiam para o espao livre os sons articulados pelo trato
-
26
vocal, ocorrendo uma difrao das ondas sonoras. Esse efeito de radiao pode ser modelado
como um filtro passa-altas (representa um ganho de 6dB por oitava).
R Z a
= Ro 1@Z@1
b c (2.4)
2.2.4. Modelo completo de produo de voz
O sistema vocal para a produo da voz pode ser representado no modelo completo
abaixo:
/0
Pela representao acima (RABINER e SCHAFER, 1978), podemos definir um
modelo combinando as funes de transferncia do pulso glotal do trato vocal e da radiao,
em que temos:
H Z a
= G Z a
B V Z a
B R Z a
(2.5)
Com o equacionamento acima, temos um modelo simples de para a produo de voz,
que pode ser representado por um modelo apenas com plos, onde a funo H Z a
descrita
como:
H Z a
=G
1@Xk = 1
Pak B Z
@k
ffffffffffffffffffffffffffffffffffffffffffffffffffffffffffff (2.6)
Para representar o sinal de voz variante no tempo, so atualizados em intervalos
regulares os coeficientes de H Z a
e o sinal de excitao, tendo como resposta a produo de
voz sintetizada.
-
27
1 0
O modelo apresentado na figura 2-9 (RABINER e SCHAFER, 1978) tem uma boa
representao para sons que possuem variaes lentas, a exemplo das vogais. Entretanto, esse
modelo no consegue representar fielmente os sons transitrios, a exemplo dos sons plosivos.
J os sons fricativos sonoros, cuja excitao gerada pela combinao de rudos e pulsos
peridicos, no so possveis representar a partir desse modelo, pois uma forma de excitao
(rudo ou pulso peridico) exclui a outra. O som originado nesse processo consegue obter uma
voz sintetizada com boa qualidade, mas com perda de naturalidade.
-
28
3. Codificao de voz em DSP, Processamento Digital de Sinais
Um sinal definido como uma funo de uma varivel, no caso dos sinais de voz. A
fala um sinal unidimensional. A amplitude varia com o tempo, dependendo da palavra
falada e o locutor que fala essa palavra. Esse sinal um veculo de informaes sobre a
natureza de um fenmeno fsico. (HAYKIN e VEEN, 1999).
3.1. Sinais e comunicao
Existem trs elementos fundamentais em todos os sistemas de comunicao: o
transmissor, o canal e o receptor. Cada um desses elementos possui um sistema de sinais
prprios associados, a figura 3.1 mostra essa relao.
$
O transmissor converte ou codifica o sinal da mensagem produzida por uma fonte de
informao em um formato apropriado para ser transmitido pelo canal. O canal o meio pelo
qual o sinal se propaga. medida em que o sinal transmitido, ele sofre distores devido as
caractersticas fsicas deste canal, tendo tambm a contribuio para degradao do sinal
transmitido atravs de rudos e interferncias originados de outras fontes. O receptor
responsvel por receber o sinal codificado, o qual pode ter sido corrompido (alterando a
informao codificada), sendo este responsvel pelo processamento do sinal convertendo
(decodificando) o formato recebido pelo canal na informao da mensagem, em que o
objetivo estimar o sinal original.
-
29
3.1.1. Classificao do sinal para formao de modelos
A produo da fala originada atravs de uma onda sonora gerada pela vibrao das
cordas vocais, que uma consequncia da propagao de ar emitida pelos pulmes, passando
por todo trato vocal e irradiada pelos lbios. Esse processo tem como resultado um sinal de
voz com sons sonoros e sons surdos.
.
2
3.1.2. Amostragem do sinal
O processo de amostragem importante para a transformao do sinal analgico
contnuo em amplitude e no tempo, em um sinal discreto no tempo e em amplitude.
3.1.3. Quantizao do sinal
Segundo (EMBREE e KIMBLE, 1991), "quantizao o domnio da amplitude de um
sinal analgico contnuo amostrado em um certo domnio de tempo", ou seja, o processo de
quantizao , basicamente, a medida discreta da intensidade do sinal. Essa discretizao da
amplitude usualmente definida em termos de nmero de bits. Uma converso de 8 bits, por
exemplo, proporciona a representao de 256 nveis de quantizao.
3.1.4. Codificao do sinal
O processo de codificao faz a representao do sinal amostrado entre o domnio
continuo e o domnio discreto. A otimizao de representao desses sinais, a melhoria da
codificao, est associada quantizao do sinal na origem do processo no domnio discreto.
Os sinais digitais so representados pela amostragem, quantizao e codificao. O
ultimo estgio ser tratado na abordagem da melhoria de qualidade perceptual. A converso
analgico/digital um processo de trs passos(PROAKIS & MANOLAKIS, 2007), conforme
figura 3.3.
-
30
!
!*34 -56).
3.1.5. Anlise Homomrfica ou Anlise Cepstral
Os sinais de voz so formados pelo o sinal de excitao e pela resposta impulsiva do
trato vocal, conforme vimos no capitulo anterior. Neste contexto, existe uma tcnica que a
Anlise Homomrfica ou Anlise Cepstral, muito til para desconvoluir os dois sinais. A
partir do modelo matemtico para a produo de voz temos:
s t a
= e t a
B v t a
convoluo do sinal (3.1)
S W a
= E W a
AV W a
sinal no domnio da frequncia (3.2)
Para realizar a anlise homomrfica aplicada a funo logartmica para separar o
sinal:
logS W a
= log E W a
AV W ab c
(3.3)
logS W a
= logE W a
+ logV W a
(3.4)
Aplicando a transformada inversa nesse sinal, tem-se o cepstrum ou coeficientes
cepstrais do sinal de voz.
F@1 logS W aB C
= F@1 logE W aB C
+ F@1 logV W aB C
(3.5)
Com essa manipulao algbrica pode-se obter o sinal de excitao e a resposta
impulsiva separadamente.
-
31
#532
3.2. Tipos de codificadores
Um paradigma para os codificadores de voz alcanar a melhor qualidade com a
menor taxa de bits possvel. Neste processo, h trs classificaes: codificadores de forma de
onda, codificadores paramtricos e codificadores hbridos. Essas classificaes diferem na
forma de como a informao transmitida: os codificadores de forma de onda encaminham o
sinal de voz e suas variaes, os codificadores paramtricos encaminham parmetros
extrados do sinal de voz original da mensagem e os codificadores hbridos realizam uma
combinao dos dois casos citados anteriormente.
3.2.1. Codificadores de forma de onda
So codificadores de baixa complexidade, com pouco atraso. Esses codificadores
reproduzem o mais exato possvel a forma de onda analgica, em que o tratamento da
mensagem fielmente reproduzido incluindo, at mesmo, rudo de fundo. Uma caracterstica
desse codificador a alta qualidade o sinal que eleva tambm a largura de banda para
-
32
transmisso. Um exemplo desse tipo de codificao a recomendao ITU-T G.711 (PCM)
que utiliza a taxa de transmisso de 64kbps (ITU G711, 1988).
3.2.2. Codificadores paramtricos
Esses codificadores avaliam o sinal de voz, no reproduzem a forma de onda original,
constroem um conjunto de parmetros que so enviados ao decodificador. A codificao de
predio linear utilizada para obter os parmetros do filtro utilizado, isso causa um aumento
na complexidade computacional, atraso no tempo de processamento, reduz a qualidade do
sinal decodificado e, em troca, reduz a largura de banda para transmisso. Portanto, no so
sinais expressivos para o uso nos sistemas de telefonia.
Nos codificadores paramtricos temos um gerador de pulsos (sons voclicos), um
gerador de rudo branco (sons no voclicos). Esses dois parmetros combinados formam a
excitao e t a
, a excitao gerada passa por um filtro de plos que representa o trato vocal
v t a
e tem como resultado a sada do sinal de voz gerado s n a
.
(!" 7!2
3.2.3. Codificadores hbridos
So codificadores que utilizam a tcnica de anlise por sntese baseados na predio
linear.Esses codificadores utilizam as vantagens dos codificadores de forma de onda
(reproduzir o sinal com alta qualidade) analisando as caractersticas espectrais e temporais do
sinal, e as vantagens dos codificadores paramtricos (enviar sinal com baixa taxa transmisso)
que conseguem extrair os parmetros do sinal, o que resulta na mxima dos codificadores de
voz, fazer mais por menos.
Ser analisado, no captulo seguinte, a tcnica de codificao CELP (Code-Excited
Linear Prediction), sobre o estudo do codificador G729a, o qual a base o tema de anlise
desta dissertao.
-
33
Abaixo uma anlise realizada por (GOMES, 2008), descreve os tipos de codificadores
e a qualidade obtida em relao taxa de transmisso. Podemos observar que os codificadores
hbridos, por reunirem a caracterstica dos codificadores de forma de onda e paramtricos, so
os que possuem melhor qualidade com baixas taxas de transmisso (valores aceitveis para o
sistema de telefonia, otimizando o sinal de voz entre 2kbps e 16kbps) .
+8%%
3.3. Codificao Preditiva Linear
A predio linear um arranjo muito importante na codificao do sinal de voz e sua
formulao est relacionada produo da fala. uma tcnica comum para a codificao de
baixa taxa de bits e tambm uma importante ferramenta na anlise do sinal de voz.
3.3.1. Anlise da Codificao Preditiva Linear
A codificao linear uma sntese para estimativa da frequncia fundamental,
realizando uma anlise sobre as funes do trato vocal, representando as formantes, em que se
deseja estimar o sinal amostrado baseado numa combinao linear utilizando filtros digitais.
-
34
Foi verificado, no captulo anterior, o modelo de produo de fala e o modelo do trato
vocal, conforme figura abaixo:
,.0 *.0
Sabemos que o trato vocal um modelo auto-regressivo (AR), formado por um filtro
s de plos descrito pela equao:
s n a
= b0B u n a
@Xk@1
m
ck B s n@k a
(3.6)
Em que s n a
corresponde ao sinal de voz sintetizado e u n a
ao sinal de excitao que
passa pelo filtro H Z a
. Nesta anlise, existe a modelagem os parmetros reais ck que so
desconhecidos. Para modelar esses parmetros reais, tenta-se obter uma predio, ou seja,
uma estimativa de s n a
atravs da equao:
s n a
estimado=X
k@1
p
ak B s n@k a
(3.7)
Esse equacionamento modela um filtro no-recursivo (FIR), que um preditor linear
de ordem p, em que os parmetros ak representam os coeficientes do preditor.
Para este procedimento considerado que no h uma soluo computacionalmente
praticvel que modele o filtro de forma totalmente fiel ao sinal original de voz, sendo assim
iremos utilizar uma quantidade p de amostras passadas de voz para predizer o sinal com o
menor erro possvel.
-
35
O sinal residual r n a
ou sinal de erro de predio o resultado da diferena entre o
sinal de voz e a sua aproximao, r n a
= s n a
@s n a
estimado .
Para que o sinal de voz estimado tenha uma boa aproximao do sinal de voz original,
devem-se obter valores timos para os coeficientes ak do preditor dentro do intervalo de
tempo n1 n n2 , esse valor representado por:
akP Q
otimo= ArgMin
akXn = n1
n2
r 2 n a
(3.8)
Estabelecendo que o sinal de voz obtido pelo s n a
estimado descrito da equao (3.7),
e assumindo que p=m, resulta que os coeficientes ak so uma boa estimativa dos
coeficientes ck descrito na equao (3.6).
O sinal de erro de predio no domnio tempo descrito por:
r n a
= s n a
@s n a
estimado= s n
a@X
k = 1
p
ak B s n@k a
(3.9)
Aplicando a transformada Z na expresso, tem-se:
R z a
= A z a
B S z a
, (3.10)
Nesta expresso R z a
e S z a
so respectivamente a transformada Z do sinal residual
e a transformada Z do sinal de voz, em que A z a
um filtro de anlise, formado somente por
zeros, descrito por:
A z a
= 1@Xk = 1
p
ak B Z@k (3.11)
Temos o filtro inverso de A z a
, que um filtro de sntese, formado somente por
plos, que representa o comportamento espectral do sinal de voz:
H z a
=1
A z affffffffffffffff=
1
1@Xk = 1
p
ak B Z@k
ffffffffffffffffffffffffffffffffffffffffffffffffff (3.12)
Realizando uma substituio algbrica da equao (3.10) e (3.12), resulta em
S z a
= H z a
B R z a
(3.13)
Aplicando inversa da transformada Z na equao acima ou utilizando a equao (3.9),
obtm-se o modelo, no domnio tempo, o modelo de sntese, representado pela expresso:
s n a
=Xk = 1
p
ak B s n@k a
+ r n a
(3.14)
Com esse desenvolvimento, podemos representar o processo de anlise do sinal de
voz, equaes (3.9) ou (3.10), e o processo de sntese do sinal de voz equaes (3.13) ou
-
36
(3.14) atravs dos diagramas de blocos a e b descritos (RABINER e SCHAFER, 1978), e
representados na figura 3.8.
/)*3 -.9-*.
Os filtros de anlise A z a
e os filtros de sntese H z a
so modelados pela relao de
preciso espectral , complexidade computacional e quantidade de bits transmitir. Neste caso,
cada formante do espectro do sinal de voz constituda por um par de plos que esto
separadas, em mdia, a cada 1kHz de banda. Para o sinal amostrado taxa de 8kHz temos
uma banda inferior a 4 kHz, em que o filtro de sntese utilizado de ordem 10 geralmente,
que seriam os 8 plos do espaamento espectral de 4kHz mais 2 plos para evitar anti
ressonncia, aproximando possveis zeros.
3.3.2. Line Spectrum Frequency e Line Spectrum Pairs
Para anlise de predio linear so gerados os coeficientes de predio, coeficientes
LPC. Muito sensveis transmisso do sinal de voz e ao processo de quantizao, uma
alternativa para a codificao dos coeficientes de predio representar esses em coeficientes
LSF (Line Spectrum Frequency) e LSP (Line Spectrum Pairs).
Segundo (OSHAUGHNESSY, 1999), a representao LSF produz uma qualidade de
voz melhor, pois provem a estabilidade dos coeficientes manipulados e possui propriedades
adequadas, uma vez que os coeficientes de reflexo so muito sensveis quantizao do
sinal. Os coeficientes LSP so representados por dois polinmios P z a
(simtrico) e
Q z a
(anti-simtrico), descritos abaixo:
P z a
= A z a
+ z@ p + 1b c
B A z@1b c
(3.15)
Q z a
= A z a
@z@ p + 1b c
B A z@1b c
(3.16)
-
37
Como consequncia desta manipulao algbrica, a representao LSF faz com que
P z a
e Q z a
tenham as seguintes propriedades:
- todas as razes dos polinmios esto sobre o raio de crculo unitrio;
- as razes dos polinmios P z a
e Q z a
esto entrelaadas;
Esses dois modelos se relacionam com os coeficientes LPC representados pelo
polinmio A z a
:
A z a
=P z
a+ Q z
a
2ffffffffffffffffffffffffffffffffffffffff (3.17)
A definio acima originada pelos clculos de converso dos coeficientes LPCs para
os coeficientes LSFs, essa transformao foi realizada em 1975 por Itakura. Dessa anlise,
definido que as razes dos polinmios P z a
e Q z a
correspondem s frequncias que so os
coeficientes LFS, esses so extrados do filtro de anlise A z a
de ordem p. Nesta
verificao o polinmio P z a
corresponde anlise do trato vocal com o a glote fechada, em
que o coeficiente de reflexo K p + 1 = 1 e o polinmio Q z a
correspondem anlise do trato
vocal com o a glote aberta, coeficiente de reflexo K p + 1 =@1.
3.3.3. Janelamento
No sinal de voz amostrado, utilizado nos codificadores, temos uma gravao finita.
Utilizamos a tcnica de janelamento para aumentar as caractersticas do sinal amostrado, a
operao algbrica a multiplicao do sinal de voz s n a
pelo sinal W n a
(janela escolhida).
A aplicao de uma janela sobre o sinal amostrado para definir a durao do tempo de
observao do sinal, para reduzir a perda espectral e separar sinais com frequncias muito
prximas e com amplitudes demasiadamente distantes.
Abaixo a avaliao realizada (FURUI, 2001) para janelamento dos sinais de voz.
-
38
Figura 3-9 Anlise das janelas de Hanning e Hamming.
Para os casos especficos de sinais de voz, devido s caractersticas do sinal e a
resposta em frequncia que se deseja obter, ser utilizada uma janela de Hamming, pois essa
produz uma melhor resoluo em frequncia e mais utilizada para o processamento de fala.
Abaixo, a funo geradora do sinal para a janela de Hamming dada por:
W n a
= 0,54@0,46B cos 2p Bn
N @1ffffffffffffffffff
d ef g; para0 n N @1 (3.22)
A 0 paraosdemaiscasos
Para janelar o sinal de voz de forma a minimizar o erro introduzido pelas amostras dos
extremos da janela, utiliza-se a sobreposio (overlap) dos intervalos dos frames de s n a
,
onde amostramos o sinal atual e uma parcela de comprimento L do sinal anterior que sero
consideradas no frame atual.
:!;
-
39
3.4. Quantizao Vetorial
Quantizao Vetorial (VQ Vector Quantization) o mtodo de compresso de
dados, em que ocorrem perdas com relao ao sinal original.
3.4.1. Entendendo quantizao vetorial
O processo busca codificar um vetor de coeficientes (neste caso os coeficientes do
filtro LPC) atravs da aproximao que ser realizada com algum vetor de referncia
previamente calculado. Sendo assim, podemos considerar que a VQ uma aproximao do
vetor do coeficiente LPC com um dos vetores analisados da tabela de vetores cdigos
denominada de codebook.
Um exemplo de aproximao com a utilizao de 1 bits a figura abaixo:
$%&
Na figura acima, cada nmero entre -2 e 0 aproximado por -1. Similarmente,
cada nmero entre +2 e +4 aproximado por +3. Dessa forma, temos uma quantizao
vetorial de uma dimenso (1-dimensional) e de com taxa de dois bits.
Um exemplo de quantizao vetorial de 2 dimenses demonstrado na figura 3.12.
Existem 16 regies, em cada regio h um nico ponto vermelho representado por 4 bits.
-
40
$%&
-
41
$%4 4
Os centrides so os vetores cdigos escolhidos, parmetros armazenados no codebook, os
quais possuem parmetros importantes para realizar a quantizao vetorial.
-
42
4. Anlise da qualidade do sinal de voz
Os codificadores de voz buscam ofertar uma melhoria de qualidade em detrimento da
taxa de transmisso. Entretanto, existem outros fatores que no so intrnsecos dos
codificadores de voz, que so os ofensores externos (delay, jitter, eco, perda de pacotes e erro
no canal de transmisso).
Para minimizar os problemas de qualidade dos codificadores, diversas tcnicas so
realizadas. Nesse contexto, avaliaremos, principalmente, os fatores intrnsecos aos
codificadores de voz, no descrevendo a contribuio, degradao ou melhoria, relacionada
aos fatores externos do codificador.
Uma das principais formas de avaliao do sinal de voz, em codificadores de forma de
onda, a relao sinal rudo, medida SNR, descrita por:
SNR= 10B log10
Xn = 0
M @1
s n a 2
Xn = 0
M @1
s n a
@s@ n ab c 2
fffffffffffffffffffffffffffffffffffffffffffffffffff fffff ff
H
LLLLLLJ
I
MMMMMMK (4.1)
A medida SNR tem limitaes, pesa todos os erros domnio do tempo de forma igual.
Uma medida SNR alta, com resultados indesejveis, pode ser obtido se o trecho da fala
apresenta alta concentrao de segmentos de voz (segmentos de alta energia), uma vez que o
rudo tem um maior efeito na percepo de segmentos de baixa energia, tais como sons surdos
ou fricativos. Uma medida de melhoria da qualidade pode ser obtida se SNR for medida em
intervalos de tempo curtos e os resultados em mdia. Essa medida chamada relao baseado
sinal-rudo segmentada(SNRseg) uma expressa por:
SNRseg= SNR jb cD E
onde j= intervalo de tempo da anlise SNR (4.2)
-
43
Essas anlises so ineficientes para as tcnicas de codificao paramtrica, pois se faz
necessrio a avaliao perceptual do sinal de voz. Para anlise perceptual, foram criados testes
objetivos e subjetivos.
4.1. Medidas subjetivas de qualidade
Inicialmente, os testes em codificadores de voz utilizados para telefonia eram
realizados pelo mtodo de avaliao subjetiva, tcnica para a medio atravs da percepo
do ouvido humano. Esse tipo de medida necessita seguir algumas diretrizes, tais como:
- analisar um nmero de ouvintes suficiente para assegurar um resultado estatstico
confivel;
- garantir que todos os ouvintes tenham uma percepo auditiva normal;
- garantir que todos os ouvintes efetuem corretamente as respostas dos testes
mensurados e tabelados;
- garantir um material abrangente e diversificado. Neste caso, o corpo de dados para os
testes, um banco de arquivos de voz;
- garantir que o codificador foi testado em todas as condies;
- escolher adequadamente as condies em que sero realizados os testes.
4.1.1. Mean Opinion Score (MOS)
Os testes efetuados segundo a norma especificada na recomendao (ITU P800, 1996)
analisam a avaliao perceptual subjetiva e denominado MOS (Mean Opinion Score). Nessa
recomendao, os ouvintes utilizam uma escala para medir a qualidade do sinal de voz, o qual
classificado conforme tabela 4.1:
Pontuao Qualidade da fala Esforo necessrio para a compreenso do significad o
5 Excelente Relaxamento completo; nenhum esforo necessrio
4 Boa ateno necessria; no preciso muito esforo
3 Regular um certo esforo necessrio
2 Pobre muito esforo necessrio
1 Pssima Ininteligvel, apesar de qualquer esforo empregado
*#$0=
-
44
Com base no processo de avaliao subjetiva2, os codificadores so analisados tendo como
referncia a pontuao MOS. A maioria das medidas de qualidade de voz so baseadas em
uma escala de classificao absoluta (ACR Absolute Category Rating), essa escala
utilizada para verificao do MOS.
Abaixo a figura 4.1 (Gomes, A. G., 2008) aput (Jayant e Noll, 1984) mostra a relao
taxa de bits em detrimento qualidade do sinal de voz amostrado para diferentes tipos de
codificadores.
#20=
4.2. Medidas objetivas de qualidade
Conforme processo apresentado anteriormente, o mtodo subjetivo de avaliao de
qualidade demanda tempo. Assim, esse processo criterioso com os parmetros e as
condies para realizao dos testes conforme especificao da recomendao do ITU-T.
Contudo, necessrio outro mtodo para anlise da qualidade de voz em telefonia em
2 Mtodos para determinao subjetiva da qualidade de transmisso so descritos na Recomendao ITU-T P.800, essa recomendao descreve os outros dois mtodos: Degradation Category Rating (DCR) e Comparison Category Rating (CCR).
-
45
tempo real. Esse tipo de medida a avaliao objetiva a qual permite a avaliao em tempo
real, podendo realizar o controle da qualidade do sinal de voz.
4.2.1. Perceptual Speech Quality Mesure (PSQM)
O PSQM um mtodo de medio da qualidade de voz baseado na recomendao do
ITU-T (ITU P861,1998). O PSQM(Objective quality measurement of telephone-band, 300-
3400Hz, speech codecs) estima a qualidade de voz nos codificadores. Esse algoritmo efetua a
medida de qualidade por um modelo psicoacstico, o qual tenta reproduzir a qualidade do
som percebida pelo ouvido humano.
#0*;> !80
Na figura 4.2, o modelo analisado tem como base a anlise dos sinais de entrada e
sada do codificador:
- o sinal convertido onde ocorre o mapeamento no tempo e em frequncia atravs
da implementao da FFT utilizando uma janela de Hamming;
-
46
- realizada uma alterao de escala de frequncia, utilizando uma escala
psicoacstica chamada escala de Bark 3, que realiza uma anlise subjetiva do udio, cobrindo
24 bandas audveis em Hertz;
- tambm realizada uma alterao da escala de amplitude do sinal, em que efetua
ajuste da potncia sonora atravs de filtros de ponderao, cujo objetivo o ajuste do som
percebido pelo ouvido humano.
4.2.2. Perceptual Analysis Measurament System (PAMS)
Esse algoritmo foi desenvolvido em 1998, e tambm efetua uma anlise no tempo e
em na frequncia. O PAMS um algoritmo complementar ao PSQM, ele resolveu um
problema que ocorria no PSQM, a realizao de sincronismo no tempo.
4.2.3. Perceptual Evaluation of Speech Quality (PESQ)
A anlise para este estudo utilizou o algoritmo do PESQ, que a recomendao do
ITU-T (ITU P862, 2001). Foi desenvolvida para utilizao de redes de pacotes, uma
evoluo dos algoritmos PSQM e PAMS, e apresenta uma medida de qualidade relacionada
diretamente com a escala MOS (ITU P800, 1996).
O PESQ possui os mesmos parmetros e processos do PSQM, entretanto, algumas
modificaes foram consideradas neste modelo:
- equalizao dos ganhos dos sinais de entrada (sinal original) e sada (sinal
degradado) do codificador, os dois sinais so analisados no domnio tempo e no domnio
frequncia, para que ao final da anlise tenham o mesmo nvel de potncia;
- os sinais so filtrados para que tenham a mesma caracterstica, e so alinhados no
tempo, para definir o intervalo de anlise;
- realiza-se uma converso para o domnio frequncia utilizando uma janela de
Hamming com 50% de sobreposio em quadros de 32ms.
3 uma escala psicoacstica proposta por Eberhard Zwicker em 1961. Ela foi nomeada aps Heinrich Barkhausen ter proposto a primeira medio subjetiva de intensidade sonora. A escala varia de 1 24, corresponde a 24 bandas crticas de audio. As frequncias base da escala Bark de audiometria esto no range de 20Hz 15500Hz.
-
47
Segundo (MAGRO, 2005), em uma anlise comparativa entre os algoritmos de
medida de qualidade, o PESQ o modelo de avaliao objetiva, que possui maior exatido
quando realizado testes cujo resultado correlacionado com a medida subjetiva MOS,
conforme tabela 4.2 .
Tipo Coeficiente Correlao PESQ PSQM
Rede Mvel mdia
pior_caso 0,962 0,905
0,924 0,843
Rede Fixa mdia
pior_caso 0,942 0,902
0,881 0,657
VoIP mdia
pior_caso 0,918 0,810
0,674 0,260
*#20! 80?!$8
Dentre os diversos codificadores de voz analisados em telecomunicaes, abaixo
segue um quadro comparativo com valores orientativos, segundo (KONDOZ, 2003). Essas
medidas de qualidade foram pontuadas atravs de testes subjetivos pontuais, usando material
de ensaio de literaturas variadas. Esses valores so teis para um parmetro entretanto no
deve ser tomado como uma indicao definitiva de desempenho do codec.
Recomendao Ano Algoritmo Taxa (kbits/seg) MOS G.711 1992 PCM 64 4.3 G.726 1991 VBR-ADPCM 16/24/32/40 .-x- G.728 1994 LD-CELP 16 4 G.723.1 1995 A/MP-MLQ CELP 5.3/6.3 .-x- G.729 1995 CS-ACELP 8 4
*# 0=
-
48
5. Codificadores ITU-T
Neste captulo, realizada uma anlise dos codificadores utilizados comumente em
redes de telefonia. Em geral os sistemas de codificao de voz possuem o seguinte diagrama,
segundo (CHU, 2003).
(
5.1. Codificadores ITU-T utilizados em
telefonia
Abaixo segue uma breve descrio dos codificadores padronizados pelo ITU-T. Os
mais relevantes descritos segundo (CHU, 2003), utilizados em redes de pacotes, estrutura
atual das operadoras de telecomunicaes em substituio s redes comutadas por circuito.
Codificador de voz Taxa
(kbits/seg) VAD Reduo de rudo Atraso (ms) Ano
G.711 (A/ -Law PCM) 64 no no 0 1972 G.726 (ADPCM) 16/24/32/40 no no 0,25 1990 G.728 (LD-CELP) 16 no no 1,25 1992 G.723.1 5.3/6.3 sim no 67,5 1995 G.729 (CS-ACELP) 8 sim no 25 1996
*(2 @A
-
49
5.1.1. Recomendao ITU-T G.711
Ano de aprovao: 1972
Taxa de codificao: 64kbit/s, pois temos uma frequncia de amostragem de 8000 Hz
e quantizamos 8bits por amostras.
Algoritmo de codificao: PCM - Pulse Code Modulation
Principio do codificador: Realiza a quantizao com escala logartmica. Desta forma,
obtm a relao sinal rudo (SNR) independente da intensidade. A tcnica de codificao
PCM obedece ao critrio de um codificador Nyquist, em que a frequncia de amostragem
igual ou superior ao dobro da maior frequncia presente no espectro:
f amostragem= 2B f mxima (5.1)
A codificao em telefonia utiliza uma frequncia de amostragem de 8kHz (8000
amostras do sinal de voz a cada segundo), as amostras so representadas com 256 nveis de
quantizao, o que define 8 bits por amostra. Sendo assim, o sinal de voz com a codificao
PCM possui a taxa padro 64k bits/seg.
Nesta tcnica de codificao so utilizados dois algoritmos de quantizao que so
chamados de leis: lei a (alaw) a leim (mlaw), pois o processo da tcnica PCM atribuir um
valor discreto a amplitude do sinal amostrado. Esse processo gera rudo de quantizao,
sendo necessrio utilizar uma das leis de quantizao para minimizar o sinal de entrada no
quantizador com o sinal de sada quantizado.
()*B!20
-
50
5.1.2. Recomendao ITU-T G.726
Ano de aprovao: 1990
Taxa de codificao: varivel 16kbit/s, 24kbit/s, 32kbit/s e 40kbit/s
Algoritmo de codificao: ADPCM Adaptive Pulse Code Modulation
Principio do codificador: Este codificador foi desenvolvido com a proposta de
melhorar a codificao PCM, codificar a voz com a metade da taxa utilizada no PCM,
mantendo a qualidade do sinal codificado. Essa tcnica de codificao possui um quantizador
adaptativo, podendo fazer um ajuste no preditor linear com base nas variaes do sinal ser
codificado. As diferentes taxas de codificao so relativas aos bits utilizados por amostra:
2,3,4 e 5, tendo respectivamente as taxas: 16kbit/s, 24kbit/s, 32kbit/s e 40kbit/s.
( )* 5)!20-@AC,+.-5DE05D@F>::+.
-
51
5.1.3. Recomendao ITU-T G.728
Ano de aprovao: 1992
Taxa de codificao: 16kbit/s
Algoritmo de codificao: LD-CELP Low-Delay Code Excited Linear Prediction
Princpio do codificador: Este codificador reduz o tempo da amostra processada entre
codificador e o decodificador. Transmite uma nica excitao e possui uma anlise de
predio capaz de avaliar recurssivamente cinco amostras PCM, sendo essa rotina a base do
algoritmo implementado para melhoria do atraso de codificao.
(#)* 7)2$7!-ADA@>::.
-
52
5.1.4. Recomendao ITU-T G.723.1
Ano de aprovao: 2006
Taxa de codificao: 5,3kbit/s e 6,3kbit/s
Algoritmo de codificao: MP-MLQ ACELP,
onde MP-MLQ-Multi-Pulse Maximum Likelihood Quantization
Princpio do codificador: Codifica o sinal de voz mediante codificao linear de
anlise por sntese. Foi projetado para videoconferncia e voz sobre IP. um codificador de
taxa dupla em que codifica taxa de 5.3 kbps utilizando a estrutura ACELP. A codificao
taxa de 6.3kbps corresponde a codificao MP-MLQ que oferece uma qualidade um pouco
melhor.
(()* 7)2$7!
-
53
5.1.5. Recomendao ITU-T G.729
Ano de aprovao: 1996
Taxa de codificao: 8kbit/s
Codificao: CS-ACELP ConjugateStructure- Algebraic Code excited
Linear Prediction
Principio do codificador: a transmisso do sinal de voz com uma baixa taxa de bits,
para uso de telefonia. muito utilizado em redes que necessitam compresso de banda.
Realiza a codificao do sinal em frames de 10ms, efetua uma anlise das amostras futuras de
5ms, o que resulta num atraso de 15ms para realizar o algoritmo de codificao.
No item 5.2 faremos uma descrio detalhada do bloco de codificao do sinal de voz,
pois este codificador a caso de estudo para realizar a avaliao perceptual do sinal de voz.
-
54
5.2. CS-ACELP: Conjugate Structure Code-
Excited Linear Prediction (G.729a)
O codificador G.729a baseia-se na filtragem do sinal analgico especificado na
recomendao G712 do ITU-T com a taxa de amostragem a 8000 amostras por segundo,
codificando os sinais de udio em frames de 10ms.Possui um atraso de 5ms, sendo seu bit rate
de 8Kbps
5.2.1. O codificador CS-ACELP - (G.729a)
. O modelo de codificao baseado algoritmo de codificao CS-ACELP. Efetua a
predio linear por excitao com cdigo algbrico. Nesse intervalo de tempo, o sinal de voz
(quase estacionrio) analisado e parametrizado, comparado atravs de uma anlise por
sntese em busca da melhor excitao do sinal que corresponda ao sinal alvo. Cada frame de
10ms que analisado, gera 80 amostras do sinal por segundo, em que so extrados os
parmetros por frame: Coeficientes de predio linear do filtro, ndices do codebook fixo,
ndices do codebook adaptativo e ganho. Esses parmetros codificados e transmitidos so
distribudos de acordo com a tabela 5.2, a qual explica a alocao de bit dos 8kb/s do
algoritmo CS-ACELP em um frame em 10ms:
Parameter Codeword Sub frame 1 Sub frame 2 Total pe r frame
Line spectrum pairs L0, L1, L2, L3 18 Adaptive-codebook delay P1, P2 8 5 13 Pitch-delay parity P0 1 1 Fised-codebook index C1, C2 13 13 23 Fixed-codebook sign S1, S2 4 4 8 Codebook gains (stage 1) GA1, GA2 3 3 6 Codebook gains (stage 2) GB1, GB2 4 4 8 Total 80
*(!GC,1-@ AC,1.
-
55
5.2.2. Codificador
As principais etapas de codificao do sinal de voz so executadas conforme o
diagrama de blocos abaixo:
(+ )*2 52$7!
Descrio dos estgios de codificao do CS-ACELP:
1) O sinal de entrada passa por um filtro passa alta para eliminao de rudo, pr-
processado e esse sinal utilizado para as anlises subsequentes da codificao.
-
56
2) A anlise de Predio Linear realizada uma vez a cada frame de 10ms calculando-
se os coeficientes de filtro de Predio Linear. Esses coeficientes so convertidos para Line
Spectrum Pairs (LSP) e quantizados, Vector Quantization (VQ).
3) O sinal de excitao escolhido por meio de uma anlise por sntese, procedimento
de busca em que o erro entre o sinal de voz original e o reconstrudo minimizado de acordo
com uma medida de distoro perceptualmente ponderada. Isso feito atravs da filtragem
do sinal de erro com um filtro de ponderao perceptual, cujos coeficientes so derivados da
Predio Linear no quantizada do filtro.
4) Os parmetros de excitao (parmetros dos dicionrios fixos e adaptativo) so
determinados por um subframe de 5ms (40 amostras) cada um. Os coeficientes quantizados e
no quantizados do filtro de Predio Linear so usados no segundo subframe, enquanto no
primeiro subframe os coeficientes de predio linear interpolados so usados (ambos
quantizados e no quantizados).
5) Um valor do pitch estimado com base no sinal resultante da amostra analisada
pelo filtro de ponderao, em malha aberta.
6) Os estados iniciais do filtro so atualizados pela filtragem do erro residual. Calcula-
se o circuito em malha fechada para estimar o ganho e o valor do dicionrio adaptativo.
7) Com os valores do dicionrio adaptativo e com as duas estimativas de pitch, busca-
se no dicionrio fixo um valor para encontrar a soluo tima.
8) Os ganhos dos dicionrios (fixo e adaptativo) so quantizados, o filtro atualizado
e o sinal de excitao determinado.
-
57
5.2.3. Decodificador
Na decodificao do sinal, os parmetros do fluxo de bits recebidos so extrados
conforme diagrama de blocos abaixo:
(, )* 252$7!
Descrio dos estgios de decodificao do CS-ACELP:
1) Os ndices so decodificados para obter os parmetros do codificador
correspondente a um quadro de fala de 10 ms.
2) Esses parmetros so os coeficientes LSP, e duas fraes de delay do pitch, dois
vetores do codebook fixo, e os dois conjuntos de ganhos referente ao codebook adaptativo e o
codebook fixo;
3) Efetua-se a sntese de curto prazo: Os coeficientes LSP so interpolados e
convertidos em coeficientes do filtro de predio linear para cada sub frame.
4) Efetua-se a sntese de longo prazo: avaliado um subframe de 5ms, em que so
executadas as seguintes etapas:
a) A excitao calculada adicionando os vetores do codebook fixo e do codebook
adaptativo, dimensionado pelos respectivos ganhos
b) O sinal de fala reconstrudo atravs da filtragem da excitao, realizada pelo
filtro de sntese de predio linear.
5) A reconstruo do sinal de fala ocorre aps o estgio de ps filtragem, que inclui
um filtro adaptativo baseado nos filtros de sntese a curto e longo prazos, seguido por um
filtro passa-alta que completa a operao de filtragem e dimensionamento da operao.
-
58
6. Proposta
Neste trabalho, foi avaliada a estrutura do codificador com suas alteraes propostas
para melhoria perceptual, excluindo-se as variaes do meio de transmisso.
Os codificadores de voz buscam a melhoria de qualidade utilizando uma baixa taxa de
bits para transmisso. Um exemplo disso o codificador G.729a, padro do ITU-T que
consegue operar a uma taxa de 8Kbps. Geralmente, se a anlise baseia-se nessa premissa
(maior qualidade com menor taxa de transmisso), o processo para a garantia de qualidade e a
decodificao do sinal possuem mecanismos incorporados para tratar os fenmenos inerentes
ao meio de transmisso (atraso, jitter e perda de pacotes).
Segundo avaliao da figura 6.1, apresentada abaixo, que se baseia no estudo do codec
G729a apresentado em (PREGO e NETTO, 2008), os valores de MOS esto dentro do limiar
aceitvel para experimentos acadmicos e aplicaes prticas implementadas no mercado.
+D0=%%
-
59
Como a anlise neste estudo enfoca a melhoria perceptual no sinal de origem, optou-
se pela escolha de um codificador que fosse bastante utilizado nos sistemas de
telecomunicaes, o codec G729a.
Convm mencionar que a avaliao perceptual foi realizada em trabalhos que
analisavam o desempenho do codificador mediante a ponderao de qualidade sobre o meio
de transmisso.
A proposta obter uma melhora na ausncia do meio de transmisso, o que factvel
de ser avaliado, uma vez que as caractersticas deste codificador j foram objeto de estudo em
diversos trabalhos na comunidade acadmica e no meio coorporativo. (MAGRO, 2005),
(FERNANDES, 2003)
Neste estudo, foi aplicado o processo proposto, avaliao do sinal na origem do
codificador com a implementao do algoritmo do PESQ no encoder.
Para verificao do estudo, foi implementado a recomendao do ITU-T, P.862
(PESQ), no encoder do codificador CS-ACELP (G729a), com a finalidade de mensurar uma
ponderao do MOS, pois esta mtrica a atual referncia para avaliao de qualidade do
sinal de udio percebido nos sistemas de telecomunicaes.
A proposta deste trabalho realiza uma anlise objetiva baseada em critrios
perceptuais do sinal de voz, sendo este verificado e analisado no bloco de origem do sinal a
ser transmitido.
+)
-
60
A produo do sinal de voz tem suas caractersticas variantes no tempo, que
dependem da variao do trato vocal. Pensando do ponto de vista do orador, se
consegussemos realizar uma analise das formantes do sinal de voz, mapeando alguns
parmetros no processo de codificao, seramos capazes de indicar alteraes dinmicas para
melhorar esse sinal de voz emitido.
Sendo constantes os avanos nos hardwares de processamento digital de sinais,
entende-se que a capacidade de processamento no mais o problema, mas a busca por uma
melhoria contnua no sinal de voz um tema ainda em discusso. Neste cenrio, o tema
proposto, melhoria da qualidade perceptual do sinal de voz na origem do codificador, pode ter
uma expressiva contribuio na busca por melhoria contnua.
Na proposta apresentada, realizada uma heurstica em que o controle perceptual do
sinal de voz realizado em tempo real. Utilizaremos o codificador G729a e o algoritmo do
PESQ para avaliao do sinal de voz.
A anlise foi implementada no bloco do codificador de voz. Neste bloco, foi realizada
a codificao, decodificao e anlise perceptual do sinal de voz amostrado. Em cada instante
desta anlise deseja-se obter uma melhoria no sinal codificado. Essa melhoria foi avaliada
com o algoritmo do PESQ interagindo no processo de codificao do sinal de voz.
A figura 6.3 abaixo mostra o diagrama do bloco de origem do codificador que efetua a
anlise do processo de avaliao perceptual durante a transmisso dos dados:
-
61
+ )* 3
O objeto de estudo o codificador G729a, em que foram implementados, nesse
codificador, os blocos relacionados na figura 6.3 conforme descrio abaixo:
- o bloco do encoder realiza a codificao do sinal, em que foi realizada a
segmentao para leitura de um nmero especfico de frames do sinal de entrada;
- o bloco do decoder foi duplicado na estrutura. O bloco D2 para receber o sinal
de voz que necessita ser decodificado, estrutura normal do codificador (encoder / decoder). O
bloco D1 decoder inserido na estrutura do codificador responsvel pela decodificao dos
frames codificados originados no enonder. Esses frames necessitam ser decodificados para
avaliao perceptual do sinal;
- o bloco do PESQ responsvel por receber o sinal de referncia da entrada do
codificador e o sinal que passou pelo encoder e foi codificado para envio e transmisso. Esse
mesmo sinal passa por um decoder D1 e decodificado para avaliao perceptual;
- a indicao de MOS, ou seja, a pontuao dos sinais avaliados incide sobre uma ao
de controle no bloco do encoder, alterando os frames seguintes avaliao presente.
Os blocos descritos acima, estruturados nesta formatao, compem o estudo de caso
e anlise desta dissertao. O principal objetivo deste trabalho verificar o sinal do ponto de
vista perceptual, essa verificao ocorre em tempo real com aes de controle no bloco de
origem de codificao, o encoder, para garantir e melhorar perceptual os frames codificados.
-
62
7. Estudo de Caso
Para anlise do problema proposto, avaliao perceptual do sinal de voz na origem da
codificao para obter melhoria perceptual, foram estudadas a codificao e a avaliao do
sinal codificado. Neste trabalho utilizaram-se os programas:
1) ITU-T G.729a CS-ACELP Speech Coder ANSI-C Source Code
Version 1.1 Last modified: September 1996
Copyright (c): AT&T, France Telecom, NTT, Universite de Sherbrooke
2) ITU-T P862 PESQ Algorithm Software ANSI-C Source Code
Version 1.2 Last modified: August 2002
Copyright (c): Psytechnics Limited e OPTICOM GmbH
7.1. Plataforma de experimento (G729a com
PESQ)
O processo de anlise consiste no bloco do codificador G.279a
(codificao/decodificao) na origem do interlocutor, sobre o qual foi inserido o algoritmo
do PESQ para avaliao perceptual do sinal de voz na origem da codificao.
Nessa formatao, o processo de codificao (extrai os coeficientes LPC, o ganho e os
ndices dos dicionrios) encaminha o fluxo de bits ao decodificador que foi duplicado no
bloco do codificador G729. O sinal de entrada, ao mesmo tempo em que codificado na
origem, tem seu valor decodificado e avaliado pelo algoritmo do PESQ.
Os arquivos PCM 16Bits, amostrado a 8KHz de entrada e de sada do bloco do
codificador de origem do interlocutor, so verificados a cada intervalo de tempo. Obtm uma
-
63
resposta do algoritmo PESQ para uma anlise curta de frames, de modo que a representao
seja a mais prxima do tempo real.
7.2. Anlise dos parmetros de avaliao
Durante os estudos, foram avaliados os parmetros escalares de ganho de codificao
e ganho de pitch do codificador G729a. Tambm se avaliou o algoritmo PESQ, que foram
verificados parmetros intrnsecos do algoritmo. Essa anlise dos parmetros definida no item
7.3 descreve o processo de anlise dos arquivos codificados e decodificados no bloco do
encoder para obter uma garantia de melhora perceptual dos frames do sinal de voz.
7.2.1. Limites de frames do PESQ no bloco do codec
Para a avaliao perceptual na implementao do algoritmo do PESQ dentro do
encoder do codificador do G729a