Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta

UNIVERSIDADE ESTADUAL DO CEAR

CENTRO DE CINCIAS E TECNOLOGIA

MESTRADO PROFISSIONAL EM COMPUTAO APLICADA

LUIZ FAUSTO DE SOUZA BRITO

SISTEMA DE DECISO AUTOMTICO PARA

CONVERSO DE UDIO EM TEXTO NA GERAO DE LEGENDA OCULTA

RIO DE JANEIRO RIO DE JANEIRO

2015


SISTEMA DE DECISO AUTOMTICO PARA

CONVERSO DE UDIO EM TEXTO NA GERAO DE LEGENDA OCULTA

Dissertao apresentada ao Curso de Mestrado Profissional em Computao Aplicada do Centro de Cincias e Tecnologia da Universidade Estadual do Cear, como requisito parcial obteno do ttulo de mestre em Computao Aplicada. rea de Concentrao: Computao Aplicada. Orientador: Prof. Dr. Flvio Luis de Mello.

RIO DE JANEIRO RIO DE JANEIRO

2015

Dados Internacionais de Catalogao na Publicao

Universidade Estadual do Cear

Sistema de Bibliotecas

Brito, Luiz Fausto de Souza.

Sistema de Deciso Automtico para Converso de udio em Texto na Gerao de Legenda Oculta [recurso eletrnico] / Luiz Fausto de Souza Brito 2015.

1 CD-ROM: il. ; 4 pol. CD-ROM contendo o arquivo no formato PDF do trabalho acadmico

com 106 folhas, acondicionado em caixa de DVD Slim (19 x 14 cm x 7 mm).

Dissertao (mestrado profissional) Universidade Estadual do Cear,

Centro de Cincias e Tecnologia, Mestrado Profissional em Computao Aplicada, Rio de Janeiro, 2015.

rea de Concentrao: Computao Aplicada. Orientao: Prof. Dr. Flvio Luis de Mello. 1. Computao. 2. Sistemas de Apoio Deciso. 3. Legenda Oculta. 4.

Reconhecimento Automtico de Voz. I. Ttulo.


SISTEMA DE DECISO AUTOMTICO PARACONVERSO DE AUDIO EM TEXTO NA GERAO DE LEGENDA OCULTA

Aprovada em: 27 de abril de 2015.

BANCA

/

Prof. Dr. Flvio Luis de Mello (Orientador)

Dissertao apresentada ao Curso de MestradoProfissional em Computao Aplicada doCentro de Cincias e Tecnologia daUniversidade Estadual do Cear, comorequisito parcial obteno do ttulo de mestreem Computao Aplicada. rea deConcentrao: Computao Aplicada.

_EXAMINADORA' 7/

Universidade Federal do Rio de Janeiro - UFRJ

Prof. Dr Marcos Jo ' Negr iros GomesUniversi ade Estadual do Cear - UECE

Prof. Dr. Francisco Henrique de Freitas Viana

Centro Federal de Educao Tecnolgicado Rio de Janeiro - CEFET/RJ

Prof. Dr. Luiz Wagner Pereira Biscainho

Universidade Federal do Rio de Janeiro - UFRJ

memria do meu pai, meu maior mestre

nessa vida. minha me, fonte de serenidade.

minha esposa, meu apoio incondicional.

Aos meus filhos, minha eterna alegria. Ao meu

Deus, fonte da perseverana.

AGRADECIMENTOS

A Deus, verdadeira fonte de toda sabedoria. minha esposa, por todo suporte que me d. Aos

meus filhos, por inspirarem e alegrarem os meus dias. Aos meus pais, pela educao que me

deram. Aos professores Flvio Mello e Edilberto Strauss, pela pacincia, compreenso e

apoio. A todos que, de alguma forma, me ajudaram a chegar at aqui, o meu muito obrigado.

Assim tambm vs: se vossa lngua s

profere palavras ininteligveis, como se

compreender o que dizeis? Sereis como quem

fala ao vento.

(1Cor 14, 9)

RESUMO

Este trabalho se prope a analisar uma soluo computacional para o problema de gerao de

legenda oculta em programas de televiso produzidos ao vivo e que contenham fala

espontnea, decidindo automaticamente a melhor transcrio de um sinal de udio em

Portugus do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de

Reconhecimento Automtico de Voz em Portugus do Brasil, tendo em vista a otimizao da

acurcia. A busca de tal soluo se torna crtica pela falta de opes satisfatrias no mercado,

pela necessidade de garantir a acessibilidade do contedo televisivo para as pessoas com

deficincia auditiva e tambm para o cumprimento de legislao especfica. A anlise dos

resultados obtidos demonstra que possvel desenvolver um sistema a partir de software livre

e de bases de dados disponveis publicamente que obtenha um desempenho superior

estenotipia e aos sistemas comerciais de Reconhecimento Automtico de Voz em Portugus

do Brasil atualmente disponveis.

Palavras-Chave: Computao. Sistemas de Apoio Deciso. Legenda Oculta.

Reconhecimento Automtico de Voz.

ABSTRACT

This study aims to analyze a computational solution to the problem of generating closed

captions on live television programs containing spontaneous speech. The system may

automatically decide the best transcription of an audio signal in Brazilian Portuguese to the

corresponding text. To that end, it investigates Brazilian Portuguese Automatic Speech

Recognition systems in order to optimize their accuracy. The search for such a solution

becomes critical due to the lack of satisfactory options in the market, the need to provide

television content accessibility for hearing impaired people and also the compulsory

fulfillment of specific legislation. The analysis of the results that have been achieved shows

that it is possible to develop a system based on free software and publicly available databases

that gets a superior performance compared to stenotyping and currently available commercial

Brazilian Portuguese Automatic Speech Recognition systems.

Keywords: Computing. Decision Support Systems. Closed Caption. Automatic Speech

Recognition.

LISTA DE ILUSTRAES

Figura 1 ! Reconhecimento Automtico de Voz ................................................................ 24!

Figura 2 ! Processamento Digital de Sinais empregado no RAV .................................... 28!

Figura 3 ! Representao Esquemtica da Preparao do Material de Teste ............... 47!

Figura 4 ! Extrao de arquivo VRO do Disco Rgido ..................................................... 48!

Figura 5 ! Extrao de closed caption de arquivo VRO ................................................... 50!

Figura 6 ! Extrao de udio em formato WAV a partir de arquivo MPEG ................ 55!

Figura 7 ! Exemplo de marcao de tempo de fim de frase no udio do programa

e no texto extrado do closed caption ................................................................ 56!

Figura 8 ! Formatos de arquivos e softwares utilizados na relocuo ............................ 57!

Figura 9 ! Ambiente de execuo do IBM ViaVoice ......................................................... 61!

Figura 10 !Extrao dos textos da globo.com .................................................................... 63!

Figura 11 !Fluxo do sinal de udio utilizado na adaptao de locutor do IBM

ViaVoice .............................................................................................................. 64!

Figura 12 !Formatos de arquivos e softwares utilizados na avaliao da latncia

do IBM ViaVoice ................................................................................................ 68!

Figura 13 !Trecho do corpus de texto ................................................................................. 70!

Figura 14 !Segmentao automtica do udio ................................................................... 70!

Figura 15 !Variao da perplexidade do modelo de linguagem do programa Bom

Dia Brasil com o nmero de repeties da transcrio de parte do

programa no corpus de texto ............................................................................. 71!

Figura 16 !Variao da perplexidade do modelo de linguagem do programa Bem

Estar com o nmero de repeties da transcrio de parte do

programa no corpus de texto ............................................................................. 72!

Figura 17 !Variao da perplexidade do modelo de linguagem do programa

Domingo do Fausto com o nmero de repeties da transcrio de

parte do programa no corpus de texto ............................................................. 73!

Figura 18 !Ferramentas utilizadas para criao dos dicionrios e dos modelos de

linguagem ............................................................................................................ 74!

Figura 19 !Lista dos smbolos fonticos utilizados ............................................................. 75!

Figura 20 !Trecho do dicionrio .......................................................................................... 76!

Figura 21 !Representao esquemtica do treinamento do modelo acstico

independente de locutor .................................................................................... 79!

Figura 22 !Representao esquemtica da adaptao de locutor .................................... 82!

Figura 23 !Representao esquemtica da decodificao ................................................. 84!

Figura 24 !Variao da acurcia com peso do modelo de linguagem, para o

programa Bom Dia Brasil, utilizando o modelo acstico treinado com

corpus maior ....................................................................................................... 85!

LISTA DE TABELAS

! Prazos e cargas horrias mnimas para disponibilizao de closed Tabela 1

caption por faixa horria ................................................................................... 20!

! Prazos de adequao da infraestrutura das estaes analgicas para Tabela 2

transmisso de closed caption, de acordo com a populao da cidade

onde a estao estiver localizada ...................................................................... 21!

! Comparao de textos com e sem alinhamento ............................................... 49!Tabela 3

! Exemplo de trecho de closed caption extrado em dois formatos: Tabela 4

apenas texto e texto com marcao de tempo de cada caractere ................... 51!

! Acurcia da Estenotipia .................................................................................... 52!Tabela 5

! Acurcia da Relocuo ...................................................................................... 58!Tabela 6

! Acurcia do IBM ViaVoice ............................................................................... 64!Tabela 7

! Taxa de palavras fora do dicionrio e perplexidade do modelo de Tabela 8

linguagem ............................................................................................................ 77!

! Impacto sobre a acurcia do nmero de senones e gaussianas do Tabela 9

modelo acstico treinado com uma nica voz masculina ............................... 81!

!Acurcia do sistema de RAV baseado em software livre utilizando Tabela 10

modelo acstico treinado com corpus mais reduzido, com apenas uma

voz masculina ..................................................................................................... 86!


modelo acstico treinado com corpus intermedirio, com vozes

masculinas apenas .............................................................................................. 89!


modelo acstico treinado com corpus maior, com vozes masculinas e

femininas ............................................................................................................. 92!

!Resumo dos resultados de acurcia obtidos nos testes ................................... 96!Tabela 13

LISTA DE ABREVIATURAS E SIGLAS

ABNT Associao Brasileira de Normas Tcnicas

AC-3 Audio Codec 3

CC Closed Caption

CMU Carnegie Mellon University

CPU Central Processing Unit

DCT Discrete Cosine Transform

DCT-II Type-II Discrete Cosine Transform

DFT Discrete Fourier Transform

FFT Fast Fourier Transform

HMM Hidden Markov Model

HTML HyperText Markup Language

IBGE Instituto Brasileiro de Geografia e Estatstica

IBM International Business Machines Corporation

LDA Linear Discriminant Analysis

MAP Maximum a Posteriori

MB Mega Bytes

MFCC Mel-Frequency Cepstral Coefficients

MLLR Maximum Likelihood Linear Regression

MLLT Maximum Likelihood Linear Transform

MOV QuickTime Movie

MPEG Moving Picture Experts Group

MPEG-2 Moving Picture Experts Group Standard 2

NHK Nippon Hs Kykai

PCM Pulse-Code Modulation

RAM Random-Access Memory

RAV Reconhecimento Automtico de Voz

SD Standard Definition

TV Televiso

UFPA Universidade Federal do Par

VRO Video Recording Object File

WAV Waveform Audio File Format

WER Word Error Rate

SUMRIO

1! INTRODUO ............................................................................................................. 15!

1.1! TEMA ............................................................................................................................. 15!1.2! DELIMITAO ............................................................................................................. 15!1.3! JUSTIFICATIVA ............................................................................................................ 15!1.4! OBJETIVOS ................................................................................................................... 16!1.5! METODOLOGIA ........................................................................................................... 16!1.6! ORGANIZAO DA DISSERTAO ........................................................................ 16!2! LEGENDA OCULTA ................................................................................................... 18!

2.1! ACESSIBILIDADE ........................................................................................................ 18!2.2! LEGISLAO ................................................................................................................ 20!2.3! ESTENOTIPIA ............................................................................................................... 22!2.4! RECONHECIMENTO AUTOMTICO DE VOZ ........................................................ 22!3! RECONHECIMENTO AUTOMTICO DE VOZ (RAV) ....................................... 24!

3.1! UNIDADE FONTICA .................................................................................................. 25!3.2! DICIONRIO ................................................................................................................. 26!3.3! PROCESSAMENTO DIGITAL DE SINAIS ................................................................. 27!3.4! MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS ACSTICOS ........ 31!3.5! MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS DE

LINGUAGEM ................................................................................................................. 34!3.6! DECODIFICAO ........................................................................................................ 35!4! GERAO DE LEGENDA OCULTA COM RAV NO MUNDO ........................... 38!

4.1! JAPO ............................................................................................................................ 38!4.2! PORTUGAL ................................................................................................................... 39!4.3! REINO UNIDO ............................................................................................................... 39!4.4! CANAD ........................................................................................................................ 39!4.5! ESLOVNIA .................................................................................................................. 40!4.6! BRASIL ........................................................................................................................... 41!5! AVALIAO DE DESEMPENHO ............................................................................ 46!

5.1! MATERIAL DE TESTE ................................................................................................. 46!5.2! AVALIAO DA ESTENOTIPIA ................................................................................ 49!5.2.1!Acurcia ......................................................................................................................... 51!

5.2.2!Latncia .......................................................................................................................... 55!

5.3! AVALIAO DA RELOCUO ................................................................................. 56!5.3.1!Acurcia ......................................................................................................................... 57!

5.3.2!Latncia .......................................................................................................................... 61!

5.4! AVALIAO DO IBM VIAVOICE ............................................................................. 61!5.4.1!Adaptao do Dicionrio e do Modelo de Linguagem ............................................... 62!

5.4.2!Adaptao do Modelo Acstico .................................................................................... 63!

5.4.3!Acurcia ......................................................................................................................... 64!

5.4.4!Latncia .......................................................................................................................... 67!

5.4.5!Consumo de recursos computacionais ........................................................................ 68!

5.5! AVALIAO DE UM SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE ............................................................................................................................. 69!

5.5.1!Criao do Dicionrio e do Modelo de Linguagem .................................................... 69!

5.5.2!Taxa de palavras fora do dicionrio e perplexidade do modelo de linguagem ....... 76!

5.5.3!Treinamento do Modelo Acstico ................................................................................ 77!

5.5.4!Adaptao do Modelo Acstico .................................................................................... 81!

5.5.5!Acurcia ......................................................................................................................... 83!

5.5.6!Latncia .......................................................................................................................... 95!

5.5.7!Consumo de recursos computacionais ........................................................................ 95!

5.6! ANLISE DOS RESULTADOS .................................................................................... 95!6! CONCLUSO E TRABALHOS FUTUROS ............................................................. 99!

6.1! CONCLUSO ................................................................................................................ 99!6.2! TRABALHOS FUTUROS ............................................................................................. 100! REFERNCIAS ........................................................................................................... 102!

15

1 INTRODUO

1.1 TEMA

O tema deste trabalho o desenvolvimento de um sistema de deciso automtico

para converso de udio em texto na gerao de legenda oculta a partir de software livre e de

bases de dados disponveis publicamente.

1.2 DELIMITAO

Este trabalho pretende examinar os sistemas computacionais por trs do

Reconhecimento Automtico de Voz (RAV) na gerao de legenda oculta, ou seja, sistemas

capazes de realizar um processo de deciso automtica para converso de udio em texto na

gerao de closed caption, utilizando o portugus do Brasil. Neste trabalho no se pretende

desenvolver os algoritmos de processamento digital de sinais ou os modelos estatsticos

envolvidos no Reconhecimento Automtico de Voz. Pretende-se, ao contrrio, avaliar

solues de RAV disponveis, os recursos necessrios ao treinamento para o Portugus do

Brasil e as possibilidades de otimizao da acurcia, levando em considerao as

informaes disponveis sobre a experincia internacional no uso desse tipo de soluo e as

otimizaes especficas para a aplicao de RAV na gerao de legenda oculta j

implementadas.

1.3 JUSTIFICATIVA

Na anlise de maturidade de tecnologias emergentes (Hype Cycle) da

consultoria Gartner publicada em 2014 (GARTNER, 2014), considera-se que a tecnologia de

reconhecimento de voz j est no patamar de produtividade, ou seja, que j se trata de uma

tecnologia relativamente madura com aplicaes no mercado. No entanto, no se pode

considerar que essa tecnologia esteja to madura no Portugus do Brasil quanto est em outras

lnguas, como o Ingls. Este trabalho motivado pela falta de opes satisfatrias de sistemas

comerciais atuais de Reconhecimento Automtico de Voz em Portugus do Brasil para a

aplicao na gerao de legenda oculta ao vivo.

16

1.4 OBJETIVOS

O objetivo deste trabalho treinar e avaliar uma das opes de software livre

disponveis, tendo em vista a aplicao na gerao de legenda oculta para programas de

televiso ao vivo com fala espontnea em Portugus do Brasil, com Reconhecimento

Automtico de Voz (RAV) e utilizando relocuo (repetio das falas por um locutor

especfico em um ambiente acusticamente controlado). O treinamento para o Portugus do

Brasil utilizar bases de dados disponveis publicamente.

O desempenho desse sistema ser comparado ao obtido por Estenotipia e pelo

IBM ViaVoice.

Pretende-se ainda examinar os algoritmos de processamento de sinais e modelos

estatsticos utilizados por sistemas de RAV.

Por fim, pretende-se tambm verificar a experincia das emissoras de televiso ao

redor do mundo na utilizao de sistemas de Reconhecimento Automtico de Voz em seus

respectivos idiomas para a aplicao em questo, com foco nas otimizaes implementadas

que possam ser aproveitadas para o Brasil.

1.5 METODOLOGIA

A metodologia a ser empregada no desenvolvimento deste trabalho envolve uma

ampla reviso bibliogrfica, tanto da fundamentao necessria sobre o atual estado da arte de

sistemas de Reconhecimento Automtico de Voz (RAV), quanto das ferramentas e recursos

disponveis publicamente, da aplicao do Reconhecimento Automtico de Voz na gerao de

legendas ocultas ao redor do mundo e do contexto brasileiro. Envolve ainda a realizao de

testes comparativos de desempenho de um sistema de RAV para o Portugus do Brasil a ser

desenvolvido a partir de ferramentas e recursos disponveis publicamente com o desempenho

do IBM ViaVoice e da Estenotipia.

1.6 ORGANIZAO DA DISSERTAO

O Captulo 2 descreve o uso de Legenda Oculta na televiso, sua motivao e os

sistemas utilizados para gerao ao vivo: Estenotipia e Reconhecimento Automtico de Voz.

17

No Captulo 3 apresentada uma fundamentao terica sobre o funcionamento

de sistemas de Reconhecimento Automtico de Voz.

No Captulo 4 so apresentadas algumas experincias relatadas por diversos

autores ao redor do mundo sobre a implementao de sistemas de Reconhecimento

Automtico de Voz na gerao de Legenda Oculta.

O Captulo 5 apresenta os resultados de testes comparativos de desempenho de

um sistema de RAV desenvolvido a partir de ferramentas e recursos disponveis publicamente

com o desempenho do IBM ViaVoice e da Estenotipia.

As concluses e propostas de trabalhos futuros so apresentadas no Captulo 6.

18

2 LEGENDA OCULTA

2.1 ACESSIBILIDADE

De acordo com os resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO

BRASILEIRO DE GEOGRAFIA E ESTATSTICA, 2012), cerca de 5,1% da populao

brasileira (quase 10 milhes de pessoas) possuem deficincia auditiva. Para que essa

populao tenha acesso ao contedo dos programas de televiso, necessrio que tais

programas disponham de legendas, contendo no apenas a transcrio textual do que falado,

como tambm descries de msicas e efeitos sonoros que sejam necessrios para a melhor

compreenso do contedo sendo exibido. Tais legendas, porm, no devem estar visveis para

todos os telespectadores, apenas para aqueles que assim as desejarem, ativando tal recurso no

receptor de TV. Isso possvel, tanto na transmisso de TV analgica (CONSUMER

ELECTRONICS ASSOCIATION, 2008), quanto na transmisso de TV digital

(ASSOCIAO BRASILEIRA DE NORMAS TCNICAS, 2011), atravs de um recurso

denominado legenda oculta ou closed caption (CC).

Outra possibilidade de prover acessibilidade do contedo televisivo populao

com deficincia auditiva, o uso de uma janela superposta ao vdeo com um intrprete de

Libras (Lngua Brasileira de Sinais). Esse meio de acessibilidade atenderia particularmente

populao com deficincia auditiva no alfabetizada (note-se que, de acordo com os

resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO BRASILEIRO DE

GEOGRAFIA E ESTATSTICA, 2012), o analfabetismo mais prevalente na populao com

deficincia auditiva do que na populao geral). Entretanto, se por um lado nem todos os

deficientes auditivos so alfabetizados, por outro nem todos utilizam a Lngua Brasileira de

Sinais. Dessa forma, a Legenda Oculta e a janela com intrprete de Libras seriam

complementares no provimento da acessibilidade do contedo televisivo populao com

deficincia auditiva. Deve-se notar, entretanto, que a Legenda Oculta muito mais utilizada

que a janela com intrprete de Libras, por diversos motivos:

de acordo com a Lei n 10.436, de 24 de abril de 2002 (BRASIL, 2002), no

que se refere ao ensino pblico a "Lngua Brasileira de Sinais - Libras no

poder substituir a modalidade escrita da lngua portuguesa", o que significa

que todos os deficiente auditivos, assim como todos as demais pessoas,

deveriam ser alfabetizados e dessa forma teriam acesso Legenda Oculta;

19

a Lngua Brasileira de Sinais muito pouco conhecida na populao geral,

sendo a modalidade escrita da lngua portuguesa essencial para a integrao da

populao com deficincia auditiva, no que a Legenda Oculta poderia ser um

estmulo e uma ferramenta adicional do processo de alfabetizao;

o uso da janela com intrprete de Libras na televiso obrigatrio apenas na

propaganda poltico-partidria e eleitoral, nas campanhas institucionais e

informativos de utilidade pblica do governo (BRASIL, 2006), e nas vinhetas

de classificao indicativa (BRASIL, 2007);

de acordo com a ABNT NBR 15290:2005 (ASSOCIAO BRASILEIRA

DE NORMAS TCNICAS, 2005), a janela de Libras deve ocupar metade da

altura e um quarto da largura da tela, no que poderia comprometer

significativamente a visualizao integral do vdeo;

embora a Norma Complementar 01, aprovada pela Portaria n 310 do

Ministrio das Comunicaes (BRASIL, 2006), mencione que "o

desenvolvimento e implementao da televiso digital no Brasil dever

permitir o acionamento opcional da janela com intrprete de LIBRAS", tal

recurso opcional na norma de receptores (ASSOCIAO BRASILEIRA

DE NORMAS TCNICAS, 2008a) e na norma de codificao de dados

(ASSOCIAO BRASILEIRA DE NORMAS TCNICAS, 2008b) do

Sistema Brasileiro de TV Digital Terrestre e a codificao de tal recurso no

foi padronizada, de forma que a nica alternativa atualmente disponvel para

utilizao da janela de Libras inclu-la no sinal de vdeo principal, tornando-

a visvel a todos os telespectadores e no apenas aos que desejariam ativar

esse recurso.

Embora a maior motivao para utilizar legendas ocultas na programao da

televiso seja para garantir a acessibilidade aos telespectadores com deficincia auditiva, tal

recurso tambm interessante para o pblico geral em algumas situaes especficas, a saber:

em ambientes nos quais a necessidade de silncio no permite que o som da TV seja

reproduzido ou pelo menos no com volume suficiente para uma compreenso adequada (e.g.

hospitais); em ambientes muito barulhentos em que no seria possvel compreender o udio

da televiso, ainda que reproduzido com volume razovel (e.g. bares e restaurantes); em

ambientes com sonorizao musical (e.g. academia); para permitir que diferentes televisores

reproduzam programas diferenciados em um mesmo ambiente para atender a um pblico

20

heterogneo; em ambiente residencial para permitir que se assista TV noite sem incomodar

os demais moradores; para aprendizagem da lngua por parte de estrangeiros ou pessoas em

processo de alfabetizao.

2.2 LEGISLAO

No Brasil, a Lei n 10.098 de 2000 (BRASIL, 2000), criada para estabelecer

normas de acessibilidade, j previa que os servios de radiodifuso de sons e imagens

deveriam adotar medidas tcnicas com o objetivo de permitir o uso de subtitulao, para

garantir o direito de acesso informao s pessoas portadoras de deficincia auditiva.

Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria n 310

do Ministrio das Comunicaes (BRASIL, 2006) estabeleceu prazos, obrigando os

radiodifusores a uma utilizao progressiva de legendas ocultas nas suas programaes. De

acordo com o cronograma estabelecido, em 2017 a totalidade da programao diria das

emissoras e retransmissoras dever dispor de legendas ocultas, como pode ser verificado na

Tabela 1.

Prazos e cargas horrias mnimas para Tabela 1 disponibilizao de closed caption por faixa horria

Prazo Faixa Horria Carga Horria

27/06/2008 08:00 - 14:00 1 h 20:00 - 02:00 1 h

27/06/2009 08:00 - 14:00 2 h 18:00 - 02:00 2 h

27/06/2010 08:00 - 14:00 3 h 18:00 - 02:00 3 h

27/06/2011 08:00 - 14:00 4 h 18:00 - 02:00 4 h

27/06/2012 06:00 - 14:00 6 h 18:00 - 02:00 6 h 27/04/2014 06:00 - 02:00 16 h 27/04/2015 Dia Inteiro 20 h 27/06/2017 Dia Inteiro Totalidade da Programao

Fonte: Prprio autor.

As estaes transmissoras ou retransmissoras analgicas que no suportarem a

transmisso de closed caption devem se adequar de acordo com um prazo estabelecido

conforme a populao da cidade onde a estao estiver localizada, como pode ser observado

21

na Tabela 2. As estaes transmissoras ou retransmissoras digitais devem suportar a

transmisso de closed caption desde o princpio da operao.

Prazos de adequao da infraestrutura das estaes analgicas para Tabela 2 transmisso de closed caption, de acordo com a populao da cidade onde a estao

estiver localizada

Prazo Populao 27/06/2008 > 1.000.000 27/06/2010 > 500.000 27/06/2012 > 200.000 27/06/2014 > 100.000 27/06/2016 Qualquer


Alm disso, a Norma Complementar 01 de 2006 do Ministrio das Comunicaes

estabelece que a produo e veiculao de legendas ocultas deve atender os critrios e

requisitos tcnicos da ABNT NBR 15290:2005. Dentre esses requisitos, consta que o texto

das legendas deve ter 100% de acerto acompanhando o tempo exato da cena para programas

com legenda pr-gravada e deve ter no mnimo 98% de acerto com no mximo 4 segundos de

atraso para programas com legenda ao vivo (ASSOCIAO BRASILEIRA DE NORMAS

TCNICAS, 2005). No consta na norma a metodologia a ser utilizada na aferio desses

valores.

Tais exigncias afetam todas as emissoras de televiso do Brasil, independente do

porte. Mesmo as retransmissoras ou afiliadas das redes de televiso localizadas em cidades de

pequeno e mdio porte devero veicular legendas ocultas para sua programao e

comercializao, inclusive local, atendendo os requisitos tcnicos especificados. O

descumprimento das disposies da norma sujeita as emissoras ou retransmissoras s

penalidades prescritas no Cdigo Brasileiro de Telecomunicaes.

Maximizar a taxa de acerto das legendas ocultas importante no apenas para

cumprir a legislao, como tambm para viabilizar a compreenso das mensagens sendo

veiculadas. Por vezes, apenas uma palavra errada suficiente para modificar profundamente o

significado de um texto.

O maior desafio est na produo de legendas ocultas ao vivo, sobretudo quando

h fala espontnea (sem que haja um texto pr-definido em roteiro). Essa situao ocorre com

22

bastante frequncia na programao televisiva: programas de entrevistas, auditrio, religiosos,

variedades, reality shows etc.

Existem atualmente duas formas de produzir as legendas ocultas que se aplicam

transcrio da fala espontnea ao vivo: Estenotipia e Reconhecimento Automtico de Voz.

Quando a fala ao vivo utiliza a leitura de um teleprompt, o texto do teleprompt pode ser

utilizado como legenda oculta. Para a parte da programao que no produzida ao vivo, a

legenda oculta pode ser inserida por digitadores durante o processo de ps-produo.

2.3 ESTENOTIPIA

No caso da estenotipia, um profissional especializado digita as palavras na

velocidade em que as ouve, utilizando smbolos fonticos em um equipamento com teclado

especial (estentipo), conectado a um computador, que utilizando um dicionrio especfico

converte as sequncias de smbolos em palavras.

Um curso de formao profissional em estenotipia dura de seis meses a um ano,

mas normalmente necessrio pelo menos dois anos de prtica para obter a velocidade

necessria para legendagem ao vivo (cerca de 180 palavras por minuto). uma mo-de-obra

relativamente cara, escassa e difcil de repor. De acordo com matria publicada na revista

Galileu de maio de 2012, existem apenas 400 desses profissionais no Brasil (SANT'ANA,

2012), em geral concentrados nas cidades de maior porte.

Erros no processo de estenotipia podem ocorrer tanto por falha humana na

digitao, quanto pela ocorrncia de palavras fora do dicionrio.

2.4 RECONHECIMENTO AUTOMTICO DE VOZ

O Reconhecimento Automtico de Voz o processo de converso do sinal

acstico da voz em uma transcrio textual correspondente. Um sistema que implemente tal

processo inclui a captao do sinal de voz, sua digitalizao, processamento digital de sinais e

modelos estatsticos.

Na aplicao de Reconhecimento Automtico de Voz para a gerao de closed

caption, normalmente utilizado um relocutor, que ouve a fala espontnea atravs de um fone

de ouvido e a repete em um estdio (AHMER, 2002; INTERNATIONAL

TELECOMMUNICATION UNION, 2011). Com o uso da relocuo, o sistema pode ser

23

adaptado voz do relocutor, reduzindo a complexidade do reconhecimento de voz, por no

precisar considerar a variabilidade fontica entre indivduos. Alm disso, como a relocuo se

d em um ambiente acusticamente controlado, proporciona uma razo sinal/rudo melhor para

o sistema de reconhecimento. Outra vantagem de utilizar a relocuo, que o relocutor pode

reformular a fala, corrigindo as disfluncias comuns na linguagem oral, tornando-a mais

adequada a uma transcrio para a linguagem escrita. Em caso de fala muito rpida (e.g.

locuo esportiva), o relocutor pode resumir a fala, para que a velocidade de exibio do texto

seja suficientemente lenta para permitir a leitura. Para facilitar o processo de reconhecimento,

o relocutor pode ainda falar ou digitar os sinais de pontuao que devem ser utilizados e

acrescentar pausas entre as palavras. Para realizar a relocuo, no necessrio um curso de

formao profissional especfico, sendo uma mo-de-obra mais barata, fcil e rpida de repor

do que um estenotipista. Pela experincia profissional do autor desta dissertao, o custo

operacional da relocuo aproximadamente a metade do custo da estenotipia.

Erros no processo de reconhecimento de voz podem ser atribudos a problemas

com a qualidade da captao e digitalizao do sinal de voz, ao rudo ambiente, s limitaes

dos algoritmos de processamento de sinais e modelos estatsticos empregados, limitao

e/ou baixa qualidade da base de dados empregada no treinamento do sistema, bem como s

diferenas entre a base de dados utilizada no treinamento e a fala a ser reconhecida

(diferenas acsticas, de vocabulrio, de linguagem etc.) (HUANG; ACERO; HON, 2001).

Pode-se notar que a criticidade para o emprego da estenotipia est no fator

humano, enquanto a criticidade para emprego do reconhecimento de voz est em um sistema

computacional. Em princpio, a soluo utilizando reconhecimento de voz mais atrativa para

as emissoras, por possuir um custo operacional menor.

24

3 RECONHECIMENTO AUTOMTICO DE VOZ (RAV)

Como j foi descrito no captulo anterior, o Reconhecimento Automtico de Voz

o processo de converso do sinal acstico da voz em uma transcrio textual correspondente.

Um sistema que implemente tal processo inclui a captao do sinal de voz, sua digitalizao,

processamento digital de sinais e modelos estatsticos. Uma representao esquemtica de um

sistema de Reconhecimento Automtico de Voz, em sua arquitetura mais frequente (AHMER,

2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011), pode ser visualizada

na Figura 1.

Figura 1 Reconhecimento Automtico de Voz


O sinal de udio obtido pela captao (realizada atravs de um microfone) e

digitalizao (que consiste em um processo de amostragem no tempo e quantizao da

amplitude) da fala. Esse sinal passa por um processamento digital que se destina a extrair

parmetros que possam ser teis no processo de reconhecimento de padres fonticos. O

dicionrio fontico e os modelos estatsticos utilizados no reconhecimento (modelo acstico e

modelo de linguagem) so especficos para cada idioma, podendo ser otimizados para

25

determinadas caractersticas de voz, vocabulrio e linguagem. So gerados a partir de uma

base de dados que deve conter: um conjunto de textos (corpus de texto) e um conjunto de

gravaes de fala em segmentos de curta durao com as transcries textuais

correspondentes (corpus de voz) (HUANG; ACERO; HON, 2001).

3.1 UNIDADE FONTICA

Na implementao de um sistema de Reconhecimento Automtico de Voz, deve-

se escolher qual ser a unidade fontica empregada, ou seja, quais sero as menores partes da

fala que sero consideradas no treinamento e, consequentemente, no reconhecimento

realizado pelo sistema (HUANG; ACERO; HON, 2001).

A utilizao de palavras como unidade fontica em um sistema de RAV apresenta

grandes dificuldades para a aplicao em fala contnua com vocabulrio extenso, embora

possa ser empregada em aplicaes de RAV para comando de voz, em que a fala no seja

contnua e o vocabulrio do sistema seja limitado. Na fala contnua, muitas vezes no h

pausas entre as palavras, o que torna difcil a deteco dos limites de cada palavra no tempo

dentro de um sinal de voz. Como o reconhecimento de voz um tipo de reconhecimento de

padres, a utilizao de um vocabulrio extenso (dezenas ou at centenas de milhares de

palavras) torna difcil a obteno de exemplos de udio com transcrio suficientes para

treinar de forma confivel os modelos estatsticos de cada palavra. Alm disso, com o

aumento da quantidade de padres a serem reconhecidos, aumenta a probabilidade de

confuso entre eles (CINCAREK, 2008).

A utilizao de slabas como unidade fontica, embora reduza a quantidade de

padres a serem reconhecidos, pode representar uma quantidade de padres ainda

relativamente alta dependendo do idioma considerado, alm de tambm apresentar problemas

para a deteco de incio e fim das slabas (AHMER, 2002).

A menor unidade sonora distintiva da fala denominada fonema. Pode-se

considerar essa unidade anloga ao grafema (menor unidade distintiva da linguagem escrita,

que nas lnguas com escrita alfabtica um caractere). Note-se, entretanto, que no h uma

relao biunvoca entre grafema e fonema (um grafema pode corresponder a mais de um

fonema e vice-versa). Um aspecto interessante da analogia entre fonema e grafema que

ambos so conceitos abstratos, com uma variedade praticamente infinita de realizaes

concretas. No caso do grafema, essa variedade se deve s diferenas de formatao ou

26

caligrafia; no caso do fonema, deve-se s diferenas fisiolgicas (e.g. voz mais grave ou mais

aguda), psicolgicas (e.g. estado emocional) e culturais (e.g. sotaque) dos falantes, alm dos

efeitos coarticulatrios (o som de um fonema afetado pelo contexto de vizinhana fontica).

A realizao concreta de um fonema denominada fone (HUANG; ACERO; HON, 2001).

A quantidade de fonemas existentes em qualquer idioma bem inferior

quantidade de palavras ou slabas existentes, sendo por isso o fonema uma unidade mais

adequada ao treinamento e ao reconhecimento. A durao dos fonemas tambm apresenta

variabilidade menor que a durao das palavras ou slabas, o que facilita a deteco de incio

e fim (AHMER, 2002).

As variaes fonticas devidas aos falantes podem ser mitigadas atravs do uso de

relocuo (INTERNATIONAL TELECOMMUNICATION UNION, 2011). As variaes

devidas aos efeitos coarticulatrios podem ser levadas em considerao diferenciando os

fonemas pelo contexto de vizinhana fontica, utilizando trifones (um trifone representa um

nico fonema, dados o fonema anterior e o fonema posterior). Contudo, a utilizao de

trifones aumenta a quantidade de padres a serem reconhecidos, o que demanda uma base de

dados maior para o treinamento do sistema. Por vezes, uma soluo de compromisso o

agrupamento de informaes em modelos de trifones semelhantes (CINCAREK, 2008).

3.2 DICIONRIO

Como palavras fora do dicionrio no sero reconhecidas pelo sistema, comum

a necessidade de atualizao frequente do dicionrio, incorporando novas palavras, sobretudo

nomes prprios (AHMER, 2002; HUANG; ACERO; HON, 2001). Contudo, deve-se destacar

que quanto maior o vocabulrio considerado pelo sistema, maior a probabilidade de confuso

entre palavras. Portanto, para maximizar a acurcia do sistema, tambm pode ser interessante

retirar do vocabulrio palavras que no sejam mais utilizadas. Uma estratgia comum extrair

o vocabulrio a partir da anlise das palavras mais comuns do conjunto de textos da base de

dados do treinamento (BROUSSEAU et al., 2003; MARTINS; TEIXEIRA; NETO, 2010).

Dessa forma, tambm podem ser construdos dicionrios especializados, segmentando o

conjunto de textos por assunto (MEINEDO et al., 2003; MIYASAKA, 2004).

A transcrio fontica das palavras do dicionrio pode ser realizada de forma

automtica, utilizando um conjunto de regras de converso grafema-fonema (SILVA, 2010).

Eventualmente, uma mesma palavra no dicionrio pode conter mais de uma transcrio

27

fontica, o que particularmente til se o sistema precisar suportar variaes regionais de

pronncia (HUANG; ACERO; HON, 2001).

3.3 PROCESSAMENTO DIGITAL DE SINAIS

Como j mencionado, o processamento digital de sinais empregado no

Reconhecimento Automtico de Voz se destina a extrair do sinal de udio correspondente

voz captada e digitalizada parmetros que possam ser teis no processo de reconhecimento de

padres fonticos. Considerando a tcnica de extrao de parmetros mais utilizada (MFCC

Mel-Frequency Cepstral Coefficients Coeficientes Cepstrais em Frequncia Mel) (SILVA,

2010; YOUNG et al., 2009), tal processo ser descrito a seguir e est ilustrado na Figura 2.

28

Figura 2 Processamento Digital de Sinais empregado no RAV


Tipicamente, o processamento de sinais utilizado nesta aplicao iniciado por

uma filtragem com a finalidade de maximizar a razo sinal/rudo. Nesse sentido, os

componentes com frequncia acima do espectro da voz so filtrados e o sinal reamostrado a

16 kHz (HUANG; ACERO; HON, 2001), o que tambm ajuda a reduzir a quantidade de

dados a serem processados. utilizado ainda um filtro de pr-nfase para compensar o

decaimento de energia nos componentes de frequncia mais alta da fala, que so essenciais

para a distino fontica. Esse filtro tambm ajuda a reduzir o rudo de baixa frequncia.

A seguir, o sinal segmentado no tempo, tipicamente com um segmento a cada 10

ms, tendo cada segmento a durao entre 20 e 30 ms, curto o bastante para que as

caractersticas do sinal de voz possam ser consideradas uniformes dentro do segmento. Em

cada um desses segmentos aplicada uma funo de janelamento, normalmente a de

29

Hamming, para reduzir o vazamento espectral produzido na anlise desses segmentos

(SEGBROECK, 2010). Das janelas resultantes, so extrados os coeficientes MFCC,

conforme os passos descritos a seguir.

As janelas so processadas por uma DFT (Discrete Fourier Transform

Transformada Discreta de Fourier), uma vez que as diferenas fonticas so mais facilmente

observadas no domnio da frequncia do que no domnio do tempo. Para otimizao de

desempenho computacional, a DFT normalmente calculada atravs de uma FFT (Fast

Fourier Transform Transformada Rpida de Fourier). Como a fase da Transformada de

Fourier no contribui para a diferenciao fontica, calcula-se o espectro de potncia atravs

do quadrado do mdulo da transformada (MESEGUER, 2009).

O espectro de potncia calculado dessa forma possui escala de frequncia linear.

Entretanto, possvel verificar que a utilizao de uma escala de frequncia subjetivamente

linear (Mel) benfica para o reconhecimento de voz. O mapeamento do espectro de

potncia para a escala de frequncia Mel realizado atravs de um banco de filtros. So

utilizados normalmente de 24 a 40 filtros triangulares uniformemente espaados na escala

Mel. Dessa forma, o banco de filtros tambm reduz a dimensionalidade dos dados. Como a

percepo humana de intensidade sonora logartmica, calculado o logaritmo da energia

resultante na sada de cada filtro (CINCAREK, 2008).

Para reduzir ainda mais a dimensionalidade, descorrelacionando o vetor resultante

da etapa anterior, calculada a DCT-II (Type-II Discrete Cosine Transform Transformada

Discreta do Cosseno, Tipo 2), da qual permanecemos apenas com os 12 primeiros

componentes (que concentram a maior parte da informao). A quantidade de bandas do

banco de filtros e a quantidade de componentes utilizados da DCT foi determinada

empiricamente para otimizar a relao performance / custo computacional (MESEGUER,

2009).

A transformada do logaritmo do espectro de potncia denominada de cepstro

(termo derivado da palavra espectro). O termo MFCC se justifica porque no processo

anteriormente descrito, calculamos os coeficientes cepstrais utilizando a transformada do

logaritmo do espectro de potncia na escala de frequncia Mel. O cepstro uma representao

do sinal no domnio da quefrncia (termo derivado da palavra frequncia), que tem a

dimenso de tempo (HUANG; ACERO; HON, 2001).

Uma forma de justificar a utilizao de uma transformao cepstral do sinal para a

extrao de parmetros teis na diferenciao fontica considerando um modelo linear de

30

produo fontica com fonte (sinal produzido pela passagem do ar atravs das pregas vocais)

e canal (filtro acstico da cavidade oronasal, controlado pela abertura da boca e pela posio

da lngua, do palato mole e dos lbios). No domnio do tempo, pode-se caracterizar o canal

atravs da sua resposta ao impulso e o sinal de fala resultante atravs da convoluo da fonte

com a resposta ao impulso do canal. No domnio da frequncia a convoluo substituda

pelo produto dos espectros. No domnio da quefrncia a convoluo substituda pela soma

dos cepstros (HUANG; ACERO; HON, 2001).

Uma transformao que converta uma convoluo em uma soma denominada

homomrfica. Embora a transformao empregada no clculo dos coeficientes MFCC no

seja rigorosamente homomrfica por causa da utilizao do banco de filtros, ela pode ser

considerada aproximadamente homomrfica para filtros com espectro suave, como o caso

do filtro acstico oronasal. Dessa forma, a MFCC favorece a separao entre fonte e canal.

Isso favorece o reconhecimento porque a maior parte da diferenciao fontica se deve s

caractersticas do canal. Da fonte, interessa saber apenas se as cordas vocais esto tensionadas

e, portanto vibrando (como o caso nas vogais e nas consoantes sonoras, nas quais o sinal da

fonte peridico) ou relaxadas e, portanto, no vibrando (como o caso nas consoantes

surdas, nas quais o sinal da fonte no peridico) (HUANG; ACERO; HON, 2001).

Nas lnguas tonais, como o chins, que utilizam a variao de afinao (que est

relacionada frequncia de vibrao das pregas vocais) como elemento de diferenciao

fontica, necessrio extrair a informao da afinao, alm dos coeficientes MFCC. Nas

lnguas no-tonais, como o portugus, a variao de afinao frequentemente utilizada como

elemento de diferenciao prosdica, para distinguir afirmativas de interrogativas, para

indicar ironia etc. Entretanto, os sistemas de Reconhecimento Automtico de Voz

normalmente no se prope a analisar a prosdia, portanto essa informao no extrada do

udio (HUANG; ACERO; HON, 2001).

Alm dos 12 coeficientes MFCC normalmente adicionado ao vetor de

parmetros um componente que representa a energia mdia do sinal, aspecto tambm

considerado importante na diferenciao fontica. A esses 13 componentes, so ainda

adicionados a primeira e a segunda derivada, denominados de coeficientes dinmicos, delta

ou vetores de velocidade e acelerao, que ajudam a caracterizar os efeitos coarticulatrios,

formando um vetor de parmetros ou de caractersticas com 39 coeficientes (SEGBROECK,

2010).

31

O vetor de parmetros ou de caractersticas utilizado no modelo acstico para

reconhecimento dos padres fonticos. possvel otimizar esses parmetros utilizando uma

transformao linear que melhore a separabilidade entre os padres a serem reconhecidos, o

que produz um impacto positivo sobre a acurcia do sistema. Alm disso, tal transformao

descorrelaciona as dimenses do vetor de parmetros e possvel reduzir a dimenso desse

vetor (por exemplo, de 39 para 32) sem reduzir significativamente a acurcia, o que reduz o

custo computacional do reconhecimento. Duas transformaes conhecidas que podem ser

utilizadas em conjunto para aumentar a acurcia e reduzir o custo do reconhecimento so

LDA (Linear Discriminant Analysis) e MLLT (Maximum Likelihood Linear Transform)

(HUANG; ACERO; HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012).

3.4 MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS ACSTICOS

As transcries textuais das gravaes de fala contidas na base de dados utilizada

no treinamento do sistema de Reconhecimento Automtico de Voz so convertidas para uma

sequncia de fonemas de acordo com o dicionrio, para que sejam identificados nos

parmetros extrados do sinal de udio, pela etapa de processamento digital de sinais, padres

correspondentes aos fonemas empregados. A modelagem estatstica desses padres fonticos

denominada Modelo Acstico. Diferentemente do dicionrio, as gravaes de fala

utilizadas no treinamento no precisam conter todas as palavras do vocabulrio do sistema,

mas devem conter exemplos suficientes de todos os fonemas, preferencialmente em todos os

contextos de vizinhana fontica possveis (uma vez que cada fonema pode ter suas

caractersticas alteradas de acordo com o antecessor e o sucessor) (HUANG; ACERO; HON,

2001).

Os modelos acsticos treinados com a voz de diferentes locutores so ditos

independentes de locutor. Contudo, a acurcia mxima quando o sistema pode ser treinado

com a voz a ser reconhecida, produzindo modelos acsticos dependentes de locutor. Mas

como, na prtica, difcil obter gravaes suficientes para treinar adequadamente o modelo

acstico, uma soluo de compromisso comum o que se denomina adaptao de locutor, em

que h um treinamento independente de locutor, que posteriormente adaptado para a voz de

um locutor especfico utilizando uma base de treinamento relativamente pequena. Se a base

de treinamento independente de locutor for suficientemente grande e diversificada, tambm

possvel segment-la, gerando modelos acsticos independentes de locutor, mas agrupados

32

por sexo, idade, sotaque etc. A adaptao de locutor tambm pode ser feita a partir dos

modelos acsticos desses agrupamentos (AHMER, 2002; SILVA, 2010).

Dada uma sequncia de vetores de parmetros X extrada de um sinal de voz

atravs do Processamento Digital de Sinais anteriormente descrito, a tarefa do

Reconhecimento Automtico de Voz determinar a sequncia correspondente de palavras W

mais provvel. Em termos probabilsticos, deseja-se descobrir a sequncia de palavras W que

maximiza a probabilidade condicional P(W|X). Como essa probabilidade no conhecida a

priori, podemos utilizar o teorema de Bayes para inverter essa probabilidade condicional

(CINCAREK, 2008; SILVA, 2010):

! ! ! = !(!|!) !(!) !(!) (1) Como a maximizao de P(W|X) calculada com X fixo, isso equivale a

maximizar:

!(!|!) !(!) (2) Isso permite a separao do problema do Reconhecimento Automtico de Voz em

dois problemas distintos, um modelo acstico, P(X|W), que ser tratado agora, e um modelo

de linguagem, P(W), que ser abordado adiante.

O modelo acstico utiliza, tipicamente, HMM (Hidden Markov Model Modelo

Oculto de Markov). Nesse modelo, assume-se que o processo segue uma sequncia de estados

que no so diretamente observveis. A observao indireta, no caso, corresponde a um vetor

de caractersticas extrado do sinal de voz. Os estados poderiam ser associados aos fonemas

(ou trifones), mas para maior acurcia do sistema, divide-se cada fonema (ou trifone) em trs

estados, denominados senones, sendo o primeiro correspondente ao incio do fonema, cuja

observao influenciada pelo efeito coarticulatrio da transio a partir do fonema anterior,

o segundo estado corresponde parte intermediria e mais estvel do fonema e o terceiro

estado corresponde parte final do fonema, cuja observao influenciada pelo efeito

coarticulatrio da transio para o prximo fonema (HUANG; ACERO; HON, 2001).

Um modelo HMM caracterizado pelas probabilidades iniciais dos estados

(representadas por um vetor), pelas probabilidades de transio entre os estados

(representadas por uma matriz) e pelas probabilidades de observao. As probabilidades de

observao so modeladas, normalmente, por uma mistura de gaussianas, pela flexibilidade

que tal mistura oferece de aproximar qualquer distribuio de probabilidade. Uma mistura de

gaussianas representada pelo vetor das mdias e matriz de covarincia de cada componente

e por um vetor com os pesos de cada componente (SEGBROECK, 2010).

33

Para reduzir a dimensionalidade do modelo pode-se associar as probabilidades dos

estados (senones) semelhantes, tais como os estados intermedirios dos trifones que

representam o mesmo fonema e os estados inicial e final dos trifones que representam o

mesmo fonema e que podem ser agrupadas por categorias fonticas dos fonemas anteriores e

posteriores, respectivamente (YOUNG et al., 2009).

Em alguns idiomas, como o japons, em que a durao um fator de

diferenciao fontica, necessrio modelar a probabilidade de transio de estados como

uma funo do tempo. Nos demais idiomas, como o portugus, embora a durao possa servir

para diferenciao prosdica, indicando nfase ou mesmo o estado emocional do falante,

como os sistemas de Reconhecimento Automtico de Voz normalmente no se propem a

analisar a prosdia, essa modelagem no utilizada (HUANG; ACERO; HON, 2001).

O treinamento de um modelo acstico o processo de estimao das

probabilidades que caracterizam o modelo HMM. O algoritmo mais utilizado para essa

estimao o de Baum-Welch. A transcrio textual dos udios empregados no treinamento

utilizada para gerar, baseada no dicionrio, a transcrio fontica das palavras e, a partir da, a

sequncia de estados correspondentes aos trifones, inserindo estados opcionais de silncio

entre as palavras. O algoritmo por si busca o melhor alinhamento temporal dos estados em

relao sequncia de vetores de caractersticas extrada do sinal de udio e estima as

probabilidades do modelo HMM (AHMER, 2002).

Na adaptao de um modelo acstico para a voz de um locutor especfico

(adaptao de locutor), duas tcnicas so empregadas com frequncia: MLLR (Maximum

Likelihood Linear Regression) e MAP (Maximum a Posteriori). A tcnica MLLR calcula

matrizes de transformao dos vetores de mdias das gaussianas do modelo acstico

independente de locutor de forma a maximizar a probabilidade de observao dos vetores de

parmetros extrados do corpus de adaptao. A tcnica MAP ajusta todos os parmetros do

modelo acstico, interpolando o modelo original com um novo modelo treinado a partir do

corpus de adaptao. O hiperparmetro (tau) usado para controlar o peso do modelo

disponvel a priori. A tcnica MLLR possui custo computacional mais baixo e resulta em

maior acurcia caso o corpus de adaptao seja muito pequeno. A tcnica MAP possui custo

computacional mais alto e resulta em maior acurcia caso o corpus de adaptao seja um

pouco maior. A combinao das tcnicas MLLR e MAP resulta na melhor acurcia para

qualquer tamanho de corpus de adaptao (HUANG; ACERO; HON, 2001; CARNEGIE

MELLON UNIVERSITY, 2012).

34

3.5 MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS DE LINGUAGEM

O conjunto de textos da base de dados de treinamento do sistema de RAV

utilizado na modelagem da probabilidade de palavras e sequncias de palavras, no que se

denomina Modelo de Linguagem (SILVA, 2010; SEGBROECK, 2010). Para maximizar a

acurcia, os textos devem possuir similaridade de vocabulrio e estilo de linguagem com a

fala a ser reconhecida (HUANG; ACERO; HON, 2001). Para um sistema com uso previsto

em situaes com assuntos (e, portanto, vocabulrios e estilos de linguagem) muito distintos,

comum segmentar a base de dados de textos por assunto, produzindo modelos de linguagem

diferenciados, a serem selecionados em cada situao (AHMER, 2002). comum, assim

como no caso do dicionrio, a necessidade de atualizao frequente dos modelos de

linguagem, para incorporao de novos assuntos e atualizao do vocabulrio (MARTINS;

TEIXEIRA; NETO, 2010; LAMBOURNE et al., 2004; BOULIANNE et al., 2006).

O modelo de linguagem utiliza, tipicamente, cadeias de Markov para modelar a

probabilidade de ocorrncia de uma sequncia de palavras. Idealmente, o clculo da

probabilidade de ocorrncia de uma palavra deveria levar em conta todo o histrico de

palavras anteriores. Isso, obviamente, no factvel. possvel, contudo, obter uma

aproximao razovel, limitando o tamanho do histrico considerado (uma vez que a

dependncia estatstica da ocorrncia de uma palavra com a ocorrncia de outra anterior reduz

com o aumento da distncia entre elas). Isso nos leva ao modelo denominado N-Grama, onde

N o nmero de palavras consideradas em sequncia. Normalmente so utilizados trigramas,

em que a probabilidade de uma palavra condicionada s duas palavras anteriores,

constituindo um modelo de Markov de segunda ordem (CINCAREK, 2008; SILVA, 2010).

O treinamento do modelo de linguagem utiliza apenas uma base de texto e os

parmetros podem ser estimados por uma simples contagem da frequncia de ocorrncia dos

trigramas. Entretanto, dessa forma, os trigramas que no ocorressem no treinamento do

modelo de linguagem nunca seriam considerados no Reconhecimento Automtico de Voz,

uma vez que seriam associados a uma probabilidade nula. Esse problema seria frequente, uma

vez que o sistema de RAV precisa lidar com um vocabulrio muito grande (dezenas ou

centenas de milhares de palavras) e o nmero de trigramas possveis seria aproximadamente o

tamanho do vocabulrio ao cubo, enquanto a base de texto utilizada no treinamento sempre

limitada. A soluo para isso a utilizao de um algoritmo de suavizao, que reduza um

pouco a probabilidade de ocorrncia dos trigramas mais frequentes e aumente a probabilidade

35

dos menos frequentes, atribuindo uma probabilidade pequena, mas no nula, aos trigramas

que no ocorrerem no treinamento. O algoritmo de suavizao mais utilizado o de Kneser-

Ney (YOUNG et al., 2009).

Note-se que, embora o modelo de linguagem no leve em conta explicitamente a

gramtica, sintaxe ou semntica da lngua, esses elementos esto de certa forma implcitos,

uma vez que influenciam a probabilidade de ocorrncia de uma sequncia de palavras

(HUANG; ACERO; HON, 2001).

3.6 DECODIFICAO

A decodificao basicamente um processo de busca. O sistema de

Reconhecimento Automtico de Voz busca a sequncia de palavras mais provvel, a partir do

vocabulrio definido no dicionrio e dados os modelos acstico e de linguagem, para a

sequncia de parmetros extrada do sinal de voz captado, digitalizado e processado


O espao de busca pode ser definido em um nico modelo HMM integrando os

modelos acstico, P(X|W), e de linguagem, P(W), em que, opcionalmente, pode-se atribuir

empiricamente um peso diferenciado (LW) para o modelo de linguagem, P(W)LW, para

otimizar a acurcia. O modelo de linguagem tambm funciona como uma penalidade para

inserir novas palavras durante a decodificao (com uma penalidade pequena o decodificador

prefere utilizar mais palavras de menor durao e com uma penalidade alta o decodificador

prefere utilizar menos palavras de maior durao). Ao modificar o peso do modelo de

linguagem, essa penalidade alterada. Uma penalidade para insero de novas palavras (IP)

pode ser includa no modelo de linguagem, P(W)LW . IPN(W), onde N(W) o nmero de

palavras, podendo tambm ser ajustada empiricamente para maximizar a acurcia (HUANG;

ACERO; HON, 2001).

A sequncia de estados pode ser organizada na forma de uma rvore ou grafo.

Uma busca de todas as sequncias de estados possveis para uma decodificao teria, em

princpio, complexidade exponencial, O(NT), onde N o nmero de estados possveis a cada

transio de estados (que por sua vez, proporcional ao tamanho do vocabulrio) e T o

tempo. Para otimizar essa busca, utilizado, tipicamente, o algoritmo de Viterbi. Esse

algoritmo baseado no princpio da Programao Dinmica, de dividir um problema

complexo recursivamente em problemas mais simples, armazenando os resultados parciais

36

para evitar a necessidade de reclculos. O algoritmo de Viterbi, armazena para cada estado, a

melhor (mais provvel) sequncia de estados at aquele e a respectiva probabilidade,

reduzindo a complexidade para O(N2T). Ao final da decodificao, basta verificar o estado

mais provvel e recuperar a informao armazenada sobre o melhor caminho at aquele

estado (SILVA, 2010; SEGBROECK, 2010).

Outra otimizao comum a representao da probabilidade de transio de

estados atravs do seu logaritmo, substituindo as operaes de multiplicao por somas, a

representao em ponto flutuante por ponto fixo e permitindo uma maior faixa dinmica para

os valores envolvidos, evitando erros de aproximao numrica (especialmente o underflow)

(YOUNG et al., 2009).

A organizao do espao de busca em uma rvore lexical, em que cada ramo

representa um fonema e as folhas representam as palavras, previne o clculo

desnecessariamente replicado das probabilidades dos estados iniciais das diversas palavras

que compartilham os mesmos fonemas inicias (o que particularmente til na lngua

portuguesa, pelo grande nmero de flexes de palavras existentes). As probabilidades do

modelo de linguagem podem ser fatoradas ao longo dos ramos da rvore para que possam ser

levadas em considerao desde o incio da busca, mas empregando um modelo de linguagem

N-Grama, devem ser consideradas em relao ao contexto das palavras anteriormente

decodificadas (HUANG; ACERO; HON, 2001).

Idealmente, a busca deveria considerar todas as hipteses possveis para a

sequncia de estados. Como o clculo de todos os caminhos possveis dentro da rvore ou

grafo do espao de busca pode ser proibitivo pelo tamanho do vocabulrio e pela

complexidade do modelo (e.g. utilizando trigramas, trifones e probabilidades de observao

modeladas pela mistura de vrias gaussianas), a busca pode ser otimizada

computacionalmente se forem desconsiderados (podados) os ramos mais improvveis.

Note-se que h o risco de desconsiderar prematuramente um ramo pertencente ao caminho

com maior probabilidade global, introduzindo erros de decodificao devido a essa poda.

Trata-se de uma deciso de compromisso entre custo computacional e acurcia (YOUNG et

al., 2009).

H vrios mecanismos de poda empregados na decodificao dos sistemas de

RAV. O mais frequente o controle de feixe (beam), empregado em conjunto com o

algoritmo de Viterbi, em que so expandidos apenas os ramos cuja probabilidade no caia

abaixo de um limiar proporcional probabilidade do ramo mais provvel. Outra possibilidade

37

a gerao de uma lista dos N-Melhores caminhos utilizando uma primeira decodificao

mais rpida, com modelos simplificados (e.g. bigramas, monofones, probabilidades de

observao modeladas pela mistura de menos gaussianas). A seguir, so calculadas as

probabilidades dos caminhos escolhidos, utilizando modelos acsticos e de linguagem mais

refinados, para escolher o caminho mais provvel e, portanto, a decodificao mais provvel


38

4 GERAO DE LEGENDA OCULTA COM RAV NO MUNDO

4.1 JAPO

No Japo, de acordo com Miyasaka (2004), desde 2000 a emissora NHK utiliza

um software de Reconhecimento Automtico de Voz para gerao de legenda oculta ao vivo

em telejornais, por ela desenvolvido, para atender os requisitos tcnicos desejados por essa

emissora (acurcia mnima de 95% e latncia mxima de 2 segundos), porque o software

comercial disponvel, IBM ViaVoice em japons, no atendia a tais requisitos. O sistema

utilizava modelos acsticos adaptados para cada apresentador de telejornal, sem utilizar

relocuo. Antes de cada telejornal, o modelo de linguagem era atualizado utilizando os

rascunhos das matrias disponveis. Embora o software desenvolvido atendesse o requisito de

95% de acurcia, para que no houvesse erro algum na legenda oculta, o sistema inclua

quatro operadores: dois para revisar frases alternadas marcando as palavras erradas e, para

cada revisor, um operador para corrigir as palavras erradas marcadas.

De acordo com Homma et al. (2008), desde 2001 a NHK passou a empregar,

sobretudo em emissoras afiliadas sua rede, um sistema com apenas um ou dois operadores

para realizar as correes, em que as palavras erradas so selecionadas em um monitor

sensvel ao toque e corrigidas pelo mesmo operador. Com dois operadores, no

Reconhecimento Automtico de Voz de telejornais com apenas um apresentador, o sistema

chegou a obter 99,9% de acurcia e 99,8% com apenas um operador. A emissora passou

tambm a utilizar Reconhecimento Automtico de Voz para gerao de legenda oculta ao

vivo em outros programas, alm de telejornais, empregando relocuo.

Sako e Ariki (2005) relatam a implementao de um sistema de Reconhecimento

Automtico de Voz para produzir closed caption para a transmisso de jogos de beisebol ao

vivo. O sistema no emprega relocuo, porm os modelos acsticos so adaptados para o

locutor do jogo. Alm disso, os modelos acsticos so segmentados de acordo com alguns

estados emocionais pr-definidos. Assim, o sistema deve primeiro classificar o estado

emocional da fala, para a seguir escolher qual modelo acstico empregar. Tambm foi

incorporado ao modelo de linguagem uma memria de estado, com significado especfico

para o jogo (e.g. o placar no pode regredir, mudanas no placar normalmente esto

associadas a uma mudana no estado emocional da voz do locutor etc.). A melhoria de

39

acurcia proporcionada pela anlise de estado emocional e memria de estado do jogo foi de

cerca de 1%.

Ohno et al. (2007) relatam o desenvolvimento de um sistema de resumo

automtico de monlogos, para ser usado em conjunto com um sistema de Reconhecimento

Automtico de Voz na gerao de closed caption, porque, de acordo os autores, a velocidade

de exibio do texto era rpida demais para a leitura.

4.2 PORTUGAL

Em Portugal, Meinedo et al. (2003) relatam o desenvolvimento de um software de

Reconhecimento Automtico de Voz para telejornais. A acurcia obtida foi de 85%, com

modelo acstico independente de locutor.

Martins et al. (2010) relatam a implementao de um sistema que atualiza

diariamente o dicionrio e o modelo de linguagem, de forma automtica, utilizando textos de

sites de notcias. Com essa abordagem, conseguiram reduzir em 88% os erros ocasionados

pela ocorrncia de palavras fora do vocabulrio do sistema.

4.3 REINO UNIDO

No Reino Unido, Evans (2003) relata o uso na BBC de um sistema de

Reconhecimento Automtico de Voz desenvolvido internamente utilizando o software IBM

ViaVoice e empregando relocuo, para a gerao de closed caption em programas ao vivo.

Lambourne et al. (2004) relatam a adoo de um sistema semelhante em trs

outras grandes emissoras britnicas, tambm utilizando o IBM ViaVoice, empregando

relocuo e modelos de linguagem diferenciados de acordo com o assunto. A acurcia obtida

foi de 95 a 98%.

4.4 CANAD

No Canad, de acordo com Boulianne et al. (2006), desde 2004 utiliza-se

regularmente na gerao de legenda oculta ao vivo um software de Reconhecimento

Automtico de Voz para a lngua francesa, desenvolvido em conjunto por uma emissora e um

instituto de pesquisa canadenses.

40

O sistema utiliza relocuo, com modelos acsticos adaptados a partir de modelos

independentes de locutor agrupados por sexo. Utiliza ainda dicionrios e modelos de

linguagem diferenciados por assunto. Os dicionrios, os modelos de linguagem e os modelos

acsticos so atualizados semiautomaticamente. O sistema busca diariamente textos de sites

de notcias correspondentes aos assuntos modelados no sistema, para atualizar os modelos de

linguagem. Quando ocorrem palavras novas, o relocutor precisa valid-las (juntamente com

suas pronncias e associao aos assuntos) na pr-produo dos programas para que sejam

inseridas nos dicionrios. Palavras inativas por muito tempo tambm so removidas do

vocabulrio do sistema. Ainda na pr-produo, o relocutor faz uma breve gravao para

atualizar seu modelo acstico. Durante a produo, o relocutor pode comutar o assunto,

indicar a mudana da pessoa cuja fala est sendo transcrita e inserir pontuao e outros

smbolos utilizando um controle de videogame. Aps a produo, o relocutor pode corrigir os

erros do reconhecimento para que a transcrio corrigida seja utilizada na atualizao dos

modelos acstico e de linguagem. A acurcia obtida pelo sistema variou entre 89 e 93%, com

latncia de dois segundos, alm de um segundo de latncia da relocuo.

Cardinal et al. (2007) relatam o desenvolvimento de um sistema de correo em

tempo real de legendas ocultas para ser usado em conjunto com um sistema de

Reconhecimento Automtico de Voz. Alm de permitir a digitao das palavras corrigidas, o

sistema sugere, para cada palavra, uma lista de alternativas baseada nos erros de

reconhecimento mais comuns observados.

4.5 ESLOVNIA

Na Eslovnia, devido falta de gravaes de fala com transcrio textual em

quantidade suficiente para um treinamento adequado dos modelos acsticos, Zgank (2010)

props uma metodologia para incorporar gravaes sem transcrio na base de dados,

treinando o sistema inicialmente apenas com as gravaes com transcrio disponveis,

utilizando o sistema para fazer uma transcrio automtica das gravaes sem transcrio,

associando a essas transcries um escore de confiana, e aproveitando em um novo

treinamento do sistema apenas as gravaes cujas transcries automticas obtiveram os

escores de confiana mais altos (descartando 10% das transcries, aquelas com escores de

confiana mais baixos). Pelos resultados experimentais que ele obteve, o acrscimo dessas

gravaes transcritas automaticamente na base de treinamento do sistema melhorou

41

significativamente a acurcia do mesmo. A acurcia obtida foi de 82%, mas como se trata de

um modelo acstico independente de locutor, pode-se esperar obter uma acurcia

significativamente mais alta empregando-se adaptao de locutor.

4.6 BRASIL

O primeiro software de reconhecimento de voz comercial que surgiu para o

Portugus do Brasil e que foi empregado nesta aplicao foi o IBM ViaVoice. Este produto

foi desenvolvido e comercializado pela IBM at 2003, quando foi vendido para a ScanSoft,

posteriormente adquirida pela Nuance (IBM, 2008). Nem a ScanSoft, nem a Nuance deram

continuidade ou desenvolveram produtos para substituir o ViaVoice em Portugus do Brasil.

Com isso, o software no dispe mais de suporte corretivo ou evolutivo. Eventualmente ele

pode deixar de funcionar com sistemas operacionais mais novos. Alm disso, a quantidade de

licenas existentes limitada.

Note-se que o IBM ViaVoice nem era um produto otimizado para aplicao na

gerao de legenda oculta: tratava-se de um sistema de Reconhecimento Automtico de Voz

para utilizao como interface homem-mquina. Como tal, era um produto desenvolvido para

funcionar como um processo em segundo plano, em computadores de uso domstico da

poca. Emissoras de televiso e outras empresas desenvolveram interfaces para a gerao de

legendas ocultas utilizado o ViaVoice. Como j mencionamos que parte dos erros do

reconhecimento de voz se devem s limitaes dos algoritmos de processamento de sinais e

modelos estatsticos empregados, pode-se imaginar que hoje seria possvel utilizar algoritmos

e modelos mais precisos e complexos, na medida em que a tecnologia de reconhecimento de

voz evoluiu nesse perodo e na medida em que a capacidade computacional aumentou desde a

descontinuidade do ViaVoice. E ainda mais se considerarmos que no precisamos nos limitar

a computadores de uso domstico, mas podemos utilizar at mesmo um conjunto de

servidores realizando processamento distribudo. E, obviamente, neste contexto, o sistema de

reconhecimento de voz no precisa ser considerado um processo secundrio no(s)

computador(es) em que estiver sendo executado.

De fato, alguns dos sistemas de reconhecimento de voz mais bem sucedidos

atualmente utilizam o paradigma de computao em nuvem (cloud computing), como, por

exemplo, a pesquisa por voz do Google (GOOGLE, 2012) e o Apple Siri (APPLE, 2011).

42

Dessa forma, esto livres da limitao da capacidade computacional dos usurios (o que

especialmente til para aplicaes embarcadas em dispositivos mveis).

Recentemente, uma empresa que atua na rea de Reconhecimento Automtico de

Voz para gerao de closed caption em Portugal (Voice Interaction) entrou no mercado

brasileiro, treinando seus sistemas para o Portugus do Brasil e fazendo parcerias comerciais

com empresas que implementam codificadores de legenda oculta para o Sistema Brasileiro de

TV Digital. Existem dois produtos dessa empresa sendo utilizados na gerao de legendas

ocultas ao vivo no Brasil: o Audimus.Media (VOICE INTERACTION, 2014a) e o

VoxControl (VOICE INTERACTION, 2014b). O principal produto o Audimus.Media, que

possui entretanto a restrio de no poder ser adaptado voz de um relocutor, utilizando um

sistema independente de locutor, o que limita a acurcia. O segundo produto, VoxControl,

embora permita a adaptao de locutor, utiliza um sistema de reconhecimento mais simples,

que no foi concebido para a aplicao na gerao de legenda oculta, mas sim como um

sistema de interface homem-mquina otimizado para execuo como um processo em

segundo plano em computadores domsticos, o que tambm limita a acurcia.

Apesar de existirem poucas opes de software comercial que possam ser

empregadas no Reconhecimento Automtico de Voz do Portugus do Brasil, existem diversas

opes de software livre que podem ser consideradas: HTK (CAMBRIDGE UNIVERSITY,

2009) da Universidade de Cambridge, CMU Sphinx (CARNEGIE MELLON UNIVERSITY,

2012) da Universidade Carnegie Mellon, Julius (KYOTO UNIVERSITY, 2012) da

Universidade de Kyoto, Simon (SIMON LISTENS, 2012) da Organizao Simon Listens,

RWTH ASR (RWTH AACHEN UNIVERSITY, 2012) da Universidade Tcnica de Aachen,

iATROS (UNIVERSIDAD POLITCNICA DE VALENCIA, 2011) da Universidade

Politcnica de Valncia, SHoUT (UNIVERSITY OF TWENTE, 2010) da Universidade de

Twente, ISIP ASR (MISSISSIPPI STATE UNIVERSITY, 2007) da Universidade Estadual

do Mississippi etc. Esses sistemas implementam em software os algoritmos de processamento

de sinais e modelos estatsticos utilizados no Reconhecimento Automtico de Voz, mas para

serem aplicados ao Portugus do Brasil necessitam de treinamento com bases de dados

correspondentes a este idioma. O treinamento desses sistemas utiliza ferramentas distribudas

juntamente com alguns deles, alm de outras distribudas separadamente, como o SRILM

(SRI INTERNATIONAL, 2011) da SRI International.

Como j mencionado anteriormente, o treinamento um aspecto crtico para o

bom funcionamento de um sistema de Reconhecimento Automtico de Voz. E sendo o

43

portugus, ao contrrio do ingls, uma lngua altamente flexiva (em que as palavras podem

sofrer flexo de gnero, nmero, modo, tempo e pessoa), o vocabulrio a ser considerado

aumenta substancialmente, o que tende a ter um impacto negativo na acurcia do

reconhecimento. A gramtica do portugus, novamente ao contrrio do ingls, tambm

relativamente livre quanto ordem das palavras, o que torna os modelos de linguagem mais

complexos e tambm tende a ter um impacto negativo na acurcia do sistema. Essas duas

diferenas entre os idiomas portugus e ingls apontam para a necessidade de bases de dados

para o treinamento de um sistema de Reconhecimento Automtico de Voz em portugus

maiores do que seria necessrio em ingls, para se obter a mesma acurcia. Entretanto, o que

ainda se observa que dispomos de bases de dados significativamente menores.

As bases de dados necessrias para o treinamento de um sistema de

reconhecimento de voz so de dois tipos: conjuntos de textos (corpus de texto) e gravaes de

voz com transcrio textual (corpus de voz). relativamente fcil gerar um corpus de texto

arbitrariamente grande a partir de textos disponveis na internet, por exemplo, mas no

simples gerar um corpus de voz adequado, pois ele deveria idealmente conter centenas de

horas de gravao de voz de centenas de pessoas divididas em segmentos de curta durao

com a transcrio textual correspondente a cada segmento.

Existem alguns corpora de voz para o Portugus do Brasil que esto disponveis

comercialmente, a saber:

Spoltech (OREGON HEALTH & SCIENCE UNIVERSITY, 2009a) (4 horas,

477 locutores, ambiente no controlado - US$ 50.00 para licena acadmica e

US$ 3000.00 para licena comercial);

West Point (LINGUISTIC DATA CONSORTIUM, 2008) (8 horas, 68

homens e 60 mulheres, ambiente no controlado - licena por US$ 500.00);

GlobalPhone (EUROPEAN LANGUAGE RESOURCES ASSOCIATION,

2008) (24 horas, 54 homens e 48 mulheres, ambiente no controlado - 700

Euros para licena acadmica e 3600 Euros para licena comercial);

OGI-22 (OREGON HEALTH & SCIENCE UNIVERSITY, 2009b) (3 horas,

gravaes telefnicas, ambiente no controlado - US$ 50.00 para licena

acadmica e US$ 3000.00 para licena comercial).

Uma das iniciativas que buscam disponibilizar publicamente um corpus de voz

para o treinamento de sistemas de Reconhecimento Automtico de Voz em Portugus (do

Brasil e de Portugal) a do site VoxForge (VOXFORGE, 2014a). Em maio de 2014, o site

44

informava ter 2,8 horas de gravao em ambiente no controlado (2% da meta deles), da voz

de diversos voluntrios (VOXFORGE, 2014b).

Existe tambm um pequeno corpus de Portugus do Brasil desenvolvido pela

Universidade de Lisboa e disponvel publicamente (CENTRO DE LINGUSTICA DA

UNIVERSIDADE DE LISBOA, 1997) (2 horas, 12 homens e 13 mulheres, ambiente no

controlado, segmentos de longa durao).

Outra iniciativa importante de ser citada a do grupo FalaBrasil

(UNIVERSIDADE FEDERAL DO PAR, 2009), da Universidade Federal do Par. Eles

desenvolveram alguns corpora de voz, a saber:

Constituio1.0 (com a voz de um nico locutor masculino em ambiente

acstico controlado de estdio, com 9 horas de durao, disponvel

publicamente);

LapsBenchMark1.4 (total de 54 minutos de gravao em ambiente no

controlado, utilizando 25 homens e 10 mulheres com a mesma durao,

disponvel publicamente);

LapsMail1.0 (total de 84 minutos de gravao em ambiente no controlado,

utilizando 21 homens e 4 mulheres com a mesma durao, udio disponvel

publicamente, porm transcrio textual no);

LapsStory (total de 5 horas e 19 minutos, construdo atravs da segmentao e

transcrio manual de audiolivros, porm no disponibilizado publicamente

devido s restries de direitos autorais dos audiolivros utilizados).

Em um dos trabalhos do grupo (BATISTA, 2013), relata-se o uso de um corpus

de voz do Centro de Estudos de Telecomunicaes da PUC-Rio que teria cerca de 130 horas,

porm no foi possvel obter informaes adicionais sobre esse corpus.

Alm de disponibilizar alguns corpora de voz, o grupo FalaBrasil j possui uma

experincia considervel e bons resultados no treinamento de diversos sistemas em software

livre para o Portugus do Brasil e na integrao desses sistemas para algumas aplicaes

especficas (interface homem-mquina: ditado e comandos de voz). Entretanto, as diferenas

entre essas aplicaes e a aplicao de gerao de legenda oculta dificulta qualquer

comparao dos resultados obtidos.

Como todos os corpora de voz disponveis (mesmo os pagos) podem ser

insuficientes para o treinamento de um sistema de Reconhecimento Automtico de Voz em

Portugus do Brasil com acurcia elevada, pode-se considerar outras alternativas para

45

desenvolver novos corpora de voz a partir de recursos disponveis publicamente. Uma

possibilidade desenvolver um corpus de voz a partir do acervo do site Librivox

(LIBRIVOX, 2014), que disponibiliza audiolivros de domnio pblico e que possua, em maio

de 2014, 157 horas de gravaes em portugus do Brasil (em ambiente no controlado) com

23 homens e 13 mulheres (embora a distribuio no seja uniforme: duraes por leitor

variando de menos de um minuto a mais de 110 horas e totalizando 42 horas de voz

masculina e 114 horas de voz feminina). Para utilizar esse material preciso segmentar udio

e texto em pequenas frases. possvel segmentar o udio por pausas de forma automtica. O

desafio segmentar o texto de acordo. No havendo uma forma automtica confivel para

realizar a segmentao do texto a partir da segmentao do udio, essa segmentao teria que

ser feita manualmente, o que seria um processo extremamente demorado.

46

5 AVALIAO DE DESEMPENHO

Utilizando um telejornal, um programa jornalstico sobre sade e um programa de

auditrio, foram avaliados o desempenho da transcrio textual realizada por estenotipia e por

Reconhecimento Automtico de Voz da relocuo, atravs do IBM ViaVoice (IBM, 2008) e

de um sistema utilizando um software livre (CMU Sphinx) (CARNEGIE MELLON

UNIVERSITY, 2012) treinado para o Portugus do Brasil utilizando bases de dados

disponveis publicamente.

O IBM ViaVoice foi utilizado como referncia por ter sido o primeiro software de

Reconhecimento Automtico de Voz em Portugus do Brasil utilizado na gerao de Legenda

Oculta, sendo ainda hoje muito utilizado nesta aplicao.

O CMU Sphinx foi escolhido para esse teste por ser um software de RAV livre

dos mais bem conceituados atualmente, relativamente maduro (desenvolvido desde 1986) mas

que ainda conta com uma comunidade de desenvolvimento bastante ativa, por conter todas as

ferramentas necessrias ao treinamento e teste de um sistema de RAV, por estar

suficientemente bem documentado para permitir a realizao de todos os testes pretendidos e

por adotar uma licena de uso que no restringe a aplicao comercial.

5.1 MATERIAL DE TESTE

Uma representao esquemtica da preparao do material de teste, que ser

descrita de forma pormenorizada a seguir, apresentada na Figura 3.

47

Figura 3 Representao Esquemtica da Preparao do Material de Teste

Fonte: Prprio autor

O computador utilizado na avaliao da estenotipia, da relocuo, do IBM

ViaVoice e nas avaliaes de latncia e consumo de recursos computacionais do sistema de

RAV baseado em software livre foi um Apple MacBook Pro 13 polegadas do final de 2011,

com processador Intel Core i5 de 2,4 GHz, 8 GB de RAM e sistema operacional OS X 10.8.2.

O computador utilizado nos demais testes foi um Apple Mac mini do final de 2012, com

processador Intel Core i5 de 2,5 GHz, 16 GB de RAM e sistema operacional OS X 10.9.4. Tal

diviso no compromete a comparao dos resultados, pois nas avaliaes em que o

desempenho do computador poderia afetar o resultado (latncia e consumo de recursos

computacionais) foi utilizado um nico computador.

Para os testes foram escolhidos o telejornal Bom Dia Brasil,

Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta

Documents

Transcript of Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta