Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta
-
Upload
luiz-fausto-de-souza-brito -
Category
Documents
-
view
58 -
download
2
description
Transcript of Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta
-
UNIVERSIDADE ESTADUAL DO CEAR
CENTRO DE CINCIAS E TECNOLOGIA
MESTRADO PROFISSIONAL EM COMPUTAO APLICADA
LUIZ FAUSTO DE SOUZA BRITO
SISTEMA DE DECISO AUTOMTICO PARA
CONVERSO DE UDIO EM TEXTO NA GERAO DE LEGENDA OCULTA
RIO DE JANEIRO RIO DE JANEIRO
2015
-
LUIZ FAUSTO DE SOUZA BRITO
SISTEMA DE DECISO AUTOMTICO PARA
CONVERSO DE UDIO EM TEXTO NA GERAO DE LEGENDA OCULTA
Dissertao apresentada ao Curso de Mestrado Profissional em Computao Aplicada do Centro de Cincias e Tecnologia da Universidade Estadual do Cear, como requisito parcial obteno do ttulo de mestre em Computao Aplicada. rea de Concentrao: Computao Aplicada. Orientador: Prof. Dr. Flvio Luis de Mello.
RIO DE JANEIRO RIO DE JANEIRO
2015
-
Dados Internacionais de Catalogao na Publicao
Universidade Estadual do Cear
Sistema de Bibliotecas
Brito, Luiz Fausto de Souza.
Sistema de Deciso Automtico para Converso de udio em Texto na Gerao de Legenda Oculta [recurso eletrnico] / Luiz Fausto de Souza Brito 2015.
1 CD-ROM: il. ; 4 pol. CD-ROM contendo o arquivo no formato PDF do trabalho acadmico
com 106 folhas, acondicionado em caixa de DVD Slim (19 x 14 cm x 7 mm).
Dissertao (mestrado profissional) Universidade Estadual do Cear,
Centro de Cincias e Tecnologia, Mestrado Profissional em Computao Aplicada, Rio de Janeiro, 2015.
rea de Concentrao: Computao Aplicada. Orientao: Prof. Dr. Flvio Luis de Mello. 1. Computao. 2. Sistemas de Apoio Deciso. 3. Legenda Oculta. 4.
Reconhecimento Automtico de Voz. I. Ttulo.
-
LUIZ FAUSTO DE SOUZA BRITO
SISTEMA DE DECISO AUTOMTICO PARACONVERSO DE AUDIO EM TEXTO NA GERAO DE LEGENDA OCULTA
Aprovada em: 27 de abril de 2015.
BANCA
/
Prof. Dr. Flvio Luis de Mello (Orientador)
Dissertao apresentada ao Curso de MestradoProfissional em Computao Aplicada doCentro de Cincias e Tecnologia daUniversidade Estadual do Cear, comorequisito parcial obteno do ttulo de mestreem Computao Aplicada. rea deConcentrao: Computao Aplicada.
_EXAMINADORA' 7/
Universidade Federal do Rio de Janeiro - UFRJ
Prof. Dr Marcos Jo ' Negr iros GomesUniversi ade Estadual do Cear - UECE
Prof. Dr. Francisco Henrique de Freitas Viana
Centro Federal de Educao Tecnolgicado Rio de Janeiro - CEFET/RJ
Prof. Dr. Luiz Wagner Pereira Biscainho
Universidade Federal do Rio de Janeiro - UFRJ
-
memria do meu pai, meu maior mestre
nessa vida. minha me, fonte de serenidade.
minha esposa, meu apoio incondicional.
Aos meus filhos, minha eterna alegria. Ao meu
Deus, fonte da perseverana.
-
AGRADECIMENTOS
A Deus, verdadeira fonte de toda sabedoria. minha esposa, por todo suporte que me d. Aos
meus filhos, por inspirarem e alegrarem os meus dias. Aos meus pais, pela educao que me
deram. Aos professores Flvio Mello e Edilberto Strauss, pela pacincia, compreenso e
apoio. A todos que, de alguma forma, me ajudaram a chegar at aqui, o meu muito obrigado.
-
Assim tambm vs: se vossa lngua s
profere palavras ininteligveis, como se
compreender o que dizeis? Sereis como quem
fala ao vento.
(1Cor 14, 9)
-
RESUMO
Este trabalho se prope a analisar uma soluo computacional para o problema de gerao de
legenda oculta em programas de televiso produzidos ao vivo e que contenham fala
espontnea, decidindo automaticamente a melhor transcrio de um sinal de udio em
Portugus do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de
Reconhecimento Automtico de Voz em Portugus do Brasil, tendo em vista a otimizao da
acurcia. A busca de tal soluo se torna crtica pela falta de opes satisfatrias no mercado,
pela necessidade de garantir a acessibilidade do contedo televisivo para as pessoas com
deficincia auditiva e tambm para o cumprimento de legislao especfica. A anlise dos
resultados obtidos demonstra que possvel desenvolver um sistema a partir de software livre
e de bases de dados disponveis publicamente que obtenha um desempenho superior
estenotipia e aos sistemas comerciais de Reconhecimento Automtico de Voz em Portugus
do Brasil atualmente disponveis.
Palavras-Chave: Computao. Sistemas de Apoio Deciso. Legenda Oculta.
Reconhecimento Automtico de Voz.
-
ABSTRACT
This study aims to analyze a computational solution to the problem of generating closed
captions on live television programs containing spontaneous speech. The system may
automatically decide the best transcription of an audio signal in Brazilian Portuguese to the
corresponding text. To that end, it investigates Brazilian Portuguese Automatic Speech
Recognition systems in order to optimize their accuracy. The search for such a solution
becomes critical due to the lack of satisfactory options in the market, the need to provide
television content accessibility for hearing impaired people and also the compulsory
fulfillment of specific legislation. The analysis of the results that have been achieved shows
that it is possible to develop a system based on free software and publicly available databases
that gets a superior performance compared to stenotyping and currently available commercial
Brazilian Portuguese Automatic Speech Recognition systems.
Keywords: Computing. Decision Support Systems. Closed Caption. Automatic Speech
Recognition.
-
LISTA DE ILUSTRAES
Figura 1 ! Reconhecimento Automtico de Voz ................................................................ 24!
Figura 2 ! Processamento Digital de Sinais empregado no RAV .................................... 28!
Figura 3 ! Representao Esquemtica da Preparao do Material de Teste ............... 47!
Figura 4 ! Extrao de arquivo VRO do Disco Rgido ..................................................... 48!
Figura 5 ! Extrao de closed caption de arquivo VRO ................................................... 50!
Figura 6 ! Extrao de udio em formato WAV a partir de arquivo MPEG ................ 55!
Figura 7 ! Exemplo de marcao de tempo de fim de frase no udio do programa
e no texto extrado do closed caption ................................................................ 56!
Figura 8 ! Formatos de arquivos e softwares utilizados na relocuo ............................ 57!
Figura 9 ! Ambiente de execuo do IBM ViaVoice ......................................................... 61!
Figura 10 !Extrao dos textos da globo.com .................................................................... 63!
Figura 11 !Fluxo do sinal de udio utilizado na adaptao de locutor do IBM
ViaVoice .............................................................................................................. 64!
Figura 12 !Formatos de arquivos e softwares utilizados na avaliao da latncia
do IBM ViaVoice ................................................................................................ 68!
Figura 13 !Trecho do corpus de texto ................................................................................. 70!
Figura 14 !Segmentao automtica do udio ................................................................... 70!
Figura 15 !Variao da perplexidade do modelo de linguagem do programa Bom
Dia Brasil com o nmero de repeties da transcrio de parte do
programa no corpus de texto ............................................................................. 71!
Figura 16 !Variao da perplexidade do modelo de linguagem do programa Bem
Estar com o nmero de repeties da transcrio de parte do
programa no corpus de texto ............................................................................. 72!
Figura 17 !Variao da perplexidade do modelo de linguagem do programa
Domingo do Fausto com o nmero de repeties da transcrio de
parte do programa no corpus de texto ............................................................. 73!
Figura 18 !Ferramentas utilizadas para criao dos dicionrios e dos modelos de
linguagem ............................................................................................................ 74!
Figura 19 !Lista dos smbolos fonticos utilizados ............................................................. 75!
Figura 20 !Trecho do dicionrio .......................................................................................... 76!
Figura 21 !Representao esquemtica do treinamento do modelo acstico
independente de locutor .................................................................................... 79!
-
Figura 22 !Representao esquemtica da adaptao de locutor .................................... 82!
Figura 23 !Representao esquemtica da decodificao ................................................. 84!
Figura 24 !Variao da acurcia com peso do modelo de linguagem, para o
programa Bom Dia Brasil, utilizando o modelo acstico treinado com
corpus maior ....................................................................................................... 85!
-
LISTA DE TABELAS
! Prazos e cargas horrias mnimas para disponibilizao de closed Tabela 1
caption por faixa horria ................................................................................... 20!
! Prazos de adequao da infraestrutura das estaes analgicas para Tabela 2
transmisso de closed caption, de acordo com a populao da cidade
onde a estao estiver localizada ...................................................................... 21!
! Comparao de textos com e sem alinhamento ............................................... 49!Tabela 3
! Exemplo de trecho de closed caption extrado em dois formatos: Tabela 4
apenas texto e texto com marcao de tempo de cada caractere ................... 51!
! Acurcia da Estenotipia .................................................................................... 52!Tabela 5
! Acurcia da Relocuo ...................................................................................... 58!Tabela 6
! Acurcia do IBM ViaVoice ............................................................................... 64!Tabela 7
! Taxa de palavras fora do dicionrio e perplexidade do modelo de Tabela 8
linguagem ............................................................................................................ 77!
! Impacto sobre a acurcia do nmero de senones e gaussianas do Tabela 9
modelo acstico treinado com uma nica voz masculina ............................... 81!
!Acurcia do sistema de RAV baseado em software livre utilizando Tabela 10
modelo acstico treinado com corpus mais reduzido, com apenas uma
voz masculina ..................................................................................................... 86!
!Acurcia do sistema de RAV baseado em software livre utilizando Tabela 11
modelo acstico treinado com corpus intermedirio, com vozes
masculinas apenas .............................................................................................. 89!
!Acurcia do sistema de RAV baseado em software livre utilizando Tabela 12
modelo acstico treinado com corpus maior, com vozes masculinas e
femininas ............................................................................................................. 92!
!Resumo dos resultados de acurcia obtidos nos testes ................................... 96!Tabela 13
-
LISTA DE ABREVIATURAS E SIGLAS
ABNT Associao Brasileira de Normas Tcnicas
AC-3 Audio Codec 3
CC Closed Caption
CMU Carnegie Mellon University
CPU Central Processing Unit
DCT Discrete Cosine Transform
DCT-II Type-II Discrete Cosine Transform
DFT Discrete Fourier Transform
FFT Fast Fourier Transform
HMM Hidden Markov Model
HTML HyperText Markup Language
IBGE Instituto Brasileiro de Geografia e Estatstica
IBM International Business Machines Corporation
LDA Linear Discriminant Analysis
MAP Maximum a Posteriori
MB Mega Bytes
MFCC Mel-Frequency Cepstral Coefficients
MLLR Maximum Likelihood Linear Regression
MLLT Maximum Likelihood Linear Transform
MOV QuickTime Movie
MPEG Moving Picture Experts Group
MPEG-2 Moving Picture Experts Group Standard 2
NHK Nippon Hs Kykai
PCM Pulse-Code Modulation
RAM Random-Access Memory
RAV Reconhecimento Automtico de Voz
SD Standard Definition
TV Televiso
UFPA Universidade Federal do Par
VRO Video Recording Object File
WAV Waveform Audio File Format
WER Word Error Rate
-
SUMRIO
1! INTRODUO ............................................................................................................. 15!
1.1! TEMA ............................................................................................................................. 15!1.2! DELIMITAO ............................................................................................................. 15!1.3! JUSTIFICATIVA ............................................................................................................ 15!1.4! OBJETIVOS ................................................................................................................... 16!1.5! METODOLOGIA ........................................................................................................... 16!1.6! ORGANIZAO DA DISSERTAO ........................................................................ 16!2! LEGENDA OCULTA ................................................................................................... 18!
2.1! ACESSIBILIDADE ........................................................................................................ 18!2.2! LEGISLAO ................................................................................................................ 20!2.3! ESTENOTIPIA ............................................................................................................... 22!2.4! RECONHECIMENTO AUTOMTICO DE VOZ ........................................................ 22!3! RECONHECIMENTO AUTOMTICO DE VOZ (RAV) ....................................... 24!
3.1! UNIDADE FONTICA .................................................................................................. 25!3.2! DICIONRIO ................................................................................................................. 26!3.3! PROCESSAMENTO DIGITAL DE SINAIS ................................................................. 27!3.4! MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS ACSTICOS ........ 31!3.5! MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS DE
LINGUAGEM ................................................................................................................. 34!3.6! DECODIFICAO ........................................................................................................ 35!4! GERAO DE LEGENDA OCULTA COM RAV NO MUNDO ........................... 38!
4.1! JAPO ............................................................................................................................ 38!4.2! PORTUGAL ................................................................................................................... 39!4.3! REINO UNIDO ............................................................................................................... 39!4.4! CANAD ........................................................................................................................ 39!4.5! ESLOVNIA .................................................................................................................. 40!4.6! BRASIL ........................................................................................................................... 41!5! AVALIAO DE DESEMPENHO ............................................................................ 46!
5.1! MATERIAL DE TESTE ................................................................................................. 46!5.2! AVALIAO DA ESTENOTIPIA ................................................................................ 49!5.2.1!Acurcia ......................................................................................................................... 51!
5.2.2!Latncia .......................................................................................................................... 55!
-
5.3! AVALIAO DA RELOCUO ................................................................................. 56!5.3.1!Acurcia ......................................................................................................................... 57!
5.3.2!Latncia .......................................................................................................................... 61!
5.4! AVALIAO DO IBM VIAVOICE ............................................................................. 61!5.4.1!Adaptao do Dicionrio e do Modelo de Linguagem ............................................... 62!
5.4.2!Adaptao do Modelo Acstico .................................................................................... 63!
5.4.3!Acurcia ......................................................................................................................... 64!
5.4.4!Latncia .......................................................................................................................... 67!
5.4.5!Consumo de recursos computacionais ........................................................................ 68!
5.5! AVALIAO DE UM SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE ............................................................................................................................. 69!
5.5.1!Criao do Dicionrio e do Modelo de Linguagem .................................................... 69!
5.5.2!Taxa de palavras fora do dicionrio e perplexidade do modelo de linguagem ....... 76!
5.5.3!Treinamento do Modelo Acstico ................................................................................ 77!
5.5.4!Adaptao do Modelo Acstico .................................................................................... 81!
5.5.5!Acurcia ......................................................................................................................... 83!
5.5.6!Latncia .......................................................................................................................... 95!
5.5.7!Consumo de recursos computacionais ........................................................................ 95!
5.6! ANLISE DOS RESULTADOS .................................................................................... 95!6! CONCLUSO E TRABALHOS FUTUROS ............................................................. 99!
6.1! CONCLUSO ................................................................................................................ 99!6.2! TRABALHOS FUTUROS ............................................................................................. 100! REFERNCIAS ........................................................................................................... 102!
-
15
1 INTRODUO
1.1 TEMA
O tema deste trabalho o desenvolvimento de um sistema de deciso automtico
para converso de udio em texto na gerao de legenda oculta a partir de software livre e de
bases de dados disponveis publicamente.
1.2 DELIMITAO
Este trabalho pretende examinar os sistemas computacionais por trs do
Reconhecimento Automtico de Voz (RAV) na gerao de legenda oculta, ou seja, sistemas
capazes de realizar um processo de deciso automtica para converso de udio em texto na
gerao de closed caption, utilizando o portugus do Brasil. Neste trabalho no se pretende
desenvolver os algoritmos de processamento digital de sinais ou os modelos estatsticos
envolvidos no Reconhecimento Automtico de Voz. Pretende-se, ao contrrio, avaliar
solues de RAV disponveis, os recursos necessrios ao treinamento para o Portugus do
Brasil e as possibilidades de otimizao da acurcia, levando em considerao as
informaes disponveis sobre a experincia internacional no uso desse tipo de soluo e as
otimizaes especficas para a aplicao de RAV na gerao de legenda oculta j
implementadas.
1.3 JUSTIFICATIVA
Na anlise de maturidade de tecnologias emergentes (Hype Cycle) da
consultoria Gartner publicada em 2014 (GARTNER, 2014), considera-se que a tecnologia de
reconhecimento de voz j est no patamar de produtividade, ou seja, que j se trata de uma
tecnologia relativamente madura com aplicaes no mercado. No entanto, no se pode
considerar que essa tecnologia esteja to madura no Portugus do Brasil quanto est em outras
lnguas, como o Ingls. Este trabalho motivado pela falta de opes satisfatrias de sistemas
comerciais atuais de Reconhecimento Automtico de Voz em Portugus do Brasil para a
aplicao na gerao de legenda oculta ao vivo.
-
16
1.4 OBJETIVOS
O objetivo deste trabalho treinar e avaliar uma das opes de software livre
disponveis, tendo em vista a aplicao na gerao de legenda oculta para programas de
televiso ao vivo com fala espontnea em Portugus do Brasil, com Reconhecimento
Automtico de Voz (RAV) e utilizando relocuo (repetio das falas por um locutor
especfico em um ambiente acusticamente controlado). O treinamento para o Portugus do
Brasil utilizar bases de dados disponveis publicamente.
O desempenho desse sistema ser comparado ao obtido por Estenotipia e pelo
IBM ViaVoice.
Pretende-se ainda examinar os algoritmos de processamento de sinais e modelos
estatsticos utilizados por sistemas de RAV.
Por fim, pretende-se tambm verificar a experincia das emissoras de televiso ao
redor do mundo na utilizao de sistemas de Reconhecimento Automtico de Voz em seus
respectivos idiomas para a aplicao em questo, com foco nas otimizaes implementadas
que possam ser aproveitadas para o Brasil.
1.5 METODOLOGIA
A metodologia a ser empregada no desenvolvimento deste trabalho envolve uma
ampla reviso bibliogrfica, tanto da fundamentao necessria sobre o atual estado da arte de
sistemas de Reconhecimento Automtico de Voz (RAV), quanto das ferramentas e recursos
disponveis publicamente, da aplicao do Reconhecimento Automtico de Voz na gerao de
legendas ocultas ao redor do mundo e do contexto brasileiro. Envolve ainda a realizao de
testes comparativos de desempenho de um sistema de RAV para o Portugus do Brasil a ser
desenvolvido a partir de ferramentas e recursos disponveis publicamente com o desempenho
do IBM ViaVoice e da Estenotipia.
1.6 ORGANIZAO DA DISSERTAO
O Captulo 2 descreve o uso de Legenda Oculta na televiso, sua motivao e os
sistemas utilizados para gerao ao vivo: Estenotipia e Reconhecimento Automtico de Voz.
-
17
No Captulo 3 apresentada uma fundamentao terica sobre o funcionamento
de sistemas de Reconhecimento Automtico de Voz.
No Captulo 4 so apresentadas algumas experincias relatadas por diversos
autores ao redor do mundo sobre a implementao de sistemas de Reconhecimento
Automtico de Voz na gerao de Legenda Oculta.
O Captulo 5 apresenta os resultados de testes comparativos de desempenho de
um sistema de RAV desenvolvido a partir de ferramentas e recursos disponveis publicamente
com o desempenho do IBM ViaVoice e da Estenotipia.
As concluses e propostas de trabalhos futuros so apresentadas no Captulo 6.
-
18
2 LEGENDA OCULTA
2.1 ACESSIBILIDADE
De acordo com os resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO
BRASILEIRO DE GEOGRAFIA E ESTATSTICA, 2012), cerca de 5,1% da populao
brasileira (quase 10 milhes de pessoas) possuem deficincia auditiva. Para que essa
populao tenha acesso ao contedo dos programas de televiso, necessrio que tais
programas disponham de legendas, contendo no apenas a transcrio textual do que falado,
como tambm descries de msicas e efeitos sonoros que sejam necessrios para a melhor
compreenso do contedo sendo exibido. Tais legendas, porm, no devem estar visveis para
todos os telespectadores, apenas para aqueles que assim as desejarem, ativando tal recurso no
receptor de TV. Isso possvel, tanto na transmisso de TV analgica (CONSUMER
ELECTRONICS ASSOCIATION, 2008), quanto na transmisso de TV digital
(ASSOCIAO BRASILEIRA DE NORMAS TCNICAS, 2011), atravs de um recurso
denominado legenda oculta ou closed caption (CC).
Outra possibilidade de prover acessibilidade do contedo televisivo populao
com deficincia auditiva, o uso de uma janela superposta ao vdeo com um intrprete de
Libras (Lngua Brasileira de Sinais). Esse meio de acessibilidade atenderia particularmente
populao com deficincia auditiva no alfabetizada (note-se que, de acordo com os
resultados do Censo Demogrfico 2010 do IBGE (INSTITUTO BRASILEIRO DE
GEOGRAFIA E ESTATSTICA, 2012), o analfabetismo mais prevalente na populao com
deficincia auditiva do que na populao geral). Entretanto, se por um lado nem todos os
deficientes auditivos so alfabetizados, por outro nem todos utilizam a Lngua Brasileira de
Sinais. Dessa forma, a Legenda Oculta e a janela com intrprete de Libras seriam
complementares no provimento da acessibilidade do contedo televisivo populao com
deficincia auditiva. Deve-se notar, entretanto, que a Legenda Oculta muito mais utilizada
que a janela com intrprete de Libras, por diversos motivos:
de acordo com a Lei n 10.436, de 24 de abril de 2002 (BRASIL, 2002), no
que se refere ao ensino pblico a "Lngua Brasileira de Sinais - Libras no
poder substituir a modalidade escrita da lngua portuguesa", o que significa
que todos os deficiente auditivos, assim como todos as demais pessoas,
deveriam ser alfabetizados e dessa forma teriam acesso Legenda Oculta;
-
19
a Lngua Brasileira de Sinais muito pouco conhecida na populao geral,
sendo a modalidade escrita da lngua portuguesa essencial para a integrao da
populao com deficincia auditiva, no que a Legenda Oculta poderia ser um
estmulo e uma ferramenta adicional do processo de alfabetizao;
o uso da janela com intrprete de Libras na televiso obrigatrio apenas na
propaganda poltico-partidria e eleitoral, nas campanhas institucionais e
informativos de utilidade pblica do governo (BRASIL, 2006), e nas vinhetas
de classificao indicativa (BRASIL, 2007);
de acordo com a ABNT NBR 15290:2005 (ASSOCIAO BRASILEIRA
DE NORMAS TCNICAS, 2005), a janela de Libras deve ocupar metade da
altura e um quarto da largura da tela, no que poderia comprometer
significativamente a visualizao integral do vdeo;
embora a Norma Complementar 01, aprovada pela Portaria n 310 do
Ministrio das Comunicaes (BRASIL, 2006), mencione que "o
desenvolvimento e implementao da televiso digital no Brasil dever
permitir o acionamento opcional da janela com intrprete de LIBRAS", tal
recurso opcional na norma de receptores (ASSOCIAO BRASILEIRA
DE NORMAS TCNICAS, 2008a) e na norma de codificao de dados
(ASSOCIAO BRASILEIRA DE NORMAS TCNICAS, 2008b) do
Sistema Brasileiro de TV Digital Terrestre e a codificao de tal recurso no
foi padronizada, de forma que a nica alternativa atualmente disponvel para
utilizao da janela de Libras inclu-la no sinal de vdeo principal, tornando-
a visvel a todos os telespectadores e no apenas aos que desejariam ativar
esse recurso.
Embora a maior motivao para utilizar legendas ocultas na programao da
televiso seja para garantir a acessibilidade aos telespectadores com deficincia auditiva, tal
recurso tambm interessante para o pblico geral em algumas situaes especficas, a saber:
em ambientes nos quais a necessidade de silncio no permite que o som da TV seja
reproduzido ou pelo menos no com volume suficiente para uma compreenso adequada (e.g.
hospitais); em ambientes muito barulhentos em que no seria possvel compreender o udio
da televiso, ainda que reproduzido com volume razovel (e.g. bares e restaurantes); em
ambientes com sonorizao musical (e.g. academia); para permitir que diferentes televisores
reproduzam programas diferenciados em um mesmo ambiente para atender a um pblico
-
20
heterogneo; em ambiente residencial para permitir que se assista TV noite sem incomodar
os demais moradores; para aprendizagem da lngua por parte de estrangeiros ou pessoas em
processo de alfabetizao.
2.2 LEGISLAO
No Brasil, a Lei n 10.098 de 2000 (BRASIL, 2000), criada para estabelecer
normas de acessibilidade, j previa que os servios de radiodifuso de sons e imagens
deveriam adotar medidas tcnicas com o objetivo de permitir o uso de subtitulao, para
garantir o direito de acesso informao s pessoas portadoras de deficincia auditiva.
Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria n 310
do Ministrio das Comunicaes (BRASIL, 2006) estabeleceu prazos, obrigando os
radiodifusores a uma utilizao progressiva de legendas ocultas nas suas programaes. De
acordo com o cronograma estabelecido, em 2017 a totalidade da programao diria das
emissoras e retransmissoras dever dispor de legendas ocultas, como pode ser verificado na
Tabela 1.
Prazos e cargas horrias mnimas para Tabela 1 disponibilizao de closed caption por faixa horria
Prazo Faixa Horria Carga Horria
27/06/2008 08:00 - 14:00 1 h 20:00 - 02:00 1 h
27/06/2009 08:00 - 14:00 2 h 18:00 - 02:00 2 h
27/06/2010 08:00 - 14:00 3 h 18:00 - 02:00 3 h
27/06/2011 08:00 - 14:00 4 h 18:00 - 02:00 4 h
27/06/2012 06:00 - 14:00 6 h 18:00 - 02:00 6 h 27/04/2014 06:00 - 02:00 16 h 27/04/2015 Dia Inteiro 20 h 27/06/2017 Dia Inteiro Totalidade da Programao
Fonte: Prprio autor.
As estaes transmissoras ou retransmissoras analgicas que no suportarem a
transmisso de closed caption devem se adequar de acordo com um prazo estabelecido
conforme a populao da cidade onde a estao estiver localizada, como pode ser observado
-
21
na Tabela 2. As estaes transmissoras ou retransmissoras digitais devem suportar a
transmisso de closed caption desde o princpio da operao.
Prazos de adequao da infraestrutura das estaes analgicas para Tabela 2 transmisso de closed caption, de acordo com a populao da cidade onde a estao
estiver localizada
Prazo Populao 27/06/2008 > 1.000.000 27/06/2010 > 500.000 27/06/2012 > 200.000 27/06/2014 > 100.000 27/06/2016 Qualquer
Fonte: Prprio autor.
Alm disso, a Norma Complementar 01 de 2006 do Ministrio das Comunicaes
estabelece que a produo e veiculao de legendas ocultas deve atender os critrios e
requisitos tcnicos da ABNT NBR 15290:2005. Dentre esses requisitos, consta que o texto
das legendas deve ter 100% de acerto acompanhando o tempo exato da cena para programas
com legenda pr-gravada e deve ter no mnimo 98% de acerto com no mximo 4 segundos de
atraso para programas com legenda ao vivo (ASSOCIAO BRASILEIRA DE NORMAS
TCNICAS, 2005). No consta na norma a metodologia a ser utilizada na aferio desses
valores.
Tais exigncias afetam todas as emissoras de televiso do Brasil, independente do
porte. Mesmo as retransmissoras ou afiliadas das redes de televiso localizadas em cidades de
pequeno e mdio porte devero veicular legendas ocultas para sua programao e
comercializao, inclusive local, atendendo os requisitos tcnicos especificados. O
descumprimento das disposies da norma sujeita as emissoras ou retransmissoras s
penalidades prescritas no Cdigo Brasileiro de Telecomunicaes.
Maximizar a taxa de acerto das legendas ocultas importante no apenas para
cumprir a legislao, como tambm para viabilizar a compreenso das mensagens sendo
veiculadas. Por vezes, apenas uma palavra errada suficiente para modificar profundamente o
significado de um texto.
O maior desafio est na produo de legendas ocultas ao vivo, sobretudo quando
h fala espontnea (sem que haja um texto pr-definido em roteiro). Essa situao ocorre com
-
22
bastante frequncia na programao televisiva: programas de entrevistas, auditrio, religiosos,
variedades, reality shows etc.
Existem atualmente duas formas de produzir as legendas ocultas que se aplicam
transcrio da fala espontnea ao vivo: Estenotipia e Reconhecimento Automtico de Voz.
Quando a fala ao vivo utiliza a leitura de um teleprompt, o texto do teleprompt pode ser
utilizado como legenda oculta. Para a parte da programao que no produzida ao vivo, a
legenda oculta pode ser inserida por digitadores durante o processo de ps-produo.
2.3 ESTENOTIPIA
No caso da estenotipia, um profissional especializado digita as palavras na
velocidade em que as ouve, utilizando smbolos fonticos em um equipamento com teclado
especial (estentipo), conectado a um computador, que utilizando um dicionrio especfico
converte as sequncias de smbolos em palavras.
Um curso de formao profissional em estenotipia dura de seis meses a um ano,
mas normalmente necessrio pelo menos dois anos de prtica para obter a velocidade
necessria para legendagem ao vivo (cerca de 180 palavras por minuto). uma mo-de-obra
relativamente cara, escassa e difcil de repor. De acordo com matria publicada na revista
Galileu de maio de 2012, existem apenas 400 desses profissionais no Brasil (SANT'ANA,
2012), em geral concentrados nas cidades de maior porte.
Erros no processo de estenotipia podem ocorrer tanto por falha humana na
digitao, quanto pela ocorrncia de palavras fora do dicionrio.
2.4 RECONHECIMENTO AUTOMTICO DE VOZ
O Reconhecimento Automtico de Voz o processo de converso do sinal
acstico da voz em uma transcrio textual correspondente. Um sistema que implemente tal
processo inclui a captao do sinal de voz, sua digitalizao, processamento digital de sinais e
modelos estatsticos.
Na aplicao de Reconhecimento Automtico de Voz para a gerao de closed
caption, normalmente utilizado um relocutor, que ouve a fala espontnea atravs de um fone
de ouvido e a repete em um estdio (AHMER, 2002; INTERNATIONAL
TELECOMMUNICATION UNION, 2011). Com o uso da relocuo, o sistema pode ser
-
23
adaptado voz do relocutor, reduzindo a complexidade do reconhecimento de voz, por no
precisar considerar a variabilidade fontica entre indivduos. Alm disso, como a relocuo se
d em um ambiente acusticamente controlado, proporciona uma razo sinal/rudo melhor para
o sistema de reconhecimento. Outra vantagem de utilizar a relocuo, que o relocutor pode
reformular a fala, corrigindo as disfluncias comuns na linguagem oral, tornando-a mais
adequada a uma transcrio para a linguagem escrita. Em caso de fala muito rpida (e.g.
locuo esportiva), o relocutor pode resumir a fala, para que a velocidade de exibio do texto
seja suficientemente lenta para permitir a leitura. Para facilitar o processo de reconhecimento,
o relocutor pode ainda falar ou digitar os sinais de pontuao que devem ser utilizados e
acrescentar pausas entre as palavras. Para realizar a relocuo, no necessrio um curso de
formao profissional especfico, sendo uma mo-de-obra mais barata, fcil e rpida de repor
do que um estenotipista. Pela experincia profissional do autor desta dissertao, o custo
operacional da relocuo aproximadamente a metade do custo da estenotipia.
Erros no processo de reconhecimento de voz podem ser atribudos a problemas
com a qualidade da captao e digitalizao do sinal de voz, ao rudo ambiente, s limitaes
dos algoritmos de processamento de sinais e modelos estatsticos empregados, limitao
e/ou baixa qualidade da base de dados empregada no treinamento do sistema, bem como s
diferenas entre a base de dados utilizada no treinamento e a fala a ser reconhecida
(diferenas acsticas, de vocabulrio, de linguagem etc.) (HUANG; ACERO; HON, 2001).
Pode-se notar que a criticidade para o emprego da estenotipia est no fator
humano, enquanto a criticidade para emprego do reconhecimento de voz est em um sistema
computacional. Em princpio, a soluo utilizando reconhecimento de voz mais atrativa para
as emissoras, por possuir um custo operacional menor.
-
24
3 RECONHECIMENTO AUTOMTICO DE VOZ (RAV)
Como j foi descrito no captulo anterior, o Reconhecimento Automtico de Voz
o processo de converso do sinal acstico da voz em uma transcrio textual correspondente.
Um sistema que implemente tal processo inclui a captao do sinal de voz, sua digitalizao,
processamento digital de sinais e modelos estatsticos. Uma representao esquemtica de um
sistema de Reconhecimento Automtico de Voz, em sua arquitetura mais frequente (AHMER,
2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011), pode ser visualizada
na Figura 1.
Figura 1 Reconhecimento Automtico de Voz
Fonte: Prprio autor.
O sinal de udio obtido pela captao (realizada atravs de um microfone) e
digitalizao (que consiste em um processo de amostragem no tempo e quantizao da
amplitude) da fala. Esse sinal passa por um processamento digital que se destina a extrair
parmetros que possam ser teis no processo de reconhecimento de padres fonticos. O
dicionrio fontico e os modelos estatsticos utilizados no reconhecimento (modelo acstico e
modelo de linguagem) so especficos para cada idioma, podendo ser otimizados para
-
25
determinadas caractersticas de voz, vocabulrio e linguagem. So gerados a partir de uma
base de dados que deve conter: um conjunto de textos (corpus de texto) e um conjunto de
gravaes de fala em segmentos de curta durao com as transcries textuais
correspondentes (corpus de voz) (HUANG; ACERO; HON, 2001).
3.1 UNIDADE FONTICA
Na implementao de um sistema de Reconhecimento Automtico de Voz, deve-
se escolher qual ser a unidade fontica empregada, ou seja, quais sero as menores partes da
fala que sero consideradas no treinamento e, consequentemente, no reconhecimento
realizado pelo sistema (HUANG; ACERO; HON, 2001).
A utilizao de palavras como unidade fontica em um sistema de RAV apresenta
grandes dificuldades para a aplicao em fala contnua com vocabulrio extenso, embora
possa ser empregada em aplicaes de RAV para comando de voz, em que a fala no seja
contnua e o vocabulrio do sistema seja limitado. Na fala contnua, muitas vezes no h
pausas entre as palavras, o que torna difcil a deteco dos limites de cada palavra no tempo
dentro de um sinal de voz. Como o reconhecimento de voz um tipo de reconhecimento de
padres, a utilizao de um vocabulrio extenso (dezenas ou at centenas de milhares de
palavras) torna difcil a obteno de exemplos de udio com transcrio suficientes para
treinar de forma confivel os modelos estatsticos de cada palavra. Alm disso, com o
aumento da quantidade de padres a serem reconhecidos, aumenta a probabilidade de
confuso entre eles (CINCAREK, 2008).
A utilizao de slabas como unidade fontica, embora reduza a quantidade de
padres a serem reconhecidos, pode representar uma quantidade de padres ainda
relativamente alta dependendo do idioma considerado, alm de tambm apresentar problemas
para a deteco de incio e fim das slabas (AHMER, 2002).
A menor unidade sonora distintiva da fala denominada fonema. Pode-se
considerar essa unidade anloga ao grafema (menor unidade distintiva da linguagem escrita,
que nas lnguas com escrita alfabtica um caractere). Note-se, entretanto, que no h uma
relao biunvoca entre grafema e fonema (um grafema pode corresponder a mais de um
fonema e vice-versa). Um aspecto interessante da analogia entre fonema e grafema que
ambos so conceitos abstratos, com uma variedade praticamente infinita de realizaes
concretas. No caso do grafema, essa variedade se deve s diferenas de formatao ou
-
26
caligrafia; no caso do fonema, deve-se s diferenas fisiolgicas (e.g. voz mais grave ou mais
aguda), psicolgicas (e.g. estado emocional) e culturais (e.g. sotaque) dos falantes, alm dos
efeitos coarticulatrios (o som de um fonema afetado pelo contexto de vizinhana fontica).
A realizao concreta de um fonema denominada fone (HUANG; ACERO; HON, 2001).
A quantidade de fonemas existentes em qualquer idioma bem inferior
quantidade de palavras ou slabas existentes, sendo por isso o fonema uma unidade mais
adequada ao treinamento e ao reconhecimento. A durao dos fonemas tambm apresenta
variabilidade menor que a durao das palavras ou slabas, o que facilita a deteco de incio
e fim (AHMER, 2002).
As variaes fonticas devidas aos falantes podem ser mitigadas atravs do uso de
relocuo (INTERNATIONAL TELECOMMUNICATION UNION, 2011). As variaes
devidas aos efeitos coarticulatrios podem ser levadas em considerao diferenciando os
fonemas pelo contexto de vizinhana fontica, utilizando trifones (um trifone representa um
nico fonema, dados o fonema anterior e o fonema posterior). Contudo, a utilizao de
trifones aumenta a quantidade de padres a serem reconhecidos, o que demanda uma base de
dados maior para o treinamento do sistema. Por vezes, uma soluo de compromisso o
agrupamento de informaes em modelos de trifones semelhantes (CINCAREK, 2008).
3.2 DICIONRIO
Como palavras fora do dicionrio no sero reconhecidas pelo sistema, comum
a necessidade de atualizao frequente do dicionrio, incorporando novas palavras, sobretudo
nomes prprios (AHMER, 2002; HUANG; ACERO; HON, 2001). Contudo, deve-se destacar
que quanto maior o vocabulrio considerado pelo sistema, maior a probabilidade de confuso
entre palavras. Portanto, para maximizar a acurcia do sistema, tambm pode ser interessante
retirar do vocabulrio palavras que no sejam mais utilizadas. Uma estratgia comum extrair
o vocabulrio a partir da anlise das palavras mais comuns do conjunto de textos da base de
dados do treinamento (BROUSSEAU et al., 2003; MARTINS; TEIXEIRA; NETO, 2010).
Dessa forma, tambm podem ser construdos dicionrios especializados, segmentando o
conjunto de textos por assunto (MEINEDO et al., 2003; MIYASAKA, 2004).
A transcrio fontica das palavras do dicionrio pode ser realizada de forma
automtica, utilizando um conjunto de regras de converso grafema-fonema (SILVA, 2010).
Eventualmente, uma mesma palavra no dicionrio pode conter mais de uma transcrio
-
27
fontica, o que particularmente til se o sistema precisar suportar variaes regionais de
pronncia (HUANG; ACERO; HON, 2001).
3.3 PROCESSAMENTO DIGITAL DE SINAIS
Como j mencionado, o processamento digital de sinais empregado no
Reconhecimento Automtico de Voz se destina a extrair do sinal de udio correspondente
voz captada e digitalizada parmetros que possam ser teis no processo de reconhecimento de
padres fonticos. Considerando a tcnica de extrao de parmetros mais utilizada (MFCC
Mel-Frequency Cepstral Coefficients Coeficientes Cepstrais em Frequncia Mel) (SILVA,
2010; YOUNG et al., 2009), tal processo ser descrito a seguir e est ilustrado na Figura 2.
-
28
Figura 2 Processamento Digital de Sinais empregado no RAV
Fonte: Prprio autor.
Tipicamente, o processamento de sinais utilizado nesta aplicao iniciado por
uma filtragem com a finalidade de maximizar a razo sinal/rudo. Nesse sentido, os
componentes com frequncia acima do espectro da voz so filtrados e o sinal reamostrado a
16 kHz (HUANG; ACERO; HON, 2001), o que tambm ajuda a reduzir a quantidade de
dados a serem processados. utilizado ainda um filtro de pr-nfase para compensar o
decaimento de energia nos componentes de frequncia mais alta da fala, que so essenciais
para a distino fontica. Esse filtro tambm ajuda a reduzir o rudo de baixa frequncia.
A seguir, o sinal segmentado no tempo, tipicamente com um segmento a cada 10
ms, tendo cada segmento a durao entre 20 e 30 ms, curto o bastante para que as
caractersticas do sinal de voz possam ser consideradas uniformes dentro do segmento. Em
cada um desses segmentos aplicada uma funo de janelamento, normalmente a de
-
29
Hamming, para reduzir o vazamento espectral produzido na anlise desses segmentos
(SEGBROECK, 2010). Das janelas resultantes, so extrados os coeficientes MFCC,
conforme os passos descritos a seguir.
As janelas so processadas por uma DFT (Discrete Fourier Transform
Transformada Discreta de Fourier), uma vez que as diferenas fonticas so mais facilmente
observadas no domnio da frequncia do que no domnio do tempo. Para otimizao de
desempenho computacional, a DFT normalmente calculada atravs de uma FFT (Fast
Fourier Transform Transformada Rpida de Fourier). Como a fase da Transformada de
Fourier no contribui para a diferenciao fontica, calcula-se o espectro de potncia atravs
do quadrado do mdulo da transformada (MESEGUER, 2009).
O espectro de potncia calculado dessa forma possui escala de frequncia linear.
Entretanto, possvel verificar que a utilizao de uma escala de frequncia subjetivamente
linear (Mel) benfica para o reconhecimento de voz. O mapeamento do espectro de
potncia para a escala de frequncia Mel realizado atravs de um banco de filtros. So
utilizados normalmente de 24 a 40 filtros triangulares uniformemente espaados na escala
Mel. Dessa forma, o banco de filtros tambm reduz a dimensionalidade dos dados. Como a
percepo humana de intensidade sonora logartmica, calculado o logaritmo da energia
resultante na sada de cada filtro (CINCAREK, 2008).
Para reduzir ainda mais a dimensionalidade, descorrelacionando o vetor resultante
da etapa anterior, calculada a DCT-II (Type-II Discrete Cosine Transform Transformada
Discreta do Cosseno, Tipo 2), da qual permanecemos apenas com os 12 primeiros
componentes (que concentram a maior parte da informao). A quantidade de bandas do
banco de filtros e a quantidade de componentes utilizados da DCT foi determinada
empiricamente para otimizar a relao performance / custo computacional (MESEGUER,
2009).
A transformada do logaritmo do espectro de potncia denominada de cepstro
(termo derivado da palavra espectro). O termo MFCC se justifica porque no processo
anteriormente descrito, calculamos os coeficientes cepstrais utilizando a transformada do
logaritmo do espectro de potncia na escala de frequncia Mel. O cepstro uma representao
do sinal no domnio da quefrncia (termo derivado da palavra frequncia), que tem a
dimenso de tempo (HUANG; ACERO; HON, 2001).
Uma forma de justificar a utilizao de uma transformao cepstral do sinal para a
extrao de parmetros teis na diferenciao fontica considerando um modelo linear de
-
30
produo fontica com fonte (sinal produzido pela passagem do ar atravs das pregas vocais)
e canal (filtro acstico da cavidade oronasal, controlado pela abertura da boca e pela posio
da lngua, do palato mole e dos lbios). No domnio do tempo, pode-se caracterizar o canal
atravs da sua resposta ao impulso e o sinal de fala resultante atravs da convoluo da fonte
com a resposta ao impulso do canal. No domnio da frequncia a convoluo substituda
pelo produto dos espectros. No domnio da quefrncia a convoluo substituda pela soma
dos cepstros (HUANG; ACERO; HON, 2001).
Uma transformao que converta uma convoluo em uma soma denominada
homomrfica. Embora a transformao empregada no clculo dos coeficientes MFCC no
seja rigorosamente homomrfica por causa da utilizao do banco de filtros, ela pode ser
considerada aproximadamente homomrfica para filtros com espectro suave, como o caso
do filtro acstico oronasal. Dessa forma, a MFCC favorece a separao entre fonte e canal.
Isso favorece o reconhecimento porque a maior parte da diferenciao fontica se deve s
caractersticas do canal. Da fonte, interessa saber apenas se as cordas vocais esto tensionadas
e, portanto vibrando (como o caso nas vogais e nas consoantes sonoras, nas quais o sinal da
fonte peridico) ou relaxadas e, portanto, no vibrando (como o caso nas consoantes
surdas, nas quais o sinal da fonte no peridico) (HUANG; ACERO; HON, 2001).
Nas lnguas tonais, como o chins, que utilizam a variao de afinao (que est
relacionada frequncia de vibrao das pregas vocais) como elemento de diferenciao
fontica, necessrio extrair a informao da afinao, alm dos coeficientes MFCC. Nas
lnguas no-tonais, como o portugus, a variao de afinao frequentemente utilizada como
elemento de diferenciao prosdica, para distinguir afirmativas de interrogativas, para
indicar ironia etc. Entretanto, os sistemas de Reconhecimento Automtico de Voz
normalmente no se prope a analisar a prosdia, portanto essa informao no extrada do
udio (HUANG; ACERO; HON, 2001).
Alm dos 12 coeficientes MFCC normalmente adicionado ao vetor de
parmetros um componente que representa a energia mdia do sinal, aspecto tambm
considerado importante na diferenciao fontica. A esses 13 componentes, so ainda
adicionados a primeira e a segunda derivada, denominados de coeficientes dinmicos, delta
ou vetores de velocidade e acelerao, que ajudam a caracterizar os efeitos coarticulatrios,
formando um vetor de parmetros ou de caractersticas com 39 coeficientes (SEGBROECK,
2010).
-
31
O vetor de parmetros ou de caractersticas utilizado no modelo acstico para
reconhecimento dos padres fonticos. possvel otimizar esses parmetros utilizando uma
transformao linear que melhore a separabilidade entre os padres a serem reconhecidos, o
que produz um impacto positivo sobre a acurcia do sistema. Alm disso, tal transformao
descorrelaciona as dimenses do vetor de parmetros e possvel reduzir a dimenso desse
vetor (por exemplo, de 39 para 32) sem reduzir significativamente a acurcia, o que reduz o
custo computacional do reconhecimento. Duas transformaes conhecidas que podem ser
utilizadas em conjunto para aumentar a acurcia e reduzir o custo do reconhecimento so
LDA (Linear Discriminant Analysis) e MLLT (Maximum Likelihood Linear Transform)
(HUANG; ACERO; HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012).
3.4 MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS ACSTICOS
As transcries textuais das gravaes de fala contidas na base de dados utilizada
no treinamento do sistema de Reconhecimento Automtico de Voz so convertidas para uma
sequncia de fonemas de acordo com o dicionrio, para que sejam identificados nos
parmetros extrados do sinal de udio, pela etapa de processamento digital de sinais, padres
correspondentes aos fonemas empregados. A modelagem estatstica desses padres fonticos
denominada Modelo Acstico. Diferentemente do dicionrio, as gravaes de fala
utilizadas no treinamento no precisam conter todas as palavras do vocabulrio do sistema,
mas devem conter exemplos suficientes de todos os fonemas, preferencialmente em todos os
contextos de vizinhana fontica possveis (uma vez que cada fonema pode ter suas
caractersticas alteradas de acordo com o antecessor e o sucessor) (HUANG; ACERO; HON,
2001).
Os modelos acsticos treinados com a voz de diferentes locutores so ditos
independentes de locutor. Contudo, a acurcia mxima quando o sistema pode ser treinado
com a voz a ser reconhecida, produzindo modelos acsticos dependentes de locutor. Mas
como, na prtica, difcil obter gravaes suficientes para treinar adequadamente o modelo
acstico, uma soluo de compromisso comum o que se denomina adaptao de locutor, em
que h um treinamento independente de locutor, que posteriormente adaptado para a voz de
um locutor especfico utilizando uma base de treinamento relativamente pequena. Se a base
de treinamento independente de locutor for suficientemente grande e diversificada, tambm
possvel segment-la, gerando modelos acsticos independentes de locutor, mas agrupados
-
32
por sexo, idade, sotaque etc. A adaptao de locutor tambm pode ser feita a partir dos
modelos acsticos desses agrupamentos (AHMER, 2002; SILVA, 2010).
Dada uma sequncia de vetores de parmetros X extrada de um sinal de voz
atravs do Processamento Digital de Sinais anteriormente descrito, a tarefa do
Reconhecimento Automtico de Voz determinar a sequncia correspondente de palavras W
mais provvel. Em termos probabilsticos, deseja-se descobrir a sequncia de palavras W que
maximiza a probabilidade condicional P(W|X). Como essa probabilidade no conhecida a
priori, podemos utilizar o teorema de Bayes para inverter essa probabilidade condicional
(CINCAREK, 2008; SILVA, 2010):
! ! ! = !(!|!) !(!) !(!) (1) Como a maximizao de P(W|X) calculada com X fixo, isso equivale a
maximizar:
!(!|!) !(!) (2) Isso permite a separao do problema do Reconhecimento Automtico de Voz em
dois problemas distintos, um modelo acstico, P(X|W), que ser tratado agora, e um modelo
de linguagem, P(W), que ser abordado adiante.
O modelo acstico utiliza, tipicamente, HMM (Hidden Markov Model Modelo
Oculto de Markov). Nesse modelo, assume-se que o processo segue uma sequncia de estados
que no so diretamente observveis. A observao indireta, no caso, corresponde a um vetor
de caractersticas extrado do sinal de voz. Os estados poderiam ser associados aos fonemas
(ou trifones), mas para maior acurcia do sistema, divide-se cada fonema (ou trifone) em trs
estados, denominados senones, sendo o primeiro correspondente ao incio do fonema, cuja
observao influenciada pelo efeito coarticulatrio da transio a partir do fonema anterior,
o segundo estado corresponde parte intermediria e mais estvel do fonema e o terceiro
estado corresponde parte final do fonema, cuja observao influenciada pelo efeito
coarticulatrio da transio para o prximo fonema (HUANG; ACERO; HON, 2001).
Um modelo HMM caracterizado pelas probabilidades iniciais dos estados
(representadas por um vetor), pelas probabilidades de transio entre os estados
(representadas por uma matriz) e pelas probabilidades de observao. As probabilidades de
observao so modeladas, normalmente, por uma mistura de gaussianas, pela flexibilidade
que tal mistura oferece de aproximar qualquer distribuio de probabilidade. Uma mistura de
gaussianas representada pelo vetor das mdias e matriz de covarincia de cada componente
e por um vetor com os pesos de cada componente (SEGBROECK, 2010).
-
33
Para reduzir a dimensionalidade do modelo pode-se associar as probabilidades dos
estados (senones) semelhantes, tais como os estados intermedirios dos trifones que
representam o mesmo fonema e os estados inicial e final dos trifones que representam o
mesmo fonema e que podem ser agrupadas por categorias fonticas dos fonemas anteriores e
posteriores, respectivamente (YOUNG et al., 2009).
Em alguns idiomas, como o japons, em que a durao um fator de
diferenciao fontica, necessrio modelar a probabilidade de transio de estados como
uma funo do tempo. Nos demais idiomas, como o portugus, embora a durao possa servir
para diferenciao prosdica, indicando nfase ou mesmo o estado emocional do falante,
como os sistemas de Reconhecimento Automtico de Voz normalmente no se propem a
analisar a prosdia, essa modelagem no utilizada (HUANG; ACERO; HON, 2001).
O treinamento de um modelo acstico o processo de estimao das
probabilidades que caracterizam o modelo HMM. O algoritmo mais utilizado para essa
estimao o de Baum-Welch. A transcrio textual dos udios empregados no treinamento
utilizada para gerar, baseada no dicionrio, a transcrio fontica das palavras e, a partir da, a
sequncia de estados correspondentes aos trifones, inserindo estados opcionais de silncio
entre as palavras. O algoritmo por si busca o melhor alinhamento temporal dos estados em
relao sequncia de vetores de caractersticas extrada do sinal de udio e estima as
probabilidades do modelo HMM (AHMER, 2002).
Na adaptao de um modelo acstico para a voz de um locutor especfico
(adaptao de locutor), duas tcnicas so empregadas com frequncia: MLLR (Maximum
Likelihood Linear Regression) e MAP (Maximum a Posteriori). A tcnica MLLR calcula
matrizes de transformao dos vetores de mdias das gaussianas do modelo acstico
independente de locutor de forma a maximizar a probabilidade de observao dos vetores de
parmetros extrados do corpus de adaptao. A tcnica MAP ajusta todos os parmetros do
modelo acstico, interpolando o modelo original com um novo modelo treinado a partir do
corpus de adaptao. O hiperparmetro (tau) usado para controlar o peso do modelo
disponvel a priori. A tcnica MLLR possui custo computacional mais baixo e resulta em
maior acurcia caso o corpus de adaptao seja muito pequeno. A tcnica MAP possui custo
computacional mais alto e resulta em maior acurcia caso o corpus de adaptao seja um
pouco maior. A combinao das tcnicas MLLR e MAP resulta na melhor acurcia para
qualquer tamanho de corpus de adaptao (HUANG; ACERO; HON, 2001; CARNEGIE
MELLON UNIVERSITY, 2012).
-
34
3.5 MODELOS ESTATSTICOS EMPREGADOS NOS MODELOS DE LINGUAGEM
O conjunto de textos da base de dados de treinamento do sistema de RAV
utilizado na modelagem da probabilidade de palavras e sequncias de palavras, no que se
denomina Modelo de Linguagem (SILVA, 2010; SEGBROECK, 2010). Para maximizar a
acurcia, os textos devem possuir similaridade de vocabulrio e estilo de linguagem com a
fala a ser reconhecida (HUANG; ACERO; HON, 2001). Para um sistema com uso previsto
em situaes com assuntos (e, portanto, vocabulrios e estilos de linguagem) muito distintos,
comum segmentar a base de dados de textos por assunto, produzindo modelos de linguagem
diferenciados, a serem selecionados em cada situao (AHMER, 2002). comum, assim
como no caso do dicionrio, a necessidade de atualizao frequente dos modelos de
linguagem, para incorporao de novos assuntos e atualizao do vocabulrio (MARTINS;
TEIXEIRA; NETO, 2010; LAMBOURNE et al., 2004; BOULIANNE et al., 2006).
O modelo de linguagem utiliza, tipicamente, cadeias de Markov para modelar a
probabilidade de ocorrncia de uma sequncia de palavras. Idealmente, o clculo da
probabilidade de ocorrncia de uma palavra deveria levar em conta todo o histrico de
palavras anteriores. Isso, obviamente, no factvel. possvel, contudo, obter uma
aproximao razovel, limitando o tamanho do histrico considerado (uma vez que a
dependncia estatstica da ocorrncia de uma palavra com a ocorrncia de outra anterior reduz
com o aumento da distncia entre elas). Isso nos leva ao modelo denominado N-Grama, onde
N o nmero de palavras consideradas em sequncia. Normalmente so utilizados trigramas,
em que a probabilidade de uma palavra condicionada s duas palavras anteriores,
constituindo um modelo de Markov de segunda ordem (CINCAREK, 2008; SILVA, 2010).
O treinamento do modelo de linguagem utiliza apenas uma base de texto e os
parmetros podem ser estimados por uma simples contagem da frequncia de ocorrncia dos
trigramas. Entretanto, dessa forma, os trigramas que no ocorressem no treinamento do
modelo de linguagem nunca seriam considerados no Reconhecimento Automtico de Voz,
uma vez que seriam associados a uma probabilidade nula. Esse problema seria frequente, uma
vez que o sistema de RAV precisa lidar com um vocabulrio muito grande (dezenas ou
centenas de milhares de palavras) e o nmero de trigramas possveis seria aproximadamente o
tamanho do vocabulrio ao cubo, enquanto a base de texto utilizada no treinamento sempre
limitada. A soluo para isso a utilizao de um algoritmo de suavizao, que reduza um
pouco a probabilidade de ocorrncia dos trigramas mais frequentes e aumente a probabilidade
-
35
dos menos frequentes, atribuindo uma probabilidade pequena, mas no nula, aos trigramas
que no ocorrerem no treinamento. O algoritmo de suavizao mais utilizado o de Kneser-
Ney (YOUNG et al., 2009).
Note-se que, embora o modelo de linguagem no leve em conta explicitamente a
gramtica, sintaxe ou semntica da lngua, esses elementos esto de certa forma implcitos,
uma vez que influenciam a probabilidade de ocorrncia de uma sequncia de palavras
(HUANG; ACERO; HON, 2001).
3.6 DECODIFICAO
A decodificao basicamente um processo de busca. O sistema de
Reconhecimento Automtico de Voz busca a sequncia de palavras mais provvel, a partir do
vocabulrio definido no dicionrio e dados os modelos acstico e de linguagem, para a
sequncia de parmetros extrada do sinal de voz captado, digitalizado e processado
(HUANG; ACERO; HON, 2001).
O espao de busca pode ser definido em um nico modelo HMM integrando os
modelos acstico, P(X|W), e de linguagem, P(W), em que, opcionalmente, pode-se atribuir
empiricamente um peso diferenciado (LW) para o modelo de linguagem, P(W)LW, para
otimizar a acurcia. O modelo de linguagem tambm funciona como uma penalidade para
inserir novas palavras durante a decodificao (com uma penalidade pequena o decodificador
prefere utilizar mais palavras de menor durao e com uma penalidade alta o decodificador
prefere utilizar menos palavras de maior durao). Ao modificar o peso do modelo de
linguagem, essa penalidade alterada. Uma penalidade para insero de novas palavras (IP)
pode ser includa no modelo de linguagem, P(W)LW . IPN(W), onde N(W) o nmero de
palavras, podendo tambm ser ajustada empiricamente para maximizar a acurcia (HUANG;
ACERO; HON, 2001).
A sequncia de estados pode ser organizada na forma de uma rvore ou grafo.
Uma busca de todas as sequncias de estados possveis para uma decodificao teria, em
princpio, complexidade exponencial, O(NT), onde N o nmero de estados possveis a cada
transio de estados (que por sua vez, proporcional ao tamanho do vocabulrio) e T o
tempo. Para otimizar essa busca, utilizado, tipicamente, o algoritmo de Viterbi. Esse
algoritmo baseado no princpio da Programao Dinmica, de dividir um problema
complexo recursivamente em problemas mais simples, armazenando os resultados parciais
-
36
para evitar a necessidade de reclculos. O algoritmo de Viterbi, armazena para cada estado, a
melhor (mais provvel) sequncia de estados at aquele e a respectiva probabilidade,
reduzindo a complexidade para O(N2T). Ao final da decodificao, basta verificar o estado
mais provvel e recuperar a informao armazenada sobre o melhor caminho at aquele
estado (SILVA, 2010; SEGBROECK, 2010).
Outra otimizao comum a representao da probabilidade de transio de
estados atravs do seu logaritmo, substituindo as operaes de multiplicao por somas, a
representao em ponto flutuante por ponto fixo e permitindo uma maior faixa dinmica para
os valores envolvidos, evitando erros de aproximao numrica (especialmente o underflow)
(YOUNG et al., 2009).
A organizao do espao de busca em uma rvore lexical, em que cada ramo
representa um fonema e as folhas representam as palavras, previne o clculo
desnecessariamente replicado das probabilidades dos estados iniciais das diversas palavras
que compartilham os mesmos fonemas inicias (o que particularmente til na lngua
portuguesa, pelo grande nmero de flexes de palavras existentes). As probabilidades do
modelo de linguagem podem ser fatoradas ao longo dos ramos da rvore para que possam ser
levadas em considerao desde o incio da busca, mas empregando um modelo de linguagem
N-Grama, devem ser consideradas em relao ao contexto das palavras anteriormente
decodificadas (HUANG; ACERO; HON, 2001).
Idealmente, a busca deveria considerar todas as hipteses possveis para a
sequncia de estados. Como o clculo de todos os caminhos possveis dentro da rvore ou
grafo do espao de busca pode ser proibitivo pelo tamanho do vocabulrio e pela
complexidade do modelo (e.g. utilizando trigramas, trifones e probabilidades de observao
modeladas pela mistura de vrias gaussianas), a busca pode ser otimizada
computacionalmente se forem desconsiderados (podados) os ramos mais improvveis.
Note-se que h o risco de desconsiderar prematuramente um ramo pertencente ao caminho
com maior probabilidade global, introduzindo erros de decodificao devido a essa poda.
Trata-se de uma deciso de compromisso entre custo computacional e acurcia (YOUNG et
al., 2009).
H vrios mecanismos de poda empregados na decodificao dos sistemas de
RAV. O mais frequente o controle de feixe (beam), empregado em conjunto com o
algoritmo de Viterbi, em que so expandidos apenas os ramos cuja probabilidade no caia
abaixo de um limiar proporcional probabilidade do ramo mais provvel. Outra possibilidade
-
37
a gerao de uma lista dos N-Melhores caminhos utilizando uma primeira decodificao
mais rpida, com modelos simplificados (e.g. bigramas, monofones, probabilidades de
observao modeladas pela mistura de menos gaussianas). A seguir, so calculadas as
probabilidades dos caminhos escolhidos, utilizando modelos acsticos e de linguagem mais
refinados, para escolher o caminho mais provvel e, portanto, a decodificao mais provvel
(HUANG; ACERO; HON, 2001).
-
38
4 GERAO DE LEGENDA OCULTA COM RAV NO MUNDO
4.1 JAPO
No Japo, de acordo com Miyasaka (2004), desde 2000 a emissora NHK utiliza
um software de Reconhecimento Automtico de Voz para gerao de legenda oculta ao vivo
em telejornais, por ela desenvolvido, para atender os requisitos tcnicos desejados por essa
emissora (acurcia mnima de 95% e latncia mxima de 2 segundos), porque o software
comercial disponvel, IBM ViaVoice em japons, no atendia a tais requisitos. O sistema
utilizava modelos acsticos adaptados para cada apresentador de telejornal, sem utilizar
relocuo. Antes de cada telejornal, o modelo de linguagem era atualizado utilizando os
rascunhos das matrias disponveis. Embora o software desenvolvido atendesse o requisito de
95% de acurcia, para que no houvesse erro algum na legenda oculta, o sistema inclua
quatro operadores: dois para revisar frases alternadas marcando as palavras erradas e, para
cada revisor, um operador para corrigir as palavras erradas marcadas.
De acordo com Homma et al. (2008), desde 2001 a NHK passou a empregar,
sobretudo em emissoras afiliadas sua rede, um sistema com apenas um ou dois operadores
para realizar as correes, em que as palavras erradas so selecionadas em um monitor
sensvel ao toque e corrigidas pelo mesmo operador. Com dois operadores, no
Reconhecimento Automtico de Voz de telejornais com apenas um apresentador, o sistema
chegou a obter 99,9% de acurcia e 99,8% com apenas um operador. A emissora passou
tambm a utilizar Reconhecimento Automtico de Voz para gerao de legenda oculta ao
vivo em outros programas, alm de telejornais, empregando relocuo.
Sako e Ariki (2005) relatam a implementao de um sistema de Reconhecimento
Automtico de Voz para produzir closed caption para a transmisso de jogos de beisebol ao
vivo. O sistema no emprega relocuo, porm os modelos acsticos so adaptados para o
locutor do jogo. Alm disso, os modelos acsticos so segmentados de acordo com alguns
estados emocionais pr-definidos. Assim, o sistema deve primeiro classificar o estado
emocional da fala, para a seguir escolher qual modelo acstico empregar. Tambm foi
incorporado ao modelo de linguagem uma memria de estado, com significado especfico
para o jogo (e.g. o placar no pode regredir, mudanas no placar normalmente esto
associadas a uma mudana no estado emocional da voz do locutor etc.). A melhoria de
-
39
acurcia proporcionada pela anlise de estado emocional e memria de estado do jogo foi de
cerca de 1%.
Ohno et al. (2007) relatam o desenvolvimento de um sistema de resumo
automtico de monlogos, para ser usado em conjunto com um sistema de Reconhecimento
Automtico de Voz na gerao de closed caption, porque, de acordo os autores, a velocidade
de exibio do texto era rpida demais para a leitura.
4.2 PORTUGAL
Em Portugal, Meinedo et al. (2003) relatam o desenvolvimento de um software de
Reconhecimento Automtico de Voz para telejornais. A acurcia obtida foi de 85%, com
modelo acstico independente de locutor.
Martins et al. (2010) relatam a implementao de um sistema que atualiza
diariamente o dicionrio e o modelo de linguagem, de forma automtica, utilizando textos de
sites de notcias. Com essa abordagem, conseguiram reduzir em 88% os erros ocasionados
pela ocorrncia de palavras fora do vocabulrio do sistema.
4.3 REINO UNIDO
No Reino Unido, Evans (2003) relata o uso na BBC de um sistema de
Reconhecimento Automtico de Voz desenvolvido internamente utilizando o software IBM
ViaVoice e empregando relocuo, para a gerao de closed caption em programas ao vivo.
Lambourne et al. (2004) relatam a adoo de um sistema semelhante em trs
outras grandes emissoras britnicas, tambm utilizando o IBM ViaVoice, empregando
relocuo e modelos de linguagem diferenciados de acordo com o assunto. A acurcia obtida
foi de 95 a 98%.
4.4 CANAD
No Canad, de acordo com Boulianne et al. (2006), desde 2004 utiliza-se
regularmente na gerao de legenda oculta ao vivo um software de Reconhecimento
Automtico de Voz para a lngua francesa, desenvolvido em conjunto por uma emissora e um
instituto de pesquisa canadenses.
-
40
O sistema utiliza relocuo, com modelos acsticos adaptados a partir de modelos
independentes de locutor agrupados por sexo. Utiliza ainda dicionrios e modelos de
linguagem diferenciados por assunto. Os dicionrios, os modelos de linguagem e os modelos
acsticos so atualizados semiautomaticamente. O sistema busca diariamente textos de sites
de notcias correspondentes aos assuntos modelados no sistema, para atualizar os modelos de
linguagem. Quando ocorrem palavras novas, o relocutor precisa valid-las (juntamente com
suas pronncias e associao aos assuntos) na pr-produo dos programas para que sejam
inseridas nos dicionrios. Palavras inativas por muito tempo tambm so removidas do
vocabulrio do sistema. Ainda na pr-produo, o relocutor faz uma breve gravao para
atualizar seu modelo acstico. Durante a produo, o relocutor pode comutar o assunto,
indicar a mudana da pessoa cuja fala est sendo transcrita e inserir pontuao e outros
smbolos utilizando um controle de videogame. Aps a produo, o relocutor pode corrigir os
erros do reconhecimento para que a transcrio corrigida seja utilizada na atualizao dos
modelos acstico e de linguagem. A acurcia obtida pelo sistema variou entre 89 e 93%, com
latncia de dois segundos, alm de um segundo de latncia da relocuo.
Cardinal et al. (2007) relatam o desenvolvimento de um sistema de correo em
tempo real de legendas ocultas para ser usado em conjunto com um sistema de
Reconhecimento Automtico de Voz. Alm de permitir a digitao das palavras corrigidas, o
sistema sugere, para cada palavra, uma lista de alternativas baseada nos erros de
reconhecimento mais comuns observados.
4.5 ESLOVNIA
Na Eslovnia, devido falta de gravaes de fala com transcrio textual em
quantidade suficiente para um treinamento adequado dos modelos acsticos, Zgank (2010)
props uma metodologia para incorporar gravaes sem transcrio na base de dados,
treinando o sistema inicialmente apenas com as gravaes com transcrio disponveis,
utilizando o sistema para fazer uma transcrio automtica das gravaes sem transcrio,
associando a essas transcries um escore de confiana, e aproveitando em um novo
treinamento do sistema apenas as gravaes cujas transcries automticas obtiveram os
escores de confiana mais altos (descartando 10% das transcries, aquelas com escores de
confiana mais baixos). Pelos resultados experimentais que ele obteve, o acrscimo dessas
gravaes transcritas automaticamente na base de treinamento do sistema melhorou
-
41
significativamente a acurcia do mesmo. A acurcia obtida foi de 82%, mas como se trata de
um modelo acstico independente de locutor, pode-se esperar obter uma acurcia
significativamente mais alta empregando-se adaptao de locutor.
4.6 BRASIL
O primeiro software de reconhecimento de voz comercial que surgiu para o
Portugus do Brasil e que foi empregado nesta aplicao foi o IBM ViaVoice. Este produto
foi desenvolvido e comercializado pela IBM at 2003, quando foi vendido para a ScanSoft,
posteriormente adquirida pela Nuance (IBM, 2008). Nem a ScanSoft, nem a Nuance deram
continuidade ou desenvolveram produtos para substituir o ViaVoice em Portugus do Brasil.
Com isso, o software no dispe mais de suporte corretivo ou evolutivo. Eventualmente ele
pode deixar de funcionar com sistemas operacionais mais novos. Alm disso, a quantidade de
licenas existentes limitada.
Note-se que o IBM ViaVoice nem era um produto otimizado para aplicao na
gerao de legenda oculta: tratava-se de um sistema de Reconhecimento Automtico de Voz
para utilizao como interface homem-mquina. Como tal, era um produto desenvolvido para
funcionar como um processo em segundo plano, em computadores de uso domstico da
poca. Emissoras de televiso e outras empresas desenvolveram interfaces para a gerao de
legendas ocultas utilizado o ViaVoice. Como j mencionamos que parte dos erros do
reconhecimento de voz se devem s limitaes dos algoritmos de processamento de sinais e
modelos estatsticos empregados, pode-se imaginar que hoje seria possvel utilizar algoritmos
e modelos mais precisos e complexos, na medida em que a tecnologia de reconhecimento de
voz evoluiu nesse perodo e na medida em que a capacidade computacional aumentou desde a
descontinuidade do ViaVoice. E ainda mais se considerarmos que no precisamos nos limitar
a computadores de uso domstico, mas podemos utilizar at mesmo um conjunto de
servidores realizando processamento distribudo. E, obviamente, neste contexto, o sistema de
reconhecimento de voz no precisa ser considerado um processo secundrio no(s)
computador(es) em que estiver sendo executado.
De fato, alguns dos sistemas de reconhecimento de voz mais bem sucedidos
atualmente utilizam o paradigma de computao em nuvem (cloud computing), como, por
exemplo, a pesquisa por voz do Google (GOOGLE, 2012) e o Apple Siri (APPLE, 2011).
-
42
Dessa forma, esto livres da limitao da capacidade computacional dos usurios (o que
especialmente til para aplicaes embarcadas em dispositivos mveis).
Recentemente, uma empresa que atua na rea de Reconhecimento Automtico de
Voz para gerao de closed caption em Portugal (Voice Interaction) entrou no mercado
brasileiro, treinando seus sistemas para o Portugus do Brasil e fazendo parcerias comerciais
com empresas que implementam codificadores de legenda oculta para o Sistema Brasileiro de
TV Digital. Existem dois produtos dessa empresa sendo utilizados na gerao de legendas
ocultas ao vivo no Brasil: o Audimus.Media (VOICE INTERACTION, 2014a) e o
VoxControl (VOICE INTERACTION, 2014b). O principal produto o Audimus.Media, que
possui entretanto a restrio de no poder ser adaptado voz de um relocutor, utilizando um
sistema independente de locutor, o que limita a acurcia. O segundo produto, VoxControl,
embora permita a adaptao de locutor, utiliza um sistema de reconhecimento mais simples,
que no foi concebido para a aplicao na gerao de legenda oculta, mas sim como um
sistema de interface homem-mquina otimizado para execuo como um processo em
segundo plano em computadores domsticos, o que tambm limita a acurcia.
Apesar de existirem poucas opes de software comercial que possam ser
empregadas no Reconhecimento Automtico de Voz do Portugus do Brasil, existem diversas
opes de software livre que podem ser consideradas: HTK (CAMBRIDGE UNIVERSITY,
2009) da Universidade de Cambridge, CMU Sphinx (CARNEGIE MELLON UNIVERSITY,
2012) da Universidade Carnegie Mellon, Julius (KYOTO UNIVERSITY, 2012) da
Universidade de Kyoto, Simon (SIMON LISTENS, 2012) da Organizao Simon Listens,
RWTH ASR (RWTH AACHEN UNIVERSITY, 2012) da Universidade Tcnica de Aachen,
iATROS (UNIVERSIDAD POLITCNICA DE VALENCIA, 2011) da Universidade
Politcnica de Valncia, SHoUT (UNIVERSITY OF TWENTE, 2010) da Universidade de
Twente, ISIP ASR (MISSISSIPPI STATE UNIVERSITY, 2007) da Universidade Estadual
do Mississippi etc. Esses sistemas implementam em software os algoritmos de processamento
de sinais e modelos estatsticos utilizados no Reconhecimento Automtico de Voz, mas para
serem aplicados ao Portugus do Brasil necessitam de treinamento com bases de dados
correspondentes a este idioma. O treinamento desses sistemas utiliza ferramentas distribudas
juntamente com alguns deles, alm de outras distribudas separadamente, como o SRILM
(SRI INTERNATIONAL, 2011) da SRI International.
Como j mencionado anteriormente, o treinamento um aspecto crtico para o
bom funcionamento de um sistema de Reconhecimento Automtico de Voz. E sendo o
-
43
portugus, ao contrrio do ingls, uma lngua altamente flexiva (em que as palavras podem
sofrer flexo de gnero, nmero, modo, tempo e pessoa), o vocabulrio a ser considerado
aumenta substancialmente, o que tende a ter um impacto negativo na acurcia do
reconhecimento. A gramtica do portugus, novamente ao contrrio do ingls, tambm
relativamente livre quanto ordem das palavras, o que torna os modelos de linguagem mais
complexos e tambm tende a ter um impacto negativo na acurcia do sistema. Essas duas
diferenas entre os idiomas portugus e ingls apontam para a necessidade de bases de dados
para o treinamento de um sistema de Reconhecimento Automtico de Voz em portugus
maiores do que seria necessrio em ingls, para se obter a mesma acurcia. Entretanto, o que
ainda se observa que dispomos de bases de dados significativamente menores.
As bases de dados necessrias para o treinamento de um sistema de
reconhecimento de voz so de dois tipos: conjuntos de textos (corpus de texto) e gravaes de
voz com transcrio textual (corpus de voz). relativamente fcil gerar um corpus de texto
arbitrariamente grande a partir de textos disponveis na internet, por exemplo, mas no
simples gerar um corpus de voz adequado, pois ele deveria idealmente conter centenas de
horas de gravao de voz de centenas de pessoas divididas em segmentos de curta durao
com a transcrio textual correspondente a cada segmento.
Existem alguns corpora de voz para o Portugus do Brasil que esto disponveis
comercialmente, a saber:
Spoltech (OREGON HEALTH & SCIENCE UNIVERSITY, 2009a) (4 horas,
477 locutores, ambiente no controlado - US$ 50.00 para licena acadmica e
US$ 3000.00 para licena comercial);
West Point (LINGUISTIC DATA CONSORTIUM, 2008) (8 horas, 68
homens e 60 mulheres, ambiente no controlado - licena por US$ 500.00);
GlobalPhone (EUROPEAN LANGUAGE RESOURCES ASSOCIATION,
2008) (24 horas, 54 homens e 48 mulheres, ambiente no controlado - 700
Euros para licena acadmica e 3600 Euros para licena comercial);
OGI-22 (OREGON HEALTH & SCIENCE UNIVERSITY, 2009b) (3 horas,
gravaes telefnicas, ambiente no controlado - US$ 50.00 para licena
acadmica e US$ 3000.00 para licena comercial).
Uma das iniciativas que buscam disponibilizar publicamente um corpus de voz
para o treinamento de sistemas de Reconhecimento Automtico de Voz em Portugus (do
Brasil e de Portugal) a do site VoxForge (VOXFORGE, 2014a). Em maio de 2014, o site
-
44
informava ter 2,8 horas de gravao em ambiente no controlado (2% da meta deles), da voz
de diversos voluntrios (VOXFORGE, 2014b).
Existe tambm um pequeno corpus de Portugus do Brasil desenvolvido pela
Universidade de Lisboa e disponvel publicamente (CENTRO DE LINGUSTICA DA
UNIVERSIDADE DE LISBOA, 1997) (2 horas, 12 homens e 13 mulheres, ambiente no
controlado, segmentos de longa durao).
Outra iniciativa importante de ser citada a do grupo FalaBrasil
(UNIVERSIDADE FEDERAL DO PAR, 2009), da Universidade Federal do Par. Eles
desenvolveram alguns corpora de voz, a saber:
Constituio1.0 (com a voz de um nico locutor masculino em ambiente
acstico controlado de estdio, com 9 horas de durao, disponvel
publicamente);
LapsBenchMark1.4 (total de 54 minutos de gravao em ambiente no
controlado, utilizando 25 homens e 10 mulheres com a mesma durao,
disponvel publicamente);
LapsMail1.0 (total de 84 minutos de gravao em ambiente no controlado,
utilizando 21 homens e 4 mulheres com a mesma durao, udio disponvel
publicamente, porm transcrio textual no);
LapsStory (total de 5 horas e 19 minutos, construdo atravs da segmentao e
transcrio manual de audiolivros, porm no disponibilizado publicamente
devido s restries de direitos autorais dos audiolivros utilizados).
Em um dos trabalhos do grupo (BATISTA, 2013), relata-se o uso de um corpus
de voz do Centro de Estudos de Telecomunicaes da PUC-Rio que teria cerca de 130 horas,
porm no foi possvel obter informaes adicionais sobre esse corpus.
Alm de disponibilizar alguns corpora de voz, o grupo FalaBrasil j possui uma
experincia considervel e bons resultados no treinamento de diversos sistemas em software
livre para o Portugus do Brasil e na integrao desses sistemas para algumas aplicaes
especficas (interface homem-mquina: ditado e comandos de voz). Entretanto, as diferenas
entre essas aplicaes e a aplicao de gerao de legenda oculta dificulta qualquer
comparao dos resultados obtidos.
Como todos os corpora de voz disponveis (mesmo os pagos) podem ser
insuficientes para o treinamento de um sistema de Reconhecimento Automtico de Voz em
Portugus do Brasil com acurcia elevada, pode-se considerar outras alternativas para
-
45
desenvolver novos corpora de voz a partir de recursos disponveis publicamente. Uma
possibilidade desenvolver um corpus de voz a partir do acervo do site Librivox
(LIBRIVOX, 2014), que disponibiliza audiolivros de domnio pblico e que possua, em maio
de 2014, 157 horas de gravaes em portugus do Brasil (em ambiente no controlado) com
23 homens e 13 mulheres (embora a distribuio no seja uniforme: duraes por leitor
variando de menos de um minuto a mais de 110 horas e totalizando 42 horas de voz
masculina e 114 horas de voz feminina). Para utilizar esse material preciso segmentar udio
e texto em pequenas frases. possvel segmentar o udio por pausas de forma automtica. O
desafio segmentar o texto de acordo. No havendo uma forma automtica confivel para
realizar a segmentao do texto a partir da segmentao do udio, essa segmentao teria que
ser feita manualmente, o que seria um processo extremamente demorado.
-
46
5 AVALIAO DE DESEMPENHO
Utilizando um telejornal, um programa jornalstico sobre sade e um programa de
auditrio, foram avaliados o desempenho da transcrio textual realizada por estenotipia e por
Reconhecimento Automtico de Voz da relocuo, atravs do IBM ViaVoice (IBM, 2008) e
de um sistema utilizando um software livre (CMU Sphinx) (CARNEGIE MELLON
UNIVERSITY, 2012) treinado para o Portugus do Brasil utilizando bases de dados
disponveis publicamente.
O IBM ViaVoice foi utilizado como referncia por ter sido o primeiro software de
Reconhecimento Automtico de Voz em Portugus do Brasil utilizado na gerao de Legenda
Oculta, sendo ainda hoje muito utilizado nesta aplicao.
O CMU Sphinx foi escolhido para esse teste por ser um software de RAV livre
dos mais bem conceituados atualmente, relativamente maduro (desenvolvido desde 1986) mas
que ainda conta com uma comunidade de desenvolvimento bastante ativa, por conter todas as
ferramentas necessrias ao treinamento e teste de um sistema de RAV, por estar
suficientemente bem documentado para permitir a realizao de todos os testes pretendidos e
por adotar uma licena de uso que no restringe a aplicao comercial.
5.1 MATERIAL DE TESTE
Uma representao esquemtica da preparao do material de teste, que ser
descrita de forma pormenorizada a seguir, apresentada na Figura 3.
-
47
Figura 3 Representao Esquemtica da Preparao do Material de Teste
Fonte: Prprio autor
O computador utilizado na avaliao da estenotipia, da relocuo, do IBM
ViaVoice e nas avaliaes de latncia e consumo de recursos computacionais do sistema de
RAV baseado em software livre foi um Apple MacBook Pro 13 polegadas do final de 2011,
com processador Intel Core i5 de 2,4 GHz, 8 GB de RAM e sistema operacional OS X 10.8.2.
O computador utilizado nos demais testes foi um Apple Mac mini do final de 2012, com
processador Intel Core i5 de 2,5 GHz, 16 GB de RAM e sistema operacional OS X 10.9.4. Tal
diviso no compromete a comparao dos resultados, pois nas avaliaes em que o
desempenho do computador poderia afetar o resultado (latncia e consumo de recursos
computacionais) foi utilizado um nico computador.
Para os testes foram escolhidos o telejornal Bom Dia Brasil,