Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

SISTEMA PARA A TRANSCRIÇÃO AUTOMÁTICA DE ÁUDIO/VÍDEO POR MEIO

DE RECONHECIMENTO DE VOZ

Estado da Arte

Anderson Gomes

[email protected]

Principais Empresas e Centros de Pesquisa Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology

Google

Possui um grupo de pesquisa de voz GAudi

Sistema de reconhecimento de vozUtilizado para indexar palavras faladas em

vídeosRestringe-se a políticaVocabulário será ampliado

Mudar o “modo” de se fazer uma pesquisa

DARPA

Grupo de pesquisa de voz Sistema de tradução entre diversas

línguas para uso militar Não realiza transcrição

IBM

Possui um grupo de pesquisa de voz ViaVoice

Reconhece uma única Voz Sisi

Transforma a voz do usuário em sinais para comunicação com deficientes auditivos

Avatares representam os sinais Fortes avanços no desenvolvimento de

um sistema de reconhecimento de voz audio-visual

Philips

Speech MagicSoftwares e hardwaresReconhece uma única Voz

Speech SDKReconhece uma única VozSDK para ser usada no desenvolvimento de

outros softwares

Nuance - Dragon Systems Dragon NaturallySpeaking

Reconhece uma única voz

INESC-ID

TECNOVOZAmplo projeto envolvendo algumas

empresas e universidadesAbrange vários projetos, inclusive

transcrição e legendagem automáticaO INESC-ID é responsável pelo módulo de

conversão fala-texto, além de outros

UFRJ

Implementação de um LVCSR para o português brasileiroRafael TeruszkinFernando Gil Vianna Resende Junior

UCS

BRAVOZ – Reconhecimento de voz com suporte a grandes vocabulários (LVCSR) para o português brasileiroVerônica FeldkircherVanessa DavanzoAndré Gustavo Adami (orientador)

Nagoya Institute of Technology

JuliusSoftware open source de reconhecimento

de vozJaponêsPode ser integrado a outras línguas

Arquitetura

Speech input

Feature vector

Subword models

Spectral analysis

Word-level match

Sentence-level match

Lexicon SemanticsGrammar

Word model composition

Word model

Recognized sentence

Arquitetura – Primeiro passo

Spectral analysisRetorna o vetor das

características do sinal de voz

Feature vectorSpectral

analysis

Speech input

Arquitetura – Segundo passo

Junção de duas partes:World-level matchSentence-level match

Word-level match



Word-level match:Conjunto de subpalavras HMMsForma léxica das palavrasCriação de conjunto de modelo de palavras HMMs

Subword models

Word-level match




Word model


Sentence-level match:Word grammar (syntax)SemanticsComposição de um modelo de linguagem FSN

Subword models

Word-level match




Word model


Integração do word-level match e do sentence-level match Level Building (LB) algorithm Exemplo de integração de uma gramática FSN em um algoritmo LB

Arquitetura

Após a integração dos módulos de word-level match e sentence-level match é formada a sentença reconhecida

Subword models

Word-level match




Word model

Recognized sentence

Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz

Documents

Transcript of Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz