Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz
-
Upload
isaac-jefferson -
Category
Documents
-
view
51 -
download
0
description
Transcript of Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz
![Page 1: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/1.jpg)
SISTEMA PARA A TRANSCRIÇÃO AUTOMÁTICA DE ÁUDIO/VÍDEO POR MEIO
DE RECONHECIMENTO DE VOZ
Estado da Arte
Anderson Gomes
![Page 2: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/2.jpg)
Principais Empresas e Centros de Pesquisa Google Darpa IBM Philips Nuance INESC UFRJ UCS Nagoya Institute of Technology
![Page 3: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/3.jpg)
Possui um grupo de pesquisa de voz GAudi
Sistema de reconhecimento de vozUtilizado para indexar palavras faladas em
vídeosRestringe-se a políticaVocabulário será ampliado
Mudar o “modo” de se fazer uma pesquisa
![Page 4: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/4.jpg)
DARPA
Grupo de pesquisa de voz Sistema de tradução entre diversas
línguas para uso militar Não realiza transcrição
![Page 5: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/5.jpg)
IBM
Possui um grupo de pesquisa de voz ViaVoice
Reconhece uma única Voz Sisi
Transforma a voz do usuário em sinais para comunicação com deficientes auditivos
Avatares representam os sinais Fortes avanços no desenvolvimento de
um sistema de reconhecimento de voz audio-visual
![Page 6: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/6.jpg)
Philips
Speech MagicSoftwares e hardwaresReconhece uma única Voz
Speech SDKReconhece uma única VozSDK para ser usada no desenvolvimento de
outros softwares
![Page 7: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/7.jpg)
Nuance - Dragon Systems Dragon NaturallySpeaking
Reconhece uma única voz
![Page 8: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/8.jpg)
INESC-ID
TECNOVOZAmplo projeto envolvendo algumas
empresas e universidadesAbrange vários projetos, inclusive
transcrição e legendagem automáticaO INESC-ID é responsável pelo módulo de
conversão fala-texto, além de outros
![Page 9: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/9.jpg)
UFRJ
Implementação de um LVCSR para o português brasileiroRafael TeruszkinFernando Gil Vianna Resende Junior
![Page 10: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/10.jpg)
UCS
BRAVOZ – Reconhecimento de voz com suporte a grandes vocabulários (LVCSR) para o português brasileiroVerônica FeldkircherVanessa DavanzoAndré Gustavo Adami (orientador)
![Page 11: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/11.jpg)
Nagoya Institute of Technology
JuliusSoftware open source de reconhecimento
de vozJaponêsPode ser integrado a outras línguas
![Page 12: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/12.jpg)
Arquitetura
Speech input
Feature vector
Subword models
Spectral analysis
Word-level match
Sentence-level match
Lexicon SemanticsGrammar
Word model composition
Word model
Recognized sentence
![Page 13: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/13.jpg)
Arquitetura – Primeiro passo
Spectral analysisRetorna o vetor das
características do sinal de voz
Feature vectorSpectral
analysis
Speech input
![Page 14: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/14.jpg)
Arquitetura – Segundo passo
Junção de duas partes:World-level matchSentence-level match
Word-level match
Sentence-level match
![Page 15: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/15.jpg)
Arquitetura – Segundo passo
Word-level match:Conjunto de subpalavras HMMsForma léxica das palavrasCriação de conjunto de modelo de palavras HMMs
Subword models
Word-level match
Sentence-level match
Lexicon SemanticsGrammar
Word model composition
Word model
![Page 16: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/16.jpg)
Arquitetura – Segundo passo
Sentence-level match:Word grammar (syntax)SemanticsComposição de um modelo de linguagem FSN
Subword models
Word-level match
Sentence-level match
Lexicon SemanticsGrammar
Word model composition
Word model
![Page 17: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/17.jpg)
Arquitetura – Segundo passo
Integração do word-level match e do sentence-level match Level Building (LB) algorithm Exemplo de integração de uma gramática FSN em um algoritmo LB
![Page 18: Sistema para a transcrição automática de áudio/vídeo por meio de reconhecimento de voz](https://reader036.fdocumentos.tips/reader036/viewer/2022072108/568132e9550346895d99a61f/html5/thumbnails/18.jpg)
Arquitetura
Após a integração dos módulos de word-level match e sentence-level match é formada a sentença reconhecida
Subword models
Word-level match
Sentence-level match
Lexicon SemanticsGrammar
Word model composition
Word model
Recognized sentence