BrowserVox: Uma Extensão de Interface de Voz para um Navegador Open-Source
-
Upload
elizabete-munzlinger -
Category
Documents
-
view
256 -
download
7
Transcript of BrowserVox: Uma Extensão de Interface de Voz para um Navegador Open-Source
WebMedia 2010
Interface multiusuário
“Chega aí!”
BROWSERVOXUMA EXTENSÃO DE INTERFACE DE VOZ PARA UM NAVEGADOR OPEN-SOURCE
Instituto Tecnológico de AeronáuticaDivisão de Ciência da Computação
Elizabete Munzlinger; Fabricio da S. Soares; Carlos H. Q. [email protected]; [email protected]; [email protected]
Extension [JavaScript]
BrowserVox é uma extensão multimodal para o navegador Mozilla Firefox
Pode ser utilizado
por qualquer usuário sem a necessidade de treinamento prévio para que o sistema reconheça seus comandos de voz.
TODO MUNDO QUER FALAR !
Arquitetura do projeto de interface multimodal
Navegue através de comandos de voz para o texto dos links no idioma Português-Brasileiro.
Use as etiquetas numéricas para navegar por links com imagens, textos com símbolos, siglas, abreviaturas e termos estrangeiros, e claro, em sites de outros idiomas.
AMIGOS: “Mostra o link 10 aí mano!”
FAMILIARES: “Você pode ir para o link esporte?”
AMORES: “Querido BrowserVox, pode por favor me mostrar a notícia Saulo briga com Estela”
SUPERIORES: “Por obséquio me apresente o conteúdo economia e negócios!”
COLEGAS APRESSADOS: “29!”
“Como se falasse comum dos seus...”
Variação nos comandos: Característica única conseguida pelo projeto
de gramáticas auxiliares.
Ingredientes- Linguagem de Programação Java.
- Dynamic HTML (HTML +JavaScript + DOM + CSS).
- Sistema IBM Via Voice PT-BR (ASR e TTS).
- API IBM Java Speech Technology (JSAPI).
- Gramáticas auxiliares (JSGF e JSML).
PreparoInterface de etiquetas numéricas
programada em DHTML. O programa varre o arquivo hipertexto em busca
de links. Para cada link é acrescentada uma etiqueta numérica pela
manipulação do DOM.Interface de fala desenvolvida em Java.
O programa acessa o engine de ASR e TTS do Via Voice via componente JSAPI
consultando as gramáticas JSGF e JSML, que são geradas dinamicamente, para cada
página visitada.
O sistema é acionado por meio de um botão na barra de ferramentas do navegador. As etiquetas surgem deslizantes na página e a interface de
fala é ativada alocando os recursos de som da máquina.O usuário pode ditar os comandos ou utilizar
mouse e teclado da forma convencional.