Miguel Salles DiasMiguel Salles DiasDirectorDirector
AgendaAgenda Microsoft e o Microsoft e o
processamento da fala e processamento da fala e da língua naturalda língua natural
Produtos de fala Produtos de fala MicrosoftMicrosoft
Iniciativa Microsoft de I&D Iniciativa Microsoft de I&D em Portugalem Portugal
ConclusãoConclusão Perguntas e RespostasPerguntas e Respostas
Microsoft e o processamento da Microsoft e o processamento da fala e da língua naturalfala e da língua natural
Investimentos em I&D de longo termoInvestimentos em I&D de longo termo1991: Fundação do grupo de Língua Natural 1991: Fundação do grupo de Língua Natural na na MS ResearchMS Research1992: Grupo de Fala criado1992: Grupo de Fala criado1995: Primeiras ferramentas de revisão no 1995: Primeiras ferramentas de revisão no MS WordMS Word1998: Grupo de desenvolvimento de produto 1998: Grupo de desenvolvimento de produto formadoformado2000: Investimento ao nível da divisão2000: Investimento ao nível da divisãoHoje: Distribuição de produtos empacotados Hoje: Distribuição de produtos empacotados em todas as plataformasem todas as plataformas
Congrega talento reconhecido de I&D Congrega talento reconhecido de I&D mundial em Fala e Língua Natural mundial em Fala e Língua Natural Objectivo: tecnologias da língua natural Objectivo: tecnologias da língua natural e da fala com impacto no quotidianoe da fala com impacto no quotidiano
Microsoft e o processamento da Microsoft e o processamento da fala e da língua fala e da língua
““Speech and natural language Speech and natural language understanding are the key understanding are the key
technologies that will have the most technologies that will have the most impact in the next 15 years.” — impact in the next 15 years.” —
Bill GatesBill Gates
Fala integrada em diversas Fala integrada em diversas plataformasplataformas
DesktopDesktop•IU ricaIU rica•Microfone partilhadoMicrofone partilhado•Utilizador controla Utilizador controla fala/escutafala/escutaTelefoneTelefone
•Somente vozSomente voz•Aplicação controla Aplicação controla fala/escutafala/escuta
Computação MóvelComputação Móvel
•Interface MultimodalInterface Multimodal
Productos de fala Microsoft actuaisProductos de fala Microsoft actuaisTelefoniaTelefonia DesktopDesktop MobilidadeMobilidade
Embedded SRCommand/Control
DictationEnterprise
Applications
Iniciativa Microsoft Iniciativa Microsoft de I&D nos domínios da de I&D nos domínios da fala e língua natural, em fala e língua natural, em
PortugalPortugal
Desenvolvimento do suporte Desenvolvimento do suporte computacional a uma nova línguacomputacional a uma nova língua
Características locais (caso Português)Características locais (caso Português)Língua:Língua:
Português EuropeuPortuguês EuropeuRegionalismos linguísticosRegionalismos linguísticosJargão profissional: medicina, direito, engenharia, economiaJargão profissional: medicina, direito, engenharia, economia
Fala:Fala:Pronúncias regionaisPronúncias regionaisFala das crianças, etc.Fala das crianças, etc.
Alterações constantesAlterações constantesEvolução da língua: neologismos, termos em desusoEvolução da língua: neologismos, termos em desusoActualizações oficiais da língua: acordo ortográficoActualizações oficiais da língua: acordo ortográfico
Processamento intensivo de dados Processamento intensivo de dados Necessita de centenas do horas de corporaNecessita de centenas do horas de corporaNecssita de peritos e cientistas em linguistica e língua Necssita de peritos e cientistas em linguistica e língua naturalnatural
• A I&D é melhor realizada por A I&D é melhor realizada por peritos e cientistas com peritos e cientistas com conhecimento linguístico local!conhecimento linguístico local!
Potenciar a indústria de Potenciar a indústria de software e a I&D locaissoftware e a I&D locais1.1. Investimento Directo Estrangeiro Investimento Directo Estrangeiro
(IDE)(IDE)Em I&DEm I&D
Na Indústria de Na Indústria de SoftwareSoftware Nacional Nacional
Potenciado com parceiras locais com Potenciado com parceiras locais com a Microsofta Microsoft
Universidades, Empresas, Institutos, Universidades, Empresas, Institutos, Laboratórios e Unidades de I&D FCT Laboratórios e Unidades de I&D FCT PortuguesasPortuguesas
2.2. Protecção da Propriedade Protecção da Propriedade IntelectualIntelectual
3.3. Industrializar e Exportar Software Industrializar e Exportar Software NacionalNacional
Situação da indústria de Situação da indústria de software e da I&Dsoftware e da I&D
em Fala e Língua Natural, em em Fala e Língua Natural, em PortugalPortugal
Indústria Portuguesa de softwareIndústria Portuguesa de software
PRIBERAM, www.priberam.ptPRIBERAM, www.priberam.pt
PT Inovação, www.ptinovacao.ptPT Inovação, www.ptinovacao.pt
A I&D Nacional em fala e língua naturalA I&D Nacional em fala e língua natural
1.1. CLULCLUL, Centro de Linguística da Universidade de Lisboa, Maria do , Centro de Linguística da Universidade de Lisboa, Maria do Céu VianaCéu Viana
2.2. CLUNLCLUNL, Centro de Estudos Comparados de Línguas e Literaturas , Centro de Estudos Comparados de Línguas e Literaturas Modernas, Universidade Nova de Lisboa, Maria Teresa LinoModernas, Universidade Nova de Lisboa, Maria Teresa Lino
3.3. CLUP/FLUP, CLUP/FLUP, Faculdade de Letras da Universidade do Porto, Belinda Faculdade de Letras da Universidade do Porto, Belinda Maia Maia
4.4. ILTECILTEC (Instituto de Linguística Teórica e Computacional), Maria (Instituto de Linguística Teórica e Computacional), Maria Helena Mira Mateus Helena Mira Mateus
5.5. L2FL2F - Laboratório de sistemas de Língua Falada, Isabel Trancoso - Laboratório de sistemas de Língua Falada, Isabel Trancoso6.6. LabEL-CAUTL/ISTLabEL-CAUTL/IST, Laboratório de Engenharia da Linguagem do , Laboratório de Engenharia da Linguagem do
Centro de Automática da Universidade Técnica de Lisboa, Instituto Centro de Automática da Universidade Técnica de Lisboa, Instituto Superior Técnico, Elisabete Ranchhod Superior Técnico, Elisabete Ranchhod
7.7. NLXNLX - Grupo de Linguagem Natural do Departamento de Informática - Grupo de Linguagem Natural do Departamento de Informática da Faculdade de Ciências da Universidade de Lisboa, António da Faculdade de Ciências da Universidade de Lisboa, António Branco Branco
8.8. SINTEFSINTEF, Oslo, Diana Santos, Oslo, Diana Santos 9.9. Departamento de Informática da Departamento de Informática da UniversidadeUniversidade do do MinhoMinho, José João , José João
Dias de Almeida, Pedro Rangel Henriques Dias de Almeida, Pedro Rangel Henriques 10.10. XLDB/LasiGE/FCULXLDB/LasiGE/FCUL- Centro de Recursos Distribuído para a Língua - Centro de Recursos Distribuído para a Língua
Portuguesa, Faculdade de Ciências da Universidade de Lisboa, Portuguesa, Faculdade de Ciências da Universidade de Lisboa, Mário Gaspar da SilvaMário Gaspar da Silva
Iniciativas de I&DIniciativas de I&DLinguatecaLinguateca:: www.linguateca.ptwww.linguateca.pt
Centro de recursos – distribuído – para o Processamento Centro de recursos – distribuído – para o Processamento computacional da Língua Natural Portuguesacomputacional da Língua Natural Portuguesa
Rede de grupos de investigação em PLN, iniciada em 2000 pela Rede de grupos de investigação em PLN, iniciada em 2000 pela FCCNFCCN
Modelo IRA: Modelo IRA: IInformação – nformação – RRecursos – ecursos – AAvaliação valiação
I:I: > 1000 links > 1000 links Mais de 1,8 milhões de visitas ao sítioMais de 1,8 milhões de visitas ao sítio
R:R: AC/DCAC/DC, , CETEMPúblicoCETEMPúblico, , COMPARACOMPARA,, CorpógrafoCorpógrafo, , Floresta Floresta Sintá(c)ticaSintá(c)tica, , WPT-03WPT-03 Recursos (públicos) valiosos para o Português Recursos (públicos) valiosos para o Português
A:A: Morfolimpíadas, Morfolimpíadas, CLEF, HAREM:CLEF, HAREM:
Avaliação conjunta para o PortuguêsAvaliação conjunta para o Português
I & D no processamento do PortuguêsI & D no processamento do Português
Oslo
LisboaXLDBPorto
Odense
Coimbra
LisboaCOMPARA
LisboaLabEL
Braga
Iniciativas de I&D - Iniciativas de I&D - TECNOVOZTECNOVOZ
Iniciativas de I&DIniciativas de I&DTECNOVOZTECNOVOZ: : Reconhecimento e Síntese Reconhecimento e Síntese de Falade Fala Projecto apoiado no âmbito dos PMDT (Portaria nº 1183/2001, de Projecto apoiado no âmbito dos PMDT (Portaria nº 1183/2001, de
15 Outubro);15 Outubro);
Investimento: 12 Milhões EurosInvestimento: 12 Milhões Euros
Calendário: Dez. 2005 – Set. 2008Calendário: Dez. 2005 – Set. 2008
Investigação em Consórcio, com 12 Organizações (4 ESCTN e 8 Investigação em Consórcio, com 12 Organizações (4 ESCTN e 8 Empresas)Empresas)
166 Técnicos das Organizações Consórcio166 Técnicos das Organizações Consórcio
Vai desenvolver 13 produtos/sistemas para 10 segmentos de Vai desenvolver 13 produtos/sistemas para 10 segmentos de mercadomercado
Microsoft foi convidada para colaboração Microsoft foi convidada para colaboração estreitaestreita
L2F - Laboratório de sistemas de Língua L2F - Laboratório de sistemas de Língua Falada http://speech.inesc.pt/Falada http://speech.inesc.pt/
HistorialHistorialPortuguês falado desde anos 90Português falado desde anos 90
25 Investigadores (8 PhD)25 Investigadores (8 PhD)
MissãoMissãoConversão Fala-para-Texto e Texto-para-Fala em Conversão Fala-para-Texto e Texto-para-Fala em Português: Português:
Fazer a ponte entre a língua falada e a Fazer a ponte entre a língua falada e a informação semântica subjacenteinformação semântica subjacente
Tecnologias de baseTecnologias de baseReconhecimento, síntese e codificação de falaReconhecimento, síntese e codificação de fala
Ferramentas de PLN: Ferramentas de PLN:
análise morfológica, sintáctica, semântica, análise morfológica, sintáctica, semântica, geração, etc. geração, etc.
Exemplo de cooperação: Exemplo de cooperação: desenvolvimento do modelo de faladesenvolvimento do modelo de fala
Corpora
Léxico
Modelo
Acústico
Novo Corpo
ra
Novo Lexico
Novo Model
o Acústi
co
Motor de Motor de ReconhecimReconhecimento de Fala ento de Fala LocalizadoLocalizado
Processo Processo Iterativo até Iterativo até
que o nível de que o nível de qualidade seja qualidade seja
atingidoatingido
Parceiros de I&D Parceiros de I&D e empresariaise empresariais
locaislocaisEmpregados Empregados Microsoft Microsoft
locaislocaisModelode Língua
Novo Modelo
de Língua
Motor de Motor de ReconhecimReconhecimento de Falaento de Fala
Estratégia de Estratégia de desenvolvimento desenvolvimento de língua da de língua da MicrosoftMicrosoft
Desenvolvimento Desenvolvimento em Redmond (EUA)em Redmond (EUA)
Desenvolvimento localDesenvolvimento locale parcerias come parcerias com
peritos e cientistasperitos e cientistasdo país do país
Ecosistema com 3as PartesEcosistema com 3as Partespara tecnologias de Fala para tecnologias de Fala
e Língua Naturale Língua Natural
• PilotoPiloto• Modelo de I&D em colaboração EUA-Europa (Portugal)Modelo de I&D em colaboração EUA-Europa (Portugal)• Parcerias locais estratégicasParcerias locais estratégicas• “ “Modelo Português” passível de “exportação”Modelo Português” passível de “exportação”
Futuro: comunidade Futuro: comunidade internacional dinâmica internacional dinâmica expandindo a tecnlogiaexpandindo a tecnlogia
Iniciativa Microsoft de I&DIniciativa Microsoft de I&Dem Portugal - Estratégiaem Portugal - Estratégia
1.1. Fundação de um Centro de I&D em Fundação de um Centro de I&D em Interacção Natural Pessoa-MáquinaInteracção Natural Pessoa-Máquina
Director: Miguel Salles DiasDirector: Miguel Salles DiasRamo do grupo de RedmondRamo do grupo de RedmondRecebe ferramentas e conhecimento do grupo Recebe ferramentas e conhecimento do grupo de Redmond e da Microsoft Corporation de Redmond e da Microsoft Corporation Inicia com projectos de Fala, Língua Natural e Inicia com projectos de Fala, Língua Natural e Escrita em PortuguêsEscrita em PortuguêsTratará no médio-longo prazos, da interacção Tratará no médio-longo prazos, da interacção natural pessoa-computador em geralnatural pessoa-computador em geral
2.2. Parcerias locais com Universidades, Parcerias locais com Universidades, Empresas, Institutos, Laboratórios e Empresas, Institutos, Laboratórios e Unidades de I&D FCTUnidades de I&D FCT
I&D com recursos de ambas as partesI&D com recursos de ambas as partesAcordos de partilha de Propriedade Intelectual Acordos de partilha de Propriedade Intelectual
Iniciativa Microsoft de I&D Iniciativa Microsoft de I&D em Portugal – Plano curto em Portugal – Plano curto prazoprazo
Objectivos a curto prazo (Objectivos a curto prazo (em em estudo)estudo)
Obtenção de recursos Obtenção de recursos linguísticos de Falalinguísticos de FalaProjecto 1Projecto 1::
Beta para demo Fala no Beta para demo Fala no desktopdesktopComandos e controlos básicosComandos e controlos básicos
Projecto 2Projecto 2::Modelos de Reconhecimento de Modelos de Reconhecimento de Fala para TelefoniaFala para Telefonia
Versão localizada do Versão localizada do Voice Voice CommandCommand
Projecto 3Projecto 3: : ToolkitToolkit de Recursos para de Recursos para Desenvolvimento e Teste de FLNDesenvolvimento e Teste de FLN
Iniciativa Microsoft de I&DIniciativa Microsoft de I&Dem Portugal – em Portugal – Plano médio Plano médio prazoprazo
Objectivos a médio prazoObjectivos a médio prazo (em (em estudo):estudo):
Projecto 4Projecto 4: Modelos de Língua e : Modelos de Língua e Modelos de Ditado no Modelos de Ditado no DesktopDesktop Projecto 5:Projecto 5: Componentes de Língua Componentes de Língua NaturalNaturalProjecto 6Projecto 6: Análise Gramatical: Análise GramaticalProjecto 7Projecto 7: : Text To SpeechText To Speech – – TTSTTSColaboração com MSR:Colaboração com MSR:
Projecto 8Projecto 8: : Machine TranslationMachine TranslationProjecto 9Projecto 9: Interfaces multimodais em : Interfaces multimodais em desktopdesktopProjecto 10Projecto 10: Interfaces multimodais em : Interfaces multimodais em mobilidademobilidade
Iniciativa Microsoft de I&DIniciativa Microsoft de I&Dem Portugal - em Portugal - RecursosRecursos
Recursos humanos – própriosRecursos humanos – próprios (em estudo): (em estudo):Director – Gestor de ProgramaDirector – Gestor de Programa
Desenvolvimento: Desenvolvimento: 1 a 21 a 2 por projecto por projectoTeste: Teste: 1 a 21 a 2 por projecto por projectoPerito(a) em Linguística: Perito(a) em Linguística: 22 para os para os 1010 projectosprojectos
Em “velocidade de cruzeiro, com todos os Em “velocidade de cruzeiro, com todos os projectos a decorrer: podemos atingir os projectos a decorrer: podemos atingir os 2525 recursos própriosrecursos própriosEm cada projecto vamos estabelecer parcerias Em cada projecto vamos estabelecer parcerias estratégicas de mútuo interesseestratégicas de mútuo interesse
Recursos humanos Microsoft + parceiros Recursos humanos Microsoft + parceiros podem atingir os podem atingir os 7575
Investimento próprioInvestimento próprio (em estudo)(em estudo) : :No No primeiro anoprimeiro ano: : 1.21.2 MEuro MEuroEm “velocidade de cruzeiro”, com os Em “velocidade de cruzeiro”, com os 5 projectos5 projectos a decorrer em simultâneo: a decorrer em simultâneo: 22 MEuro/ano MEuro/ano
ConclusãoConclusão
1.1. Microsoft: fala e língua Microsoft: fala e língua natural são importantesnatural são importantes
Cobertura extensa de línguas a Cobertura extensa de línguas a nível global (ex: Word 12 nível global (ex: Word 12 suporta mais de 70 Línguas)suporta mais de 70 Línguas)
2.2. IDE em I&DIDE em I&D3.3. Colaboração com as Colaboração com as
empresas e os cientistas em empresas e os cientistas em PortugalPortugal
Juntos servimos melhor os Juntos servimos melhor os utilizadores de computadores utilizadores de computadores PortuguesesPortugueses
ObrigadoObrigadopela vossa atençãopela vossa atenção
Miguel Salles DiasMiguel Salles Dias
Director Director
[email protected]@microsoft.com
Tratamento computacional da fala e língua portuguesas
1º Centro de I&D Microsoft
Sessão de perguntas e respostasSessão de perguntas e respostas
[email protected]@microsoft.com
Top Related