Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web
description
Transcript of Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web
Grupo de Inteligência ComputacionalMestrado em Ciência da Computação
Aluno: Juliano C. B. Rabelo
Orientadora: Flávia A. Barros
2
Roteiro
• Introdução
• O Estado da Arte
• Proposta
• Avaliação da Proposta
• Resultados Esperados
• Atividades Realizadas
• Próximos Passos (Cronograma)
3
O que é Question Answering?
• Sistemas de Pergunta-Resposta– Recuperação de Informação + Processamento
de Linguagem Natural– Recebem como entrada uma pergunta em
linguagem natural– Retornam como saída a resposta (curta) ao
invés de uma lista de documentos
• Exemplo:– P: Qual o melhor time de futebol do Nordeste?– R: Sport Club do Recife
4
Motivação
• A Web é o maior repositório de informações já construído
• Necessidade de informação melhor representada sob forma de pergunta
• Tecnologias (de RI) existentes são inadequadas– Negligenciam a semântica da pergunta e dos
documentos
• Em particular: não existem sistemas de PR em português
5
O Estado da Arte
• Abordagens iniciais– PLN: Part-of-speech tagging, parsing sintático
e semântico, ...
• Abordagens atuais– Padrões superficiais de texto
• Mais simples e eficientes
• Tendência– Combinação de casamento de padrões com
PLN
6
Proposta
• Criação de um sistema de pergunta-resposta em português na Web
• Módulos identificados– Análise da Pergunta– Seleção de Documentos Candidatos– Análise de Documentos Candidatos– Extração das Respostas– Construção do Resultado
7
Exemplo
Análise da Pergunta
Qual a maior cidade do norte do Afeganistão?
maior AND cidade AND norte AND Afeganistão
Seleção de Docs Candidatos
Web
Análise de Docs Candidatos
http://www1... http://www2...
- Gudermes, a segunda maior cidade da Chechênia... localizado nas fronteiras do Afeganistão - a 3 milhas de Mazar-e-Sharif, a maior cidade do norte do Afeganistão
Extração das Respostas
- Gudermes - Mazar-e-Sharif
Construção do Resultado
- Mazar-e-Sharif (a 3 milhas de Mazar-e-Sharif, a maior cidade do norte do Afeganistão) - Gudermes (Gudermes, a segunda maior cidade da Chechênia...)
8
Avaliação do Sistema
• TREC– 500 perguntas factuais
– Coleção proprietária de ~1 milhão de documentos
– Medida de desempenho• Antes de 2002: consideravam-se as 5 primeiras respostas
• Atualmente: só a primeira resposta
• O processo de avaliação que será usado seguirá os moldes do TREC– Criação de um corpus de pares <Pergunta, Resposta>
• Tamanho a definir
– Medir desempenho como o TREC fazia antes
9
Resultados Esperados
• Sistema concluído e disponível na Web
• Produção de um software extensível e re-usável
• Comparar desempenho do sistema utilizando diferentes implementações de alguns módulos
• Medir influência que o engenho de busca utilizado tem sobre o processo
10
Atividades Realizadas
• Disciplinas cursadas– Primeiro semestre
• Métodos de Computação Inteligente, Aplicações de Computação Inteligente, Paradigmas de Linguagem de Programação – Conceito A em todas
– Segundo semestre• Trabalho Individual – Conceito A• Tópicos Avançados em IA Simbólica I, Tópicos Avançados
em ES III – Conceitos não disponíveis
• Resultados preliminares– Revisão bibliográfica de Question Answering quase
concluída– Escolha da abordagem a ser empregada– Proposta de dissertação concluída
11
Atividades Realizadas
• Publicação e apresentação do artigo– Similar Documents Retrieval to Help Browsing
and Editing in Digital Repositories. In Proceedings of the IASTED CIIT’2002. St. Thomas, EUA. Nov/2002.
• Participação da Conference on Communications, Internet and Information Technology
• Estágio docência– Disciplina: Sistemas Inteligentes (Geber
Ramalho)
12
Próximos PassosAtividade Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev
Conclusão do semestre 2002.2
Levantamento de bibliografia
Modelagem do sistema
Implementação
Construção do corpus
Avaliação do sistema
Refinamentos
Escrita da dissertação
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web
Grupo de Inteligência ComputacionalMestrado em Ciência da Computação
Aluno: Juliano C. B. Rabelo
Orientadora: Flávia A. Barros