Post on 10-Dec-2018
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 1
CLEFOMANIAQA@L2F
Ana Mendes & Luísa Coheur
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Index
• Motivation
• Main Problems
• Evaluation Forums
• QA@L2F
• Final Remarks
2
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Index
• Motivation
• Main Problems
• Evaluation Forums
• QA@L2F
• Final Remarks
3
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 4
Question Answering Systems
Question/Answering (QA) systems search for the EXACT answer to a question in large collections of open-domain documents.
Q: Em que distrito fica Chaves?A: Vila Real.Q: Quantas freguesias tem o concelho?A: 51.Q: Que municípios ficam a oeste?A: Boticas e Montalegre.
Q: Quantos habitantes tinha em 2006?A: 44 186.
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 5
QA and search engines I
Q: O que é o Tux?A: a mascote oficial do sistema operativo GNU/Linux
Google: TuxTux - Wikipedia - [ Translate this page ]O Tux é a mascote oficial do sistema operativo GNU/Linux. O Tux, criado por Larry Ewing em 1996, é um pinguim gorducho que tem um ar satisfeito e saciado.... pt.wikipedia.org/wiki/Tux - 29k - Cached - Similar pages
Q: Quem era rei de Portugal em 1860?A: D. Pedro V
Google: “rei de Portugal” 1860
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 6
QA and search engines II
S.M.F. El-Rei de Portugal o Senhor D. Pedro V, [Lisboa, 1860 - [ Translate this page ]Título: S.M.F. El-Rei de Portugal o Senhor D. Pedro V, [Lisboa, 1860. Dados técnicos da cópia MASTER. Ficheiros, Tamanho. Conteúdo, Resolução: 72 dpi ...purl.pt/6903/0/info.html - 6k - Cached - Similar pagesDom Sebastião, Rei de Portugal..., [Lisboa?, 184-] - Biblioteca ... - [ Translate this page ]MAURIN, Antoine, 1793-1860 Dom Sebastião, Rei de Portugal... [Visual gráfico / pintado a óleo sobre cobre por Alphonso Sanchez Coelho, Portuguez ; lith.o do ...purl.pt/4095 - 7k - Cached - Similar pages[ More results from purl.pt ]PORTUGAL - DICIONÁRIO HISTÓRICO: D. Pedro V - [ Translate this page ]30.º rei de Portugal. N. em Lisboa no real Paço das Necessidades a 16 de ..... lado a efígie de D. Pedro V e do outro a legenda Expedição de Angola, 1860. ...www.arqnet.pt/dicionario/pedrov.html - 34k - Cached - Similar pages
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Index
• Motivation
• Main Problems
• Evaluation Forums
• QA@L2F
• Final Remarks
7
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 8
Main problems
• Linguistic variation
• Ambiguity
• Reasoning
• Quantity of the available information
• ...
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 9
Main problems
Quem é o autor do livro Equador? Quem é que é o escritor de Equador?Quem escreveu Equador?O livro Equador foi escrito por quem?
• Linguistic variation
• Ambiguity
• Reasoning
• Quantity of the available information
• ... ... o romance Equador de Miguel Sousa Tavares... ... sobre o livro Equador, de Miguel Sousa Tavares... É com esta história ... que Miguel Sousa Tavares inaugura a sua incursão naescrita literária. EQUADOR foi...
... no romance histórico Equador do escritor português Miguel Sousa Tavares...Miguel Sousa Tavares nasceu no Porto ... Seu primeiro livro lançado no Brasil foi “Equador”... Equador", romance de estréia do jornalista português Miguel Sousa best-seller Tavares ...
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 10
Main problems
• Qual é a altura da Torre de Belém?• Que personagem interpreta Madonna no filme XPTO• Que filmes fez Woody Allen?
• Linguistic variation
• Ambiguity
• Reasoning
• Quantity of available information
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 11
Main problems
• Linguistic variation
• Ambiguity
• Reasoning
• Quantity of available information
Como morreu Sá Carneiro?... O avião em que viajava Sá Carneiro despenhou-se em...
How should we know that “despenhar-se num avião” might mean “morrer”?
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory 12
Main problems
• Linguistic variation
• Ambiguity
• Reasoning
• Quantity of available information
From where do I start?
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
!"L2 F - Spoken Language Systems Laboratory
#$%&'()*+,-./0%/12
! !"#$%&'()*+'+,$+,$-(./01'23/$4*56/(78,9: ;/1/$0,<&6,0'0$'$*(./01'23/$0,9,8'(),=$+,5<'0)'(+/$'$>&,$(3/$*(),0,55'?
!"#$%&';@ABCDDE3$,4() 5,)(678%9:;< =5%->)(6+%7
! FGH9*</$IJJ" $ IE"$ KILKI$! FGH9*</$IJJK$ ILE$ KKDLD$! B/9M'$+,$NO$F'&9/$IJJ" IDP$ KIPLK$! B/9M'$+,$NO$F'&9/$IJJK IIE$ KCDQP$
E isto nem a pontinha do iceberg é...
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Index
• Motivation
• Main Problems
• Evaluation Forums
• QA@L2F
• Final Remarks
13
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Evaluation Forums with QA tasks
• Forums– NTCIR (NII Test Collection for IR Systems), – TREC (Text REtrieval Conference), – CLEF (Cross-Language Evaluation Forum)
• Goals: – to improve the research in this field, by evaluating the competing systems in
the same conditions.
14
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
CLEF 2007
• Portuguese QA task since 2004• Information Sources:
– Público 94/95 + Folha de São Paulo + Wikipedia (since 2007)
• Questions: 200, from different types:– Definition
• ex: O que é a UNICEF?– Factoid
• ex: Quando morreu D. Carlos?– List
• ex: Indique-me 3 vinhos do Porto.– Anáfora + Elipse (since 2007)
• ex: Quem era Boris Vian? • Onde é que ele nasceu? • Quando?
15
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
State of the Art in 2006
16
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
!"L2 F - Spoken Language Systems Laboratory
#$%&'()%*+,)-$%)./%
#$%&'()
! !"#$%"&'! ()#*+,-*."&! !"#$%&'
! ()*+,)
! -$".,/00
! *+1!(2)3,1!(24
! /&$+,0%1+,/#)23&2%'! 5(6,7)8
! 59),)(
! 59)376:+
! ;<<".
01,23)
*7=>=*7
*7=>=*7
*7=>=*7
*7=>=*7
*7=>=*7
!3=>=!3
!,=>=!,
?(=>=?(
67=>=67
@!=>=@!
38=>=38
4'-5/6*7'%3-&)./
ABCDDE
4FCDDE
4FCDDE
G4CBBE
GCADE
FHCIDE
FGCDDE
AJCKFE
HJCGKE
I4CHHE
HGCDDE
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Index
• Motivation
• Main Problems
• Evaluation Forums
• QA@L2F
• Final Remarks
17
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Motivação
• Objectivos
– Desenvolver um sistema de Question-Answering
– Participar no CLEF 2007
• Recursos
– Cadeia de Processamento de Língua Natural do L2F
• Análise morfo/sintáctica
– Duas teses de mestrado na área do Reconhecimento de Entidades Mencionadas
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Some QA techniques
• Corpus pre-processing– if information sources are known– in CLEF they are (Público, Folha de S. Paulo e wikipedia 2006)
• Question Interpretation– How to map the question into a logical formula, a SQL query or a frame; – which answer patterns can be extracted from the question
• Corpus reduction– Find the most relevant texts
• Answer extraction– choosing the answer– redundancy is one of the main keys
19
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Arquitectura Geral do QA@L2F
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Pré-Processamento do Corpus
• Objectivo– Arrumar a informação presente no corpus em base de dados
• para ser mais rapidamente acedida
• Problemática– Quantidade de informação disponível– Definir qual a informação relevante
• Metodologia– Utilizar a cadeia de processamento desenvolvida no L2F– Guardar os resultados em bases de dados
• Tabelas de Entidades Mencionadas• Tabelas de Factos
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
SNIPPET
ID snippet
5251
• Associa Entidades Mencionadas ao parágrafo em que aparecem
Pré-Processamento do CorpusTabela de Entidades Mencionadas
Em 1948, a abertura dos Jogos Olímpicos coube ao Rei Jorge VI.
NE_TIME
ID neTime
523 1948
NE_EVENT
ID neEvent
114 Jogos Olímpicos
NE_PEOPLE
ID nePeople
750 Rei Jorge VI
Em que ano é que o Rei Jorge VI abriu os Jogos Olímpicos?
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Pré-Processamento do CorpusTabela de Factos
• Utilizados padrões linguísticos para descobrir relações entre conceitos
... clássicos portugueses, como «Os Lusíadas», de Luís de Camões, ...
• «noun#1[culture]», prep noun#2[people] => confiança 99
... o livro «Os Lusíadas», da Porto Editora, ...
• «noun#1[culture]», prep noun#2[proper] => confiança 50
• Dependência: CULTURE(#1,#2)
FACT_CULTUREID culture author confidence count
125 Os Lusíadas Porto Editora 50 4
523 Os Lusíadas Luís de Camões 99 3
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Pré-Processamento do Corpus
Corpus jornalístico: 210.734 documentos
Processamento efectuado: 64.679 documentos
~30.69% documentos arrumados na base de dados
• Artigos jornalísticos não processados
• WikiXML (http://ilps.science.uva.nl/WikiXML/)
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Arquitectura Geral do QA@L2F
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Interpretação da Pergunta
• Objectivo– Extrair a informação relevante presente na pergunta
• Problemática– Anáfora e elipse– Variedade de formulações linguísticas– Domínio não fechado
• Metodologia– Especificar uma estrutura de representação da pergunta (frame)– Interpretar a pergunta, de forma a preencher os campos da frame
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Interpretação da Pergunta
Quem abriu os Jogos Olímpicos de 1948?
• Frame
SCRIPT TARGETENTIDADESAUXILIARES
VAZIOscript-who-v-geral.pl
"Jogos Olímpicos" EVENT "1948" TIME"abriu" "os Jogos Olímpicos"
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Arquitectura Geral do QA@L2F
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Extracção da Resposta Final
• Objectivo– Procurar as respostas candidatas para a pergunta formulada– Seleccionar a resposta certa
• Problemática– 2 tipos de fontes de informação distintos
• Artigos enciclopédicos e artigos jornalísticos
• Metodologia– Usar estratégias de extracção de resposta, baseadas no tipo de pergunta
1. Emparelhamento de Padrões Linguísticos2. Reordenação de Formulações Linguísticas3. Emparelhamento de Entidades Mencionadas4. Brute Force com Pós-PLN
• Mecanismo de Relaxamento de Restrições
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Extracção da Resposta Final1. Emparelhamento Padrões Linguísticos
• Perguntas-alvo:
– Quem é <pessoa>?– Quem escreveu/realizou/pintou <obra>?– Onde se localiza/situa <local>?
– O que significa <abreviatura>?
• Fonte de Informação: artigos jornalísticos
• Descrição A resposta é procurada nas Tabelas de Factos
Pergunta: Quem escreveu «Os Lusíadas»?
FACT_CULTUREID culture author confidence count
125 Os Lusíadas Porto Editora 50 4
523 Os Lusíadas Luís de Camões 99 3
645 Os Lusíadas Camões 99 3
777 Os Lusíadas Luís de Camões 99 2
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Extracção da Resposta Final2. Reordenação de Formulações Linguísticas
• Perguntas-alvo: definição
– Quem é <pessoa>?– O que é <conceito>?
• Fonte de Informação: artigos enciclopédicos
• Descrição Procurado o artigo cujo título é o conceito principal da pergunta
Feito um emparelhamento com:
<padrao> := <pessoa>|<conceito> [<info>] <verbo_ser> <info> “,”|“.”
Pergunta: O que é a cladística?
WIKIPEDIAID page_title page_text
1255 CladísticaA Cladística é um método de análise das relações evolutivas entre grupos
de seres vivos, de modo a obter a sua “genealogia”....
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Extracção da Resposta Final2. Reordenação de Formulações Linguísticas
• Perguntas-alvo: lista
– Mencione/diga um <conceito>.
• Fonte de Informação: artigos enciclopédicos
• Descrição O conceito é procurado nos artigos, através de interrogações full-text
Se encontrado, o título do artigo é a resposta
Pergunta: Diga um mamífero roedor.
WIKIPEDIAID page_title page_text
51423 EsquiloO esquilo é um mamífero roedor da família Sciuridae. No Brasil, o esquilo
também é conhecido por...
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Extracção da Resposta Final3. Emparelhamento de Entidades Mencionadas
• Perguntas-alvo: factuais
• Fonte de Informação: artigos jornalísticos
• Descrição
Os parágrafos contendo as Entidade Mencionadas presentes na pergunta são recolhidos
Escolhida a Entidade Mencionada mais frequente, do tipo pretendido pela pergunta
Pergunta: Quem abriu os Jogos Olímpicos de 1948?
Resposta: Entidade Mencionada do tipo PEOPLE
NE_PEOPLE
ID nePeople
750 Rei Jorge VI
888 Etienne Gailly
SNIPPET
ID snippet
125 Os Jogos Olímpicos de 1948...
5251 Em 1948, a abertura dos Jogos Olímpicos...
8777 Em 1948, nos Jogos Olímpicos
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Extracção da Resposta Final4. Brute Force com Pós-PLN
• Perguntas-alvo: todas
• Fonte de Informação: artigos jornalísticos não processados
• Descrição
Faz a procura pelos conceitos presentes na pergunta, através de interrogações full-text
Os parágrafos recolhidos são processados
Escolhida a Entidade Mencionada mais frequente, do tipo pretendido pela pergunta
Pergunta: De que grupo é vocalista Teresa Salgueiro?
Pesquisa: Teresa Salgueiro + vocalista
Resposta: Entidade Mencionada do tipo PROPER => Madredeus
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Extracção da Resposta FinalMecanismo de Relaxamento de Restrições
Quem é Boaventura Kloppenburg?
Emp. Padrões Linguísticos => sem resposta!
Reord. de Formulações Linguísticas => sem resposta!
Emp. de Entidades Mencionadas => sem resposta!
Brute force com Pós-PLN => bispo
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Avaliação
• Avaliação no Fórum CLEF
Classificação # Respostas % Respostas
Certas 26 13.00
Erradas 168 84.00
Inexactas 4 2.00
Não Suportadas 2 1.00
Total 200 100.00
Classificação Factuais Definição Lista Restr. Temporais NILCertas 8 18 0 1 9
Erradas 150 8 10 18 141
Inexactas 0 4 0 0 0
Não Suportadas 1 1 0 0 0
Total 159 31 10 19 150
Precisão 5.03% 58.06% 0.00% 5.26% 6.00%
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
AvaliaçãoCLEF 2007
• Apenas 114 perguntas com script de extracção de resposta– As outras devolvem NIL por omissão
– 17 respostas certas
• 3 respondidas pela estratégia de emparelhamento de padrões linguísticos
• 14 respondidas pela estratégia de reordenação de formulações linguísticas
• 2 utilizaram mecanismo de relaxamento de restrições
• Estratégias seguidas– Emparelhamento de padrões linguísticos => utilizada 17 vezes
– Reordenação de Formulações Linguísticas => utilizada 22 vezes
– Emparelhamento de Entidades Mencionadas => não deu resultados
– Brute-force com Pós-PLN => conduziu a respostas inexactas
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
AvaliaçãoCLEF 2007
• Anáfora e elipse não tratadas (50 em 200 perguntas)
• Perguntas do tipo lista não detectadas como tal
P: Quais são os signos do zodíaco?
• Inexactidão é subjectiva
P: Quem foi Henrik Ibsen?
R: dramaturgo
F: Estou falando no Ibsen original, norueguês, Henrik Ibsen, dramaturgo que escreveu Peer Gynt
R: dramaturgo que escreveu Peer Gynt
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
• Gráficos comparativos
AvaliaçãoCLEF 2007
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Conclusão
• Determinadas estratégias adequam-se melhor a determinado tipo de perguntas
• Vale a pena investir no pré-processamento do Corpus– Nomeadamente na recolha de Factos
• Detecção de Entidades Mencionadas é importante para o sistema
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Trabalho Futuro
• Extensões ao QA@L2F
– Aumentar o leque de perguntas tratadas– Melhorar a representação de frames– Continuar a estratégia de reordenação de formulações linguísticas– Experimentar novos métodos de escolha de resposta final
• Novas Funcionalidades no QA@L2F
– Encontrar a resposta na sintaxe– Desenvolver um módulo de validação da resposta– Testar uma subdivisão em domínios– Recorrer à Internet como fonte de informação
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
QA@L2F future work
•
CLEFOMANIA 2 (QA@L2F) In a lab near you..
42
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa
technologyfrom seed
L2 F - Spoken Language Systems Laboratory
QA@L2F results II
• Still “negotiating” 7 questions• 2 correct, marked as wrong
<q>Quem foi Pirro?</q><answer>rei do Épiro e rei da Macedónia</answer> <judgment>W</judgment>
• 4 marked as M (??) <q>Quem foi Henrik Ibsen?</q> <answer>dramaturgo</answer><docid> <support>Estou falando no Ibsen original, norueguês, Henrik Ibsen, dramaturgo que escreveu Peer Gynt .</support> <judgment>M</judgment>
• 1 of the Us is supported.
44