Avaliação Conjunta de Sistemas de Reconhecimento de Entidades Menciondas

19
Avaliação Conjunta Avaliação Conjunta de de Sistemas de Reconhecimento de Sistemas de Reconhecimento de Entidades Menciondas Entidades Menciondas Cristina Mota [email protected] Linguateca, Pólo do LabEL, IST http://label.ist.utl.pt http://www.linguateca.pt AvalON'2003 Encontro de Avaliação Conjunta de Sistemas de Processamento Computacional do Português Faro, Portugal – 28 de Junho de 2003

description

Avaliação Conjunta de Sistemas de Reconhecimento de Entidades Menciondas. Cristina Mota [email protected] Linguateca, Pólo do LabEL, IST http://label.ist.utl.pt http://www.linguateca.pt. - PowerPoint PPT Presentation

Transcript of Avaliação Conjunta de Sistemas de Reconhecimento de Entidades Menciondas

Page 1: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Avaliação Conjunta Avaliação Conjunta de de

Sistemas de Reconhecimento de Entidades Sistemas de Reconhecimento de Entidades MenciondasMenciondas

Cristina [email protected]

Linguateca, Pólo do LabEL, ISThttp://label.ist.utl.pt

http://www.linguateca.pt

AvalON'2003 Encontro de Avaliação Conjunta de Sistemas de Processamento Computacional do Português

Faro, Portugal – 28 de Junho de 2003

Page 2: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Pessoas

Qual é o objecto de avaliação?

Nomes próprios

Sistemas ou módulos de sistemas que façam Reconhecimento de Entidades Mencionadas (Named Entity Recognition)

Fernando Pessoa

Maria do Carmo

Sampaio

Organizações

IST

Instituto Superior Técnico

Portugal Telecom

Lugares

Castelo Branco

Serra da Estrela

Minho

Outros

Renault 4

O Lago dos Cisnes

Tio Patinhas

Page 3: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Qual é o objecto de avaliação?

Expressões Temporais

Datas

24 de Janeiro de 2000

segundo semestre de 1992

anos 60

Horas

meio-dia

13:40

4 horas da manhã

Expressões Numéricas

Monetárias

20 milhões de euros

900 mil contos

Percentuais

10.5%sete por cento

Sistemas ou módulos de sistemas que façam Reconhecimento de Entidades Mencionadas (Named Entity Recognition)

Page 4: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Anotação Manual ou Semi-Automática

Objectivos

TarefaAnotar as entidades mencionadas de forma manual ou semi-automática (automática com revisão) nos 10 primeiros extractos do CETEMPúblico e nos 20 primeiros extractos do CETENFolha

Foi feita a sugestão inicial de usar as etiquetas PESSOA, ORGANIZAÇÃO, LUGAR e OUTRO, deixando em aberto a possibilidade de escolha de um conjunto de etiquetas alternativo ou complementar.

• Identificar as entidades mencionadas que se querem ver reconhecidas pelos sistemas

• Estabelecer um conjunto de etiquetas para classificar as entidades

• Definir critérios para a atribuição das etiquetas às entidades

• Avaliar o grau de concordância entre os anotadores

• Caracterizar um conjunto de problemas específicos

Selecção dos textos – CP e CF porque são públicos e estão a ser trabalhados também a outros níveis

(Incluir dados sobre as dimensões)

Page 5: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Anotação Manual ou Semi-Automática

<p>

<s>O caso ocorreu numa noite de 1978, na ilha de Carvalo, ao largo da

Córsega.</s>

<s>O príncipe jantava com amigos num restaurante deste paraíso para

milionários, quando um grupo barulhento de jovens da alta sociedade italiana

acostou na enseada de Palma, ao lado do seu iate, o L'Aniram.</s>

<s>Os advogados da defesa sublinharam no processo que este facto

perturbou altamente o "senhor de Sabóia".</s>

<s>Naquele ano, as Brigadas Vermelhas (BR) estavam no auge da

actividade terrorista, o líder cristão-democrata Aldo Moro acabara de ser

raptado, e o príncipe -- proibido de entrar em Itália desde o exílio do pai em

1946 -- teria mesmo recebido ameaças das BR.</s>

</p>

Exemplo

Page 6: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Anotação Manual ou Semi-Automática

<p>

<s>O caso ocorreu numa noite de 1978, na ilha de Carvalo, ao largo da

Córsega.</s>

<s>O príncipe jantava com amigos num restaurante deste paraíso para

milionários, quando um grupo barulhento de jovens da alta sociedade italiana

acostou na enseada de Palma, ao lado do seu iate, o L'Aniram.</s>

<s>Os advogados da defesa sublinharam no processo que este facto

perturbou altamente o "senhor de Sabóia".</s>

<s>Naquele ano, as Brigadas Vermelhas (BR) estavam no auge da

actividade terrorista, o líder cristão-democrata Aldo Moro acabara de ser

raptado, e o príncipe -- proibido de entrar em Itália desde o exílio do pai em

1946 -- teria mesmo recebido ameaças das BR.</s>

</p>

Exemplo

Page 7: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Anotação Manual ou Semi-Automática

<p> <s>O caso ocorreu numa noite de 1978, na ilha de <NOMEPROP TIPO="LUGAR">Carvalo</NOMEPROP>, ao largo da <NOMEPROP TIPO="LUGAR">Córsega</NOMEPROP>.</s> <s>O príncipe jantava com amigos num restaurante deste paraíso para milionários, quando um grupo barulhento de jovens da alta sociedade italiana acostou na enseada de <NOMEPROP TIPO="LUGAR">Palma</NOMEPROP>, ao lado do seu iate, o <NOMEPROP TIPO="BARCO">L'Aniram </NOMEPROP>.</s> <s>Os advogados da defesa sublinharam no processo que este facto perturbou altamente o "senhor de <NOMEPROP TIPO="LUGAR">Sabóia </NOMEPROP>".</s> <s>Naquele ano, as <NOMEPROP TIPO="ORGANIZAÇÃO">Brigadas Vermelhas</NOMEPROP> (<NOMEPROP TIPO="ORGANIZAÇÃO">BR </NOMEPROP>) estavam no auge da actividade terrorista, o líder cristão-democrata <NOMEPROP TIPO="PESSOA">Aldo Moro</NOMEPROP> acabara de ser raptado, e o príncipe -- proibido de entrar em <NOMEPROP TIPO="LUGAR">Itália</NOMEPROP> desde o exílio do pai em 1946 -- teria mesmo recebido ameaças das <NOMEPROP TIPO="ORGANIZAÇÃO">BR</NOMEPROP>.</s> </p>

Exemplo

Page 8: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Anotação Manual ou Semi-Automática

Participantes

Alberto Simões (Linguateca, Pólo do Minho)

Cláudia Pinto (Priberam)

Cristina Mota (Linguateca, Pólo do LabEL)

Diana Santos (Linguateca, Pólo do Sintef)

Eckhard Bick (Southern Denmark University)

Lucelia de Oliveira (NILC)

Paula Carvalho (LabEL)

Raquel Marchi (NILC)

Vanessa Maquiafavel (NILC)

Page 9: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Primeiros Resultados

CP EM NPr

Mínimo 81 81

Máximo 106 99

CF EM NPr

Mínimo 98 98

Máximo 134 111

Page 10: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Primeiros Resultados

A propósito, no Museu da Segunda Guerra Mundial, que aí foi aberto, a história da maior guerra no continente europeu começa com a fotografia de Estaline a cumprimentar o ministro dos Negócios Estrangeiros da Alemanha nazi, ou seja, a guerra começa com a assinatura do Pacto Molotov-Ribbentrop.

A propósito, no Museu da Segunda Guerra Mundial, que aí foi aberto, a história da maior guerra no continente europeu começa com a fotografia de Estaline a cumprimentar o ministro dos Negócios Estrangeiros da Alemanha nazi, ou seja, a guerra começa com a assinatura do Pacto Molotov-Ribbentrop.

Concordância-1

Relativa ao total de entidades identificadas por pelo menos um anotador

33,33% (1em 3)Museu da Segunda Guerra MundialEstaline• ministro dos Negócios Estrangeiros• AlemanhaPacto Molotov-Ribbentrop

Museu da Segunda Guerra MundialEstaline• ministro dos Negócios Estrangeiros

da Alemanha

Concordância-2

Relativa ao total de nomes próprios identificadas por pelo menos um anotador

33,33% (1em 3)Museu da Segunda Guerra MundialEstaline• ministro dos Negócios Estrangeiros• AlemanhaPacto Molotov-Ribbentrop

Museu da Segunda Guerra MundialEstaline• ministro dos Negócios Estrangeiros

da Alemanha

Concordância-3

Relativa ao total de nomes próprios identificadas por todos os anotadores

50% (1em 2)Museu da Segunda Guerra MundialEstaline• ministro dos Negócios Estrangeiros• AlemanhaPacto Molotov-Ribbentrop

Museu da Segunda Guerra MundialEstaline• ministro dos Negócios Estrangeiros

da Alemanha

Page 11: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Primeiros Resultados

CETEMPúblico CETENFolha

Concordância-1 31,58% (30 em 95) 24,59% (30 em 122)

Concordância-2 37,97% (30 em 79) 30,61% (30 em 98)

Concordância-3 50,85% (30 em 59) 45,45% (30 em 66)

Concordância entre Anotadores

Variedade das Etiquetas

CETEMPúblico CETENFolha

AS 4 4

CM 6 7

DS 12 + 6 [1] 19 + 9 [1]

EB 4 (11) 4 (11)

Lab 17 [3] 20 [4]

LO 12 [5] 12 [6]

Prib 6 [1] 6

RM 13 [3] 16 [4]

VM 10 [2] 18 [4]

Page 12: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Primeiros Resultados

Variedade das Etiquetas

CONFERÊNCIA

LOC_CULTURA

LOC_LAZER

LUGAR

LUGAR+INST

ORGANIZAÇÃOPESSOA

PESSOA+HUM

PESSOA+Jogador

PESSOA+Pintor

PESSOA+Realizador

CARGO+PESSOA

CARGO/FUNÇÃO

CARGO PÚBLICO

CARGO

APELIDO

ALCUNHA

ANTROPÓNIMO

LUGAR+CIV

LUGAR+TOP

PAÍS

REGIÃOTOPÓNIMODOCUMENTO

ESTUDO

ASSOCIAÇÃOCANAL

EMISSORA

EMPRESA

EQUIPA

GRUPO_DESPORTIVO

GRUPO_TRABALHO

INSTITUIÇÃOJORNAL

MCS

ORGANISMO

PARTIDO_POLÍTICO

TIME

ORG+Museu

ORG+Centro

ORG+Clube

ORG+Escola

ORG+Federação

ORG+Governo

ORG+Media

ORG+Org

ORG+País

ORG+PartidoORG+Região

ORG+Conferência

OUTRO

ACONTECIMENTO

EVENTO

EVENTO ESPORTIVO

OUTRO+EVENTOUTRO+GENREOUTRO+HUM

AUTOMÓVEL

CARRO

OUTRO+VEHICLE

FUNDO

PROD_MONETÁRIOOBJETO

EQUIPAMENTO

MARCA/PRODUTO

MARCA

MODELO

PRODUTO

TEMACULTURA

CINEMA

PROG_TV

OUTRO+SEM/TIT FILME

LIVRO

OBRAOBRA_CINE

OBRA_LIT

PROGRAMA

TÍTULO

PROGRAMA GOVERNAMENTAL

TÍTULO+Programa GovernamentalIDADE

DINHEIRO

MONETÁRI(A/O)

PESSOA(S)

PERCENTUAL

PORCENTAGEM

MEDIDA

EXP_NUMÉRICA

DATA

HORA

EXP_TEMPO

Page 13: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Primeiros Resultados

Casos de Discordância

Atribuição de diferentes etiquetas

ORGANIZAÇÃOEmpresa

LUGARLOC_LAZER

Identificação parcial ou sobreposta

Alemanhaministro dos Negócios EstrangeirosAlemanha

Negócios Estrangeiros Alemanha

Negócios Estrangeiros da Alemanha

ministro dos Negócios Estrangeiros da Alemanha

Locomia

Lugar

Cargo/Função + Crg_Público + PessoaTop + Lugar

OUTRO_Genre OrganizaçãoLugar

Page 14: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Etapa 1 – Primeiros Resultados

Casos de Discordância

Ausência de Anotação

Executivo / executivoCongresso / congressoGoverno / governoPresidente da RepúblicaOcidenteEstadoRendimento Mínimo Garantidosecretário de EstadoPrimeiro Mundo

Page 15: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Decisões a Tomar

Delimitação de Encaixados?

[Escola de Medicina de [Harvard]] [Escola de Medicina de Harvard]

Incluir cargos, títulos, funções?

[major Carlos Barbosa] major [Carlos Barbosa]

[Presidente Jorge Sampaio] Presidente [Jorge Sampaio]

Atribui-se a etiqueta em função do contexto?

chegará o dia em que a Rússia ajudará

feira especializada que teve lugar em Basileia (Suíça)

Que sequências considerar como entidades mencionadas?

Nomes próprios? Expressões temporais? Expressões numéricas?

Page 16: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Decisões a Tomar

O que fazer quando não é possível decidir?

Anotar / Ignorar Tanto nos recursos de avaliação como nos resultados

Page 17: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Métricas

Precision = A / (A+C)

Recall = A / (A+B)

[Rachel Aires, Avaliação De Sistemas De Recuperação De Informação (RI).

Panorâmica e Reflexões, 2002]

não selecionado

relevante

selecionado

A

B

C

D

não

rele

vant

e

Page 18: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Métricas

Precision = A / (A+C)

Recall = A / (A+B)

[Rachel Aires, Avaliação De Sistemas De Recuperação De Informação (RI).

Panorâmica e Reflexões, 2002]

relevante

A

B

C

D

não selecionadoselecionado

não

rele

vant

e

Page 19: Avaliação Conjunta  de  Sistemas de Reconhecimento de Entidades Menciondas

Realizar um nova anotação manual com os mesmos textos usando o novo conjunto de etiquetas

Próxima Etapa – Avaliar Sistemas

Sugestão

Utilizar os mesmo textos que forem utilizados na avaliação de RI e SA, com o objectivo de ter um recurso reutilizável e mais útil.

Estabelecer o conjunto de etiquetas e regras de anotação

Pré-Inscrição

Seleccionar e preparar os textos

Calendário

Sugestão

Utilizar o Alembic Workbench de forma a facilitar o processo de anotação, revisão e comparação.

Proposta com base nos dados da Etapa 1

?

Sugestão

?