O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

22
Bruno Martins – xldb.fc.ul.pt/~bmartins/ 1 O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa Bruno Martins, Marcirio Chaves e Mário J. Silva, Universidade de Lisboa

description

O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa. Bruno Martins, Marcirio Chaves e Mário J. Silva, Universidade de Lisboa. Motivação. Documentos ricos em informação geográfica - PowerPoint PPT Presentation

Transcript of O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Page 1: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 1

O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na

Língua Portuguesa

Bruno Martins, Marcirio Chaves eMário J. Silva,

Universidade de Lisboa

Page 2: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 2

Motivação• Documentos ricos em informação geográfica

• Recente interesse em ferramentas de

recuperação de informação “geográficas”

• Reconhecer e desambiguar referências a

nomes de locais é um requisito fundamental

• Sistema CaGE no contexto do GeoTumba!

Page 3: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 3

Tratamento de Referências Geográficas e o HAREM

• Alguns estudos iniciais sobre o problema– Workshop on the analysis of geographic references– Workshop on geographical information retrieval

• Não existe corpus de referência para avaliação– Classificação semântica dos locais em tipos geográficos– Anotações com coordenadas ou conceitos numa ontologia– Textos na língua Portuguesa

• HAREM permite avaliar reconhecimento simples

Page 4: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 4

Sumário da apresentação

• Motivação

• Recursos usados pelo sistema CaGE

• Arquitectura do sistema CaGE

• Adaptações feitas para o HAREM

• Experiências e Resultados no (Mini)HAREM

• Conclusões

Page 5: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 5

Recursos usados pelo CaGE

• Ontologia geográfica– GeoNetPT + uma ontologia “global”– Codificam nomes geográficos e relações entre eles

• Lista de excepções– Palavras muito frequentes, nomes de pessoas– Tentativa de eliminar falsos positivos

• Lista de padrões de reconhecimento– Obtida a partir de “expressões geográficas”

Page 6: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 6

As ontologias geográficas

• GKB/GEO-NET-PT

• Info. pública

• Codificada em OWL

• Disponível online

Page 7: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 7

Ambiguidade nas ontologias

Ambiguiade nos nomes geográficos!

Page 8: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 8

Nomes Geográficos nas ontologias

Page 9: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 9

As expressões geográficase a lista de excepções

• Tipos identificadores geográficos na ontologia• Relações espaciais de vários tipos

– localizado em, perto de, a sul de, …

• Baseada em trabalhos anteriores – e.g. Tiago Delboni ou Janet Kohler

• Lista de nomes comuns e palavras frequentes• Frequência num corpus Web (usando

capitalização) e experimentação

Page 10: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 10

Sumário da apresentação

• Motivação

• Recursos usados pelo sistema CaGE

• Arquitectura do sistema CaGE

• Adaptações feitas para o HAREM

• Experiências e Resultados no (Mini)HAREM

• Conclusões

Page 11: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 11

Arquitectura do CaGEAtomização

Identificação

Desam

biguaçã

o

Resultados

Pipeline de operações para o reconhecimento

e desambiguação de referências geográficas

Page 12: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 12

Sumário da apresentação

• Motivação

• Recursos usados pelo sistema CaGE

• Arquitectura do sistema CaGE

• Adaptações feitas para o HAREM

• Experiências e Resultados no (Mini)HAREM

• Conclusões

Page 13: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 13

Adaptações para o HAREM

• Marcação SGML do sistema CaGE substituída por marcação mais simples do HAREM– Usar tags <LOCAL> em vez de <PLACE type=“administrative” subtype=“city” id=“geoID-323>

• Padrões de reconhecimento diferentes– Apenas locais capitalizados– Locais que não se encontrem na ontologia

• Não incluir os prefixos em minúsculas– cidade de <LOCAL>Lisboa</LOCAL>

Page 14: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 14

Sumário da apresentação

• Motivação

• Recursos usados pelo sistema CaGE

• Arquitectura do sistema CaGE

• Adaptações feitas para o HAREM

• Experiências e Resultados no (Mini)HAREM

• Conclusões

Page 15: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 15

Experiências no (Mini)HAREM

• Avaliação de apenas um cenário selectivo– Reconhecimento simples de entidades do tipo local

• Duas submissões– Utilização da ontologia GeoNetPT– Utilização de GeoNetPT + Ontologia mundial

No primeiro HAREM verificamos que muitas entidades do tipo local correspondem a países e

cidades estrangeiras importantes

Page 16: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 16

Resultados no (Mini)HAREM

Total Identificados Correctos Correctos

Parcial

Espúrias Em Falta

PT 893 686 469

52.5%

50

5.6%

169

18.9%

379

42.4%

PT

+

M

893 696 486

54.4%

49

5.5%

163

18.2%

363

40.6%

Ontologia PT+mundial consistentemente melhor

Page 17: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 17

Resultados no (Mini)HAREM

Precisão Abrangência Medida

F

Erro

Combinado

Sobre

Geração

Sub

Geração

PT 0.70 0.54 0.60 0.55 0.25 0.42

PT

+

M0.71 0.55 0.62 0.53 0.23 0.41

T

O

P0.92 0.74 0.71 0.44 0 0.23

Ontologia PT+mundial consistentemente melhor

Por variante de texto, melhor precisão BR e melhor abrangência PT

Sistema comportou-se mal em textos técnicos

Page 18: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 18

Análise dos resultados• Ainda há muito a melhorar no CaGE

• Mais regras, mais nomes na lista de excepções?

• Ainda há muito a analisar nos resultados do HAREM

• Especificidades da tarefa de avaliação – Locais do tipo correio não eram reconhecidos

• Computacionalmente pesado, reconhecidos parcialmente.– Locais do tipo virtual não eram reconhecidos

• Não correspondem a uma localização física.– Locais do tipo alargado não eram reconhecidos

• Não correspondem a uma localização física.– Locais dentro de organizações reconhecidos

• Câmara Municipal de Braga.

Page 19: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 19

Sumário da apresentação

• Motivação

• Recursos usados pelo sistema CaGE

• Arquitectura do sistema CaGE

• Adaptações feitas para o HAREM

• Experiências e Resultados no (Mini)HAREM

• Conclusões

Page 20: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 20

Conclusões• Sistema CaGE desenvolvido para um

contexto específico que não o do HAREM

• Experiência de participação no HAREM foi muito positiva, apesar das limitações

• Melhorias significativas em relação ao primeira edição do HAREM

Page 21: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 21

Futuro do HAREM• Anotação “geográfica” da colecção dourada

– Locais associadas a conceitos numa ontologia

– Coordenadas geográficas?

• Novos tipos para a classificação semântica

– Continente, país, distrito, cidade, avenida, rua, …

• HTML e maior volume de dados

– Colecção dourada são apenas 893 locais

• Performance computacional levada em conta

Page 22: O Sistema CaGE para Reconhecimento de Referências Geográficas em Textos na Língua Portuguesa

Bruno Martins – xldb.fc.ul.pt/~bmartins/ 22

Obrigado pela atenção

http://xldb.fc.ul.pt (grupo de investigação)http://xldb.di.fc.ul.pt/geonetpt/ (ontologia)

[email protected]