defesa dissertação mestrado

28
Comparação e Mapeamento de Similaridade entre Estruturas Ontológicas (EOs) Marcirio Silveira Chaves Candidato a mestre Vera Lúcia Strube de Lima Orientadora Programa de Pós-Graduação em Ciência da Computação Faculdade de Informática Pontifícia Universidade Católica - RS

description

 

Transcript of defesa dissertação mestrado

Page 1: defesa dissertação mestrado

Comparação e Mapeamento de Similaridade entre Estruturas

Ontológicas (EOs)

Marcirio Silveira ChavesCandidato a mestre

Vera Lúcia Strube de LimaOrientadora

Programa de Pós-Graduação em Ciência da ComputaçãoFaculdade de Informática

Pontifícia Universidade Católica - RS

Page 2: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 2 / 28

ROTEIRO

• Contexto

• Questão de pesquisa

• Objetivos

• Enfoque Inicial do Estudo

• Tratamento de EOs da Língua Portuguesa

• Conclusão

Page 3: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 3 / 28

CONTEXTO

• Estruturas Ontológicas e Ontologias

• Reuso do conhecimento

– Web Semântica

• Mapeamento de EOs

– Similaridade entre termos (diferentes nuances)

• Medidas de Similaridade

• Distâncias de Edição

– Dois níveis de similaridade

• A língua portuguesa

mchaves
1 - Diferença2 - Utilizadas em diferentes campos do conhecimento
Cecília Drebes Pedron
Em Mapeamento, falar das questões que ainda estão em aberto em relação ao alinhamento1-1Preservar a relação é um.
Page 4: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 4 / 28

QUESTÃO DE PESQUISA

• Como mapear conceitos similares entre estruturas ontológicas diferentes?

• Hipótese

– Existe um grau de similaridade entre estruturas

ontológicas projetadas independentemente, que

pode ser detectado, de modo a permitir um

mapeamento.

mchaves
Falar sobre o domínio das EOs nas línguas inglesa e portuguesa.
Page 5: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 5 / 28

OBJETIVOS

• Aplicar a medida de similaridade “Combinação de Caracteres” a EOs da língua inglesa e portuguesa, e avaliar seus resultados;

• Prover meios para facilitar o mapeamento de EOs, de forma que o mesmo não seja realizado exclusivamente de forma manual;

• Propor, validar e avaliar uma medida de similaridade para tratar termos da língua portuguesa.

Page 6: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 6 / 28

ENFOQUE INICIAL DO ESTUDO

• EOs da língua inglesa

- Nível Lexical• Distância de Edição (Levenshtein)

- Exemplos» book / booklet = 3» Masterthesis / Mastersthesis = 1» worker / employee = 7» book / work = 2

- Não leva em consideração o comprimento da palavra

Page 7: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 7 / 28

ENFOQUE INICIAL DO ESTUDO

• Similaridade– Nível Lexical

• Combinação de Caracteres (Maedche e Staab)

• Exemplos (Limiar = 0,75)– book / booklet = 0,25– book / work = 0,5– research / researcher = 0,75– Masterthesis / Mastersthesis = 0,92– worker / employee = 0

.1,0|)||,(|Min

),(DE– |)||,(|Min,0max),(

ji

jijiji

TT

TTTTTTCC

Page 8: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 8 / 28

HEURÍSTICAS

• Similaridade– Nível Semântico-Estrutural

• Normalização de Vocabulário

• Ancestral e Descendentes

Page 9: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 9 / 28

TRATAMENTO DE EOs DA LÍNGUA PORTUGUESA

• Senado Federal

• Universidade de São Paulo

• Termos formados por– Uma palavra

– Mais de uma palavra <T "abolicionismo"><SN "movimentoAbolicionista"/><BT "escravidaoNoBrasil"><NT "abolicaoDaEscravidao"><NT "leiAurea"><NT "leiDoSexagenario"><NT "leiDoVentreLivre"><NT "leiEusebioDeQueiros"></T>

Page 10: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 10 / 28

APLICAÇÃO DA MEDIDA CC

EO1 EO2 CC

realidade dualidade 0,78

rendaPermanente dentePermanente 0.80

datasEspeciais mapasEspeciais 0.86

caminhao caminhoes 0.62

embarcacao embarcacoes 0.70

perversaoSexual perversoesSexuais 0.67

Limiar=0,75

Page 11: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 11 / 28

ALGORITMO DE STEMMING

Uso de algoritmos de stemming• Recuperação de Informações

– Encontrar variantes morfológicas dos termos buscados

– Melhorar abrangência dos resultados da busca– Reduzir tamanho dos arquivos de índicesEx.:

• desenvolve• desenvolvida• desenvolvidas • desenvolvido • desenvolvidos • desenvolvimento

desenvolv

Page 12: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 12 / 28

.1,0}...,,,min{)T,T(SL kij

2ij

1ijji

onde k é o número de palavras do termo de menor comprimento quando os termos sendo mapeados possuem diferente número de palavras.

3),(0

2),(2.0),(

1),(1.0),(

0),(),(

kj

ki

kj

ki

kj

ki

kj

ki

kj

ki

kj

ki

kj

ki

kij

RadRadDEse

RadRadDEseRadRadCC

RadRadDEseRadRadCC

RadRadDEseRadRadCC

MEDIDA “SIMILARIDADE LEXICAL”

.1,0|)||,(|Min

),(DE– |)||,(|Min,0max),(

ji

jijiji

TT

TTTTTTCC

Page 13: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 13 / 28

MEDIDA “SIMILARIDADE LEXICAL”

• Exemplo

0,67 )6

2-6 max(0, ocident) CC(orient,

idental)amazoniaOcaOriental,SL(amazoni

} ocident) CC(orient,

amazon), CC(amazon, {min

0,47.idental)amazoniaOcaOriental,SL(amazoni

0,875.idental)amazoniaOcaOriental,CC(amazoni

Page 14: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 14 / 28

MEDIDA “SIMILARIDADE LEXICAL”

• Fase de Validação

• Fase de Avaliação

Page 15: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 15 / 28

FASE DE VALIDAÇÃO

• Alguns resultados da fase de validação

EO-base EO-alvo CC SL

embarcação embarcações 0,70 0,79

comerciante comediante 0,80 0,47

pobreza nobreza 0,86 0,65

areaEstrategica armaEstratégica 0,93 0,57

estruturaDeDados estruturaDeCabos 0,81 0,13

mesquita mosquito 0,62 0,76

auto-estrada auto-estima 0,73 0,77

Page 16: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 16 / 28

• Heurística da Primeira Letra

.0),(

]1[]1[

kj

ki

kj

ki

RadRadCC

entãoRadRadSe

FASE DE VALIDAÇÃO

Page 17: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 17 / 28

FASE DE AVALIAÇÃO

Análise humana

• 1267 monopalavra e 1620 multipalavra

• Termos identificados como similares pela medida CC ou pela medida SL, totalizando 2887

• Cada avaliador humano recebeu uma metade dos termos monopalavra e uma metade dos termos multipalavra

Page 18: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 18 / 28

Análise dos dados

CC>=0,75

SL>=0,75

CC>=0,75

SL<0,75

CC<0,75

SL>=0,75

Termos considerados similares pelos humanos G1 G2 G3

Termos considerados não similares pelos humanos G4 G5 G6

Dúvida G7

FASE DE AVALIAÇÃO

Page 19: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 19 / 28

• Análise do Grupo G1 (limiar 0,75)

– 2887 similares pela medida CC ou pela medida SL

– 94 termos (3,25%) similares por ambas as medidas

• 25 (0,8%) “realmente similares” pelo analisador humano

• 69 (2,4%) similares pelas medidas CC e SL, mas não

similares pelo analisador humano

FASE DE AVALIAÇÃO

Page 20: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 20 / 28

• Análise do Grupo G1

– Desses 69, 27 que o avaliador humano não considerou

similares também não são detectados como similares

pela medida SL quando utilizada a heurística da

primeira letra

– 42 mapeados de forma equivocada pela medida SL de

acordo com o avaliador humano

– Alterando o limiar para 0,8

• 4 permanecem sendo considerados similares pelas

medidas CC e SL

FASE DE AVALIAÇÃO

Page 21: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 21 / 28

• Peculiaridades da Análise Humana

– bovinocultura e ovinocultura

– elegibilidade e legibilidade

– tituloMobiliario e tituloImobiliario

• Revisão da Análise Humana

– se o par de termos considerado similar pelo analisador humano não é considerado similar pelo revisor;

– se o par de termos considerado não similar pelo analisador humano é considerado similar pelo revisor.

FASE DE AVALIAÇÃO

Page 22: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 22 / 28

• Revisão da Análise Humana– 132 ocorrências (4,5% de 2887)

• 26 ocorrências para os termos monopalavra• 106 ocorrências para os termos multipalavra

geofisica biofisica

democracia teocracia

desequilibrioEconomico equilibrioEconomico

comportamentoAfetivo comportamentoAgressivo

FASE DE AVALIAÇÃO

Page 23: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 23 / 28

• Nível Semântico-Estrutural– A contribuição da relação de sinonímia

<T faunaSelvagem e <T animaisSelvagens

<SN animalSelvagem

FASE DE AVALIAÇÃO

Page 24: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 24 / 28

• Nível Semântico-Estrutural– 106 mapeamentos no total

• Termos com variação de número• Outros casos

– <T feiticaria e <T bruxismo– <SN bruxaria – <T imprensaOperaria e <T jornalismoOperario– <SN jornalOperario– <T idoso e <T velhice– <SN velho

• Radical de comprimento >= 7 com 1 alteração– protesto e progesterona

• Mesmo radical com significado distinto– coque e coqueiro

FASE DE AVALIAÇÃO

Page 25: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 25 / 28

Sobre este trabalho

• aplicação da medida CC para termos das línguas inglesa

e portuguesa;

• criação de heurísticas;

• desenvolvimento de um protótipo;

• criação, validação e avaliação da medida SL;

• um dos primeiros esforços para tratamento de EOs da

língua portuguesa;

• produção de artigos para eventos científicos.

CONCLUSÃO

Page 26: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 26 / 28

Limitações

• carência de EOs da língua inglesa pertencentes ao

mesmo domínio de conhecimento desenvolvidas por

pessoas com formações distintas;

• carência de EOs da língua portuguesa codificadas nas

linguagens de marcação semântica estudadas;

• protótipo desenvolvido para a língua inglesa trata

somente os conceitos das EOs;

• Heurísticas mais eficientes para o tratamento do nível

semântico-estrutural das EOs.

CONCLUSÃO

Page 27: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 27 / 28

Trabalhos Futuros

• tratamento do formato de saída do protótipo desenvolvido para mapeamento de EOs da língua inglesa;

• a utilização da medida SL em outros idiomas, tais como espanhol e inglês;

• a aplicação da medida SL para auxiliar um sistema que utilize EOs na RI, ou ainda, diretamente no sistema de RI para verificar a similaridade entre um termo consultado e os termos contidos nos documentos;

• área de Bancos de Dados, nossa medida de similaridade pode ser aplicada como uma primeira etapa no processo de integração de esquemas.

CONCLUSÃO

Page 28: defesa dissertação mestrado

09-01-2004 PPGCC-FACIN– PUCRS 28 / 28

Resultados obtidos• Chaves, M. S.; Strube de Lima, V. L. Em direção ao Mapeamento Automático entre Estruturas

Ontológicas. IX Jornadas Iberoamericanas de Informática, Cartagena de Indias, Colômbia, 11-15 de agosto de 2003.

• Chaves, M. S.; Strube de Lima, V. L. Similaridade entre Estruturas Ontológicas. XVI Brazilian Symposium on Computer Graphics and Image Processing - (SIBGRAPI). I Workshop em Tecnologia da Informação e Linguagem Humana (TIL), São Paulo, Brasil, 12 de Outubro de 2003.

• Chaves, M. S. Um Estudo e Apreciação sobre Algoritmos de Stemming para a Língua Portuguesa. IX Jornadas Iberoamericanas de Informática, Cartagena de Indias, Colômbia, 11-15 de agosto de 2003.

• Chaves, M. S.; Strube de Lima, V. L. Looking for Similarity among Ontological Structures. Technical

Report, Departamento de Informática, Faculdade de Ciências da Universidade de Lisboa (DI-FCUL)

TR-03-28, p. 15-18. Tagging and Shallow Processing of Portuguese: Workshop notes of

TASHA`2003. António Branco, Amália Mendes e Ricardo Ribeiro (Eds.) Lisboa, Portugal, 2003.

• Chaves, M. S.; Strube de Lima, V. L. Looking for Similarity between Portuguese Ontological

Structures. In. António Branco, Amália Mendes, Ricardo Ribeiro (Eds.). Edições Colibri, Lisboa,

Portugal, 2004. (No prelo)

CONCLUSÃO