defesa dissertação mestrado
-
Upload
marcirio-chaves -
Category
Technology
-
view
3.773 -
download
3
description
Transcript of defesa dissertação mestrado
Comparação e Mapeamento de Similaridade entre Estruturas
Ontológicas (EOs)
Marcirio Silveira ChavesCandidato a mestre
Vera Lúcia Strube de LimaOrientadora
Programa de Pós-Graduação em Ciência da ComputaçãoFaculdade de Informática
Pontifícia Universidade Católica - RS
09-01-2004 PPGCC-FACIN– PUCRS 2 / 28
ROTEIRO
• Contexto
• Questão de pesquisa
• Objetivos
• Enfoque Inicial do Estudo
• Tratamento de EOs da Língua Portuguesa
• Conclusão
09-01-2004 PPGCC-FACIN– PUCRS 3 / 28
CONTEXTO
• Estruturas Ontológicas e Ontologias
• Reuso do conhecimento
– Web Semântica
• Mapeamento de EOs
– Similaridade entre termos (diferentes nuances)
• Medidas de Similaridade
• Distâncias de Edição
– Dois níveis de similaridade
• A língua portuguesa
09-01-2004 PPGCC-FACIN– PUCRS 4 / 28
QUESTÃO DE PESQUISA
• Como mapear conceitos similares entre estruturas ontológicas diferentes?
• Hipótese
– Existe um grau de similaridade entre estruturas
ontológicas projetadas independentemente, que
pode ser detectado, de modo a permitir um
mapeamento.
09-01-2004 PPGCC-FACIN– PUCRS 5 / 28
OBJETIVOS
• Aplicar a medida de similaridade “Combinação de Caracteres” a EOs da língua inglesa e portuguesa, e avaliar seus resultados;
• Prover meios para facilitar o mapeamento de EOs, de forma que o mesmo não seja realizado exclusivamente de forma manual;
• Propor, validar e avaliar uma medida de similaridade para tratar termos da língua portuguesa.
09-01-2004 PPGCC-FACIN– PUCRS 6 / 28
ENFOQUE INICIAL DO ESTUDO
• EOs da língua inglesa
- Nível Lexical• Distância de Edição (Levenshtein)
- Exemplos» book / booklet = 3» Masterthesis / Mastersthesis = 1» worker / employee = 7» book / work = 2
- Não leva em consideração o comprimento da palavra
09-01-2004 PPGCC-FACIN– PUCRS 7 / 28
ENFOQUE INICIAL DO ESTUDO
• Similaridade– Nível Lexical
• Combinação de Caracteres (Maedche e Staab)
• Exemplos (Limiar = 0,75)– book / booklet = 0,25– book / work = 0,5– research / researcher = 0,75– Masterthesis / Mastersthesis = 0,92– worker / employee = 0
.1,0|)||,(|Min
),(DE– |)||,(|Min,0max),(
ji
jijiji
TT
TTTTTTCC
09-01-2004 PPGCC-FACIN– PUCRS 8 / 28
HEURÍSTICAS
• Similaridade– Nível Semântico-Estrutural
• Normalização de Vocabulário
• Ancestral e Descendentes
09-01-2004 PPGCC-FACIN– PUCRS 9 / 28
TRATAMENTO DE EOs DA LÍNGUA PORTUGUESA
• Senado Federal
• Universidade de São Paulo
• Termos formados por– Uma palavra
– Mais de uma palavra <T "abolicionismo"><SN "movimentoAbolicionista"/><BT "escravidaoNoBrasil"><NT "abolicaoDaEscravidao"><NT "leiAurea"><NT "leiDoSexagenario"><NT "leiDoVentreLivre"><NT "leiEusebioDeQueiros"></T>
09-01-2004 PPGCC-FACIN– PUCRS 10 / 28
APLICAÇÃO DA MEDIDA CC
EO1 EO2 CC
realidade dualidade 0,78
rendaPermanente dentePermanente 0.80
datasEspeciais mapasEspeciais 0.86
caminhao caminhoes 0.62
embarcacao embarcacoes 0.70
perversaoSexual perversoesSexuais 0.67
Limiar=0,75
09-01-2004 PPGCC-FACIN– PUCRS 11 / 28
ALGORITMO DE STEMMING
Uso de algoritmos de stemming• Recuperação de Informações
– Encontrar variantes morfológicas dos termos buscados
– Melhorar abrangência dos resultados da busca– Reduzir tamanho dos arquivos de índicesEx.:
• desenvolve• desenvolvida• desenvolvidas • desenvolvido • desenvolvidos • desenvolvimento
desenvolv
09-01-2004 PPGCC-FACIN– PUCRS 12 / 28
.1,0}...,,,min{)T,T(SL kij
2ij
1ijji
onde k é o número de palavras do termo de menor comprimento quando os termos sendo mapeados possuem diferente número de palavras.
3),(0
2),(2.0),(
1),(1.0),(
0),(),(
kj
ki
kj
ki
kj
ki
kj
ki
kj
ki
kj
ki
kj
ki
kij
RadRadDEse
RadRadDEseRadRadCC
RadRadDEseRadRadCC
RadRadDEseRadRadCC
MEDIDA “SIMILARIDADE LEXICAL”
.1,0|)||,(|Min
),(DE– |)||,(|Min,0max),(
ji
jijiji
TT
TTTTTTCC
09-01-2004 PPGCC-FACIN– PUCRS 13 / 28
MEDIDA “SIMILARIDADE LEXICAL”
• Exemplo
0,67 )6
2-6 max(0, ocident) CC(orient,
idental)amazoniaOcaOriental,SL(amazoni
} ocident) CC(orient,
amazon), CC(amazon, {min
0,47.idental)amazoniaOcaOriental,SL(amazoni
0,875.idental)amazoniaOcaOriental,CC(amazoni
09-01-2004 PPGCC-FACIN– PUCRS 14 / 28
MEDIDA “SIMILARIDADE LEXICAL”
• Fase de Validação
• Fase de Avaliação
09-01-2004 PPGCC-FACIN– PUCRS 15 / 28
FASE DE VALIDAÇÃO
• Alguns resultados da fase de validação
EO-base EO-alvo CC SL
embarcação embarcações 0,70 0,79
comerciante comediante 0,80 0,47
pobreza nobreza 0,86 0,65
areaEstrategica armaEstratégica 0,93 0,57
estruturaDeDados estruturaDeCabos 0,81 0,13
mesquita mosquito 0,62 0,76
auto-estrada auto-estima 0,73 0,77
09-01-2004 PPGCC-FACIN– PUCRS 16 / 28
• Heurística da Primeira Letra
.0),(
]1[]1[
kj
ki
kj
ki
RadRadCC
entãoRadRadSe
FASE DE VALIDAÇÃO
09-01-2004 PPGCC-FACIN– PUCRS 17 / 28
FASE DE AVALIAÇÃO
Análise humana
• 1267 monopalavra e 1620 multipalavra
• Termos identificados como similares pela medida CC ou pela medida SL, totalizando 2887
• Cada avaliador humano recebeu uma metade dos termos monopalavra e uma metade dos termos multipalavra
09-01-2004 PPGCC-FACIN– PUCRS 18 / 28
Análise dos dados
CC>=0,75
SL>=0,75
CC>=0,75
SL<0,75
CC<0,75
SL>=0,75
Termos considerados similares pelos humanos G1 G2 G3
Termos considerados não similares pelos humanos G4 G5 G6
Dúvida G7
FASE DE AVALIAÇÃO
09-01-2004 PPGCC-FACIN– PUCRS 19 / 28
• Análise do Grupo G1 (limiar 0,75)
– 2887 similares pela medida CC ou pela medida SL
– 94 termos (3,25%) similares por ambas as medidas
• 25 (0,8%) “realmente similares” pelo analisador humano
• 69 (2,4%) similares pelas medidas CC e SL, mas não
similares pelo analisador humano
FASE DE AVALIAÇÃO
09-01-2004 PPGCC-FACIN– PUCRS 20 / 28
• Análise do Grupo G1
– Desses 69, 27 que o avaliador humano não considerou
similares também não são detectados como similares
pela medida SL quando utilizada a heurística da
primeira letra
– 42 mapeados de forma equivocada pela medida SL de
acordo com o avaliador humano
– Alterando o limiar para 0,8
• 4 permanecem sendo considerados similares pelas
medidas CC e SL
FASE DE AVALIAÇÃO
09-01-2004 PPGCC-FACIN– PUCRS 21 / 28
• Peculiaridades da Análise Humana
– bovinocultura e ovinocultura
– elegibilidade e legibilidade
– tituloMobiliario e tituloImobiliario
• Revisão da Análise Humana
– se o par de termos considerado similar pelo analisador humano não é considerado similar pelo revisor;
– se o par de termos considerado não similar pelo analisador humano é considerado similar pelo revisor.
FASE DE AVALIAÇÃO
09-01-2004 PPGCC-FACIN– PUCRS 22 / 28
• Revisão da Análise Humana– 132 ocorrências (4,5% de 2887)
• 26 ocorrências para os termos monopalavra• 106 ocorrências para os termos multipalavra
geofisica biofisica
democracia teocracia
desequilibrioEconomico equilibrioEconomico
comportamentoAfetivo comportamentoAgressivo
FASE DE AVALIAÇÃO
09-01-2004 PPGCC-FACIN– PUCRS 23 / 28
• Nível Semântico-Estrutural– A contribuição da relação de sinonímia
<T faunaSelvagem e <T animaisSelvagens
<SN animalSelvagem
FASE DE AVALIAÇÃO
09-01-2004 PPGCC-FACIN– PUCRS 24 / 28
• Nível Semântico-Estrutural– 106 mapeamentos no total
• Termos com variação de número• Outros casos
– <T feiticaria e <T bruxismo– <SN bruxaria – <T imprensaOperaria e <T jornalismoOperario– <SN jornalOperario– <T idoso e <T velhice– <SN velho
• Radical de comprimento >= 7 com 1 alteração– protesto e progesterona
• Mesmo radical com significado distinto– coque e coqueiro
FASE DE AVALIAÇÃO
09-01-2004 PPGCC-FACIN– PUCRS 25 / 28
Sobre este trabalho
• aplicação da medida CC para termos das línguas inglesa
e portuguesa;
• criação de heurísticas;
• desenvolvimento de um protótipo;
• criação, validação e avaliação da medida SL;
• um dos primeiros esforços para tratamento de EOs da
língua portuguesa;
• produção de artigos para eventos científicos.
CONCLUSÃO
09-01-2004 PPGCC-FACIN– PUCRS 26 / 28
Limitações
• carência de EOs da língua inglesa pertencentes ao
mesmo domínio de conhecimento desenvolvidas por
pessoas com formações distintas;
• carência de EOs da língua portuguesa codificadas nas
linguagens de marcação semântica estudadas;
• protótipo desenvolvido para a língua inglesa trata
somente os conceitos das EOs;
• Heurísticas mais eficientes para o tratamento do nível
semântico-estrutural das EOs.
CONCLUSÃO
09-01-2004 PPGCC-FACIN– PUCRS 27 / 28
Trabalhos Futuros
• tratamento do formato de saída do protótipo desenvolvido para mapeamento de EOs da língua inglesa;
• a utilização da medida SL em outros idiomas, tais como espanhol e inglês;
• a aplicação da medida SL para auxiliar um sistema que utilize EOs na RI, ou ainda, diretamente no sistema de RI para verificar a similaridade entre um termo consultado e os termos contidos nos documentos;
• área de Bancos de Dados, nossa medida de similaridade pode ser aplicada como uma primeira etapa no processo de integração de esquemas.
CONCLUSÃO
09-01-2004 PPGCC-FACIN– PUCRS 28 / 28
Resultados obtidos• Chaves, M. S.; Strube de Lima, V. L. Em direção ao Mapeamento Automático entre Estruturas
Ontológicas. IX Jornadas Iberoamericanas de Informática, Cartagena de Indias, Colômbia, 11-15 de agosto de 2003.
• Chaves, M. S.; Strube de Lima, V. L. Similaridade entre Estruturas Ontológicas. XVI Brazilian Symposium on Computer Graphics and Image Processing - (SIBGRAPI). I Workshop em Tecnologia da Informação e Linguagem Humana (TIL), São Paulo, Brasil, 12 de Outubro de 2003.
• Chaves, M. S. Um Estudo e Apreciação sobre Algoritmos de Stemming para a Língua Portuguesa. IX Jornadas Iberoamericanas de Informática, Cartagena de Indias, Colômbia, 11-15 de agosto de 2003.
• Chaves, M. S.; Strube de Lima, V. L. Looking for Similarity among Ontological Structures. Technical
Report, Departamento de Informática, Faculdade de Ciências da Universidade de Lisboa (DI-FCUL)
TR-03-28, p. 15-18. Tagging and Shallow Processing of Portuguese: Workshop notes of
TASHA`2003. António Branco, Amália Mendes e Ricardo Ribeiro (Eds.) Lisboa, Portugal, 2003.
• Chaves, M. S.; Strube de Lima, V. L. Looking for Similarity between Portuguese Ontological
Structures. In. António Branco, Amália Mendes, Ricardo Ribeiro (Eds.). Edições Colibri, Lisboa,
Portugal, 2004. (No prelo)
CONCLUSÃO