Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos...
Transcript of Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos...
![Page 1: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/1.jpg)
Mapeamento de Thesauri
Daniela F. Brauner
![Page 2: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/2.jpg)
Agenda
• Introdução
– Interoperabilidade
– Mapeamentos
• Em nível de esquema
• Em nível de dados
• Abordagens existentes
• Abordagem proposta
![Page 3: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/3.jpg)
Introdução
• Milhares de provedores de informação (fontes de dados):
– Esquemas diferentes
– Categorias diferentes para classificação dos dados (≠ thesauri)
• Solução proposta:
– Dados estruturados
– Ontologias para descrever a semântica
– Computadores capazes de “entender” estes dados
– (mesma proposta da Web Semântica!)
• ...e os problemas continuam:
– Natureza descentralizada da Web
– Cada provedor de informação usando sua própria ontologia
Interoperabilidade
![Page 4: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/4.jpg)
Introdução
• Busca por “city” no Swoogle
• 722 resultadosi.e. definições diferentes
Interoperabilidade
![Page 5: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/5.jpg)
Introdução
ADL GazetteerGEOnet
Find all cities called
“Rio de Janeiro”
Mapeamentos
![Page 6: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/6.jpg)
Introdução
ADL GazetteerGEOnet
Mediator
GEOnet Wrapper
ADL Wrapper
Basic Architecture of A Data Integration System
Find all cities called
“Rio de Janeiro”
Mapeamentos
![Page 7: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/7.jpg)
Introdução
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333?
?? ?
GE
On
et
AD
L
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
? ?
• Schema-level mapping
Mapeamentos
Find all cities called
“Rio de Janeiro” • Data-level mapping
![Page 8: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/8.jpg)
Abordagens existentes
• ILA [Etzioni, 2000]
• SEMINT [Syan et al., 2000]
• AnchorPrompt [Musen and Noy, 2001]
• Cupid [Madhavan et al., 2001]
• LSD [Doan et al., 2001]
• SimilarityFlooding [Melnik et al., 2002]
• PROM [Doan et al., 2003]
• GLUE [Doan et al., 2003]
• CATO [Felicissimo, 2004]
• iMAP [Dhamankar et al., 2004]
• ...
![Page 9: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/9.jpg)
Administrative areaPopulated placesPolitical areasCountriesCitiesCapitals...
ADL
FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp
AREA area ADM1 first-order administrative divisionADM2 second-order administrative divisionADM3 third-order administrative divisionADM4 fourth-order administrative divisionADMD administrative divisionADMF administrative facilityPPL populated placePPLA seat of a first-order administrative divisionPPLC capital of a political entityPPLL populated localityPPLQ abandoned populated placePPLR religious populated placePPLS populated placesPPLW destroyed populated placePPLX section of populated place...
GEOnet
FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Abordagens existentes
• Utilizando os nomes dos termos
![Page 10: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/10.jpg)
Cities
Populated places
Capitals
Administrative area
Political areas
Countries
ADL
FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start
Country
GeopoliticalEntity
CapitalCityOfRegion
GeographicalAgent
City
OpenCyc
FONTE:http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm
Abordagens existentes
IndependentCountry
• Utilizando as estruturas das árvores
![Page 11: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/11.jpg)
Cities
Populated places
Capitals
Administrative area
Political areas
Countries Country
GeopoliticalEntity
CapitalCityOfRegion
GeographicalAgent
City
Exemplos: Instância ADL OpenCyc
Rio Grande, RS – Brazil Populated Places City
Smithers, BC – Canada Populated Places City
Rio de Janeiro, RJ – Brazil Populated Places City
São Paulo, SP – Brazil Populated Places City
Cardiff – Wales Populated Places CapitalCityOfRegion
Asmara – Eritrea Capitals CapitalCityOfRegion
Rome – Italy Capitals CapitalCityOfRegion
Brussels – Belgium Capitals CapitalCityOfRegion
ADL OpenCyc
Abordagens existentes
IndependentCountry
?
![Page 12: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/12.jpg)
Abordagens existentes
• Estratégia de tradução do Google
– Sistema “aprende” através de traduções existentes
“My name is Daniela. I am 26 years old.”
“Mein name ist Daniela. Ich bin 26 Jahre alt.”
“Meu nome é Daniela. Eu tenho 26 anos.”
“Mi nombre es Daniela. Yo tengo 26 años.”
http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de
http://www.inf.puc-rio.br/~dani/eshttp://www.inf.puc-rio.br/~dani/br
![Page 13: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/13.jpg)
Abordagens existentes
• 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos
hieróglifos
egípcio
demótico
(Copta)
grego
http://www.thebritishmuseum.ac.uk
![Page 14: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/14.jpg)
Abordagens existentes
• Utilizando as descrições dos termos dos thesauri
– Removemos algumas stop-words
– Mapeamos conceitos com maior ocorrência de palavras em comum
Bay
Indentations of a coastline or shoreline
enclosing a part of a body of water;
body of water partly
surrounded by land
Bay
a coastal indentation between two
capes or headlands, larger than a cove
but smaller than a gulf?
![Page 15: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/15.jpg)
Abordagens existentes
• Utilizando as descrições dos termos dos thesauri
Peninsula
an elongate area of land projecting into
a body of water and nearly surrounded
by water
GEOnet(4) Peninsula: land, body, water, surrounded(3) Island: land, surrounded, water(2) Pool: body, water
≠Bay
Indentations of a coastline or shoreline
enclosing a part of a body of water;
body of water partly
surrounded by land
![Page 16: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/16.jpg)
Waterfall
a perpendicular or very steep descent
of the water of a stream
Waterfall
perpendicular or very steep falls of
water in the course of a stream.
Abordagens existentes
• Utilizando representação formal
– Criamos 3 ontologias: ADL, GEO e concepts
![Page 17: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/17.jpg)
Abordagens existentes
• Utilizando instâncias
– Identificar mapeamentos entre os dados (instâncias iguais)
– Verificar freqüência de “casamentos” entre os termos dos thesauri
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333GE
On
et
AD
L
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
![Page 18: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/18.jpg)
Abordagens existentes
• Utilizando instâncias
– Identificar mapeamentos entre os dados (instâncias iguais)
– Verificar freqüência de “casamentos” entre os termos dos thesauri
• Etapas:1. Levantamento dos dados
a. Definição dos conjuntos de treinamento e teste
2. Treinamento a. Cruzamento das instâncias de treinamento (definir freqüências)
b. Cálculo das probabilidades de alinhamento
3. Teste e validação
![Page 19: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/19.jpg)
Abordagens existentes
Etapas concluídas:
1. Conjunto de exemplos:
– Instâncias brasileiras:
• ADL: 17.991
• GEOnet: 87.608
2. Treinamento:
– Instâncias mapeadas pelos valores de LAT/LON
– 221 pares identificados (~16%)
– Ex:
– Termos dos thesauri:
• ADL: 210
• GEOnet: 642
Combinações possíveis: 134.820
ADL (a) GEOnet (b) nab P(b|a)
bays BAY 38 0,61
bays BCH 1 0,01
bays COVE 6 0,09
bays ISL 8 0,12
bays PPL 4 0,06
bays PT 3 0,04
bays STM 2 0,03
P( b | a ) =nab
na
![Page 20: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/20.jpg)
Abordagem proposta
• Mediador “espertinho”
(utilizando técnicas de aprendizagem de máquina)
• Aprende em 2 momentos:
– A priori (offline)
– A posteriori (runtime)
• Aprende a partir de:
– Consultas dos usuários
– Análise das respostas das consultas dos usuários
![Page 21: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/21.jpg)
Abordagem proposta
ADL GazetteerGEOnet
Aprendendo a partir das consultas dos usuários
Brainy Mediator
Select PPL From GEOnet Within “-54, -34 -52.5, -33”
Mediator
GEOnet Wrapper
ADL Wrapper
Select populated places From ADL Within “-54, -34 -52.5, -33”
Ahááá!!!PPL ≡
PopulatedPlaces
Select PPL From GEOnet Within “-54, -34 -52.5, -33”
Select populated places From ADL Within “-54, -34 -52.5, -33”
![Page 22: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/22.jpg)
Abordagem proposta
ADL GazetteerGEOnet
Aprendendo a partir das respostas das consultas dos usuários
Brainy Mediator
Select PPL From GEOnet, ADL Within “-54, -34 -52.5, -33”
Mediator
GEOnet Wrapper
ADL Wrapper
Cache
ADL GEOnet n P(b|a)
bays BAY 38 0,61
bays BCH 1 0,01
bays COVE 6 0,09
bays ISL 8 0,12
bays PPL 4 0,06
bays PT 3 0,04
bays STM 2 0,03
![Page 23: Mapeamento de Thesauri Daniela F. Brauner. Agenda Introdução –Interoperabilidade –Mapeamentos Em nível de esquema Em nível de dados Abordagens existentes.](https://reader036.fdocumentos.tips/reader036/viewer/2022081602/552fc105497959413d8c0188/html5/thumbnails/23.jpg)
Mapeamento de Thesauri
Daniela F. Brauner