Uma Abordagem Uma Abordagem Bottom-UpBottom-Up para a Integração Semântica para a Integração Semântica
de Esquemas XMLde Esquemas XML
Tese de Doutoradopor
Ronaldo dos Santos Mello
Prof. Carlos Alberto Heuser
Orientador
UFRGS/II - PPGC
Roteiro
• Introdução
• Abordagem de Integração Proposta
• Modelo Canônico e Mapeamentos
• Etapa de Conversão da DTD
• Etapa de Integração Semântica
• Considerações Finais
Roteiro
1. Introdução
2. Abordagem de Integração Proposta
3. Modelo Canônico e Mapeamentos
4. Etapa de Conversão da DTD
5. Etapa de Integração Semântica
6. Considerações Finais
Motivação
• Contexto do problema– consultas a fontes de dados heterogêneas e semi-
estruturadas na Web– foco em dados XML
• Áreas de pesquisa– integração de esquemas– tradução e otimização de consultas globais– integração de resultados de consultas
Motivação
• Contexto do problema– consultas a fontes de dados heterogêneas e semi-
estruturadas na Web– foco em dados XML
• Áreas de pesquisa– integração de esquemas– tradução e otimização de consultas globais– integração de resultados de consultas
Objetivo da Tese
• Uma abordagem de integração semântica de esquemas XML – semi-automático
• mínima intervenção do usuário
– processo bottom-up• esquema global que representa de forma garantida
todas as informações dos esquemas das fontes
– modelo canônico conceitual• alto nível de abstração
Trabalhos RelacionadosTrabalho Integração Processo Modelo Canônico
TSIMMIS manual bottom-up grafo
Garlic manual bottom-up ODMG
MIX manual bottom-up DTD
DIXSE manual bottom-up conceitual
Jensen manual bottom-up UML
YAT manual - árvore
McBrien manual - grafo
Vdovjak manual top-down conceitual
Xyleme semi-automático top-down DTD
LSD semi-automático top-down DTD
Lim semi-automático bottom-up grafo
CUPID semi-automático bottom-up conceitual
MOMIS semi-automático bottom-up conceitual
Trabalhos RelacionadosTrabalho Integração Processo Modelo Canônico
TSIMMIS manual bottom-up grafo
Garlic manual bottom-up ODMG
MIX manual bottom-up DTD
DIXSE manual bottom-up conceitual
Jensen manual bottom-up UML
YAT manual - árvore
McBrien manual - grafo
Vdovjak manual top-down conceitual
Xyleme semi-automático top-down DTD
LSD semi-automático top-down DTD
Lim semi-automático bottom-up grafo
CUPID semi-automático bottom-up conceitual
MOMIS semi-automático bottom-up conceitual
Características
• não tratam a integração de
representações alternativas
de elementos• não tratam de forma completa
a integração de elementos
textuais com estruturados
Limitações na integração de esquemas XML
MOMIS
CUPID
Trabalho
Características
Trabalho Limitações da Modelagem Conceitual
CUPID • não modela representações alternativas de
elementos• não filtra elementos irrelevantes para o domínio
MOMIS • esquema conceitual definido manualmente
Vdokjak • esquema conceitual definido manualmente
DIXSE • não modela relacionamentos de herança• não filtra elementos irrelevantes para o domínio
Proposta da Tese
• Processo de integração semântica de esquemas XML– tratamento dos casos de unificação de
elementos heterogêneos– modelagem canônica conceitual de um
esquema XML• análise do esquema XML• inferências semânticas (heurísticas)
• análise de documentos XML
Roteiro
1. Introdução
2. Abordagem de Integração Proposta
3. Modelo Canônico e Mapeamentos
4. Etapa de Conversão da DTD
5. Etapa de Integração Semântica
6. Considerações Finais
Arquitetura de Mediação
Sites Web Documentos
XML
Sites Web
Camada de Wrappers
Wrapper 1 Wrapper nDTD 1
DTD n
Sites Web
...
Documentos XML
Sites Web
• disponibiliza um esquema local para uma ou mais fontes• executa consultas nestas fontes
Mediador
Wrapper 1 Wrapper nDTD 1
DTD n
Consulta local textual
Usuário Especialista
Mediador
DTDs Documentos XML Locais
Sites Web
...
Documentos XML
Sites Web
EsquemaGlobal
• integra esquemas locais• gerencia consultas globais a um conjunto de fontes
Documento XML globalConsulta global textual
Interface de Consulta
Wrapper 1 Wrapper nDTD 1
DTD n
Consultas locais textuais
Documento XML global
EsquemaGlobal
Usuário Especialista
Mediador
Interface de Consulta
DTDs
Consulta global Resultados
Documentos XML Locais
Sites Web
Consulta global textual
...
Documentos XML
Sites Web
• define consultas sobre o esquema global• apresenta os resultados
Processo de Integração
DTD 1DTD n
Esquema Global
Usuário Especialista
Integração Semântica
Camada de Mediação
. . .Esquema Conceitual 1 Esquema Conceitual n
. . .
Conversão da DTD
ARTEMIS
Documentos XML
Documentos XML
Conversão da DTD. . .
Processo de Integração
DTD 1DTD n
Esquema Global
Usuário Especialista
Integração Semântica
Camada de Mediação
. . .Esquema Conceitual 1 Esquema Conceitual n
. . .
Conversão da DTD
ARTEMIS
Documentos XML
Documentos XML
Conversão da DTD. . .
Processo de Integração
DTD 1DTD n
Esquema Global
Usuário Especialista
Integração Semântica
Camada de Mediação
. . .Esquema Conceitual 1 Esquema Conceitual n
. . .
Conversão da DTD
ARTEMIS
Documentos XML
Documentos XML
Conversão da DTD. . .
Roteiro
1. Introdução
2. Abordagem de Integração Proposta
3. Modelo Canônico e Mapeamentos
4. Etapa de Conversão da DTD
5. Etapa de Integração Semântica
6. Considerações Finais
Roteiro
1. Introdução
2. Abordagem de Integração Proposta
3. Modelo Canônico e Mapeamentos3.1 Modelo Conceitual Canônico (MCC)
3.2 Mapeamento MCC-DTD
4. Etapa de Conversão da DTD
5. Etapa de Integração Semântica
6. Considerações Finais
Modelo Conceitual Canônico (MCC)
• Variante do ORM (Object with Roles Model)
Halphin, T. Object-Role Modeling (ORM/NIAM), Handbook on Architectures of Information Systems. Springer-Verlag, 1998.
– notação gráfica do modelo ER
Exemplo de Esquema MCC
Publication
Proceedings
Title
Business
University
AddressConference
Publisher
Book
(1,N)
(1,N)
homeAddress
(0,1)
(1,N)
(1,N)
(1,1)
(1,N)
(1,N)
(1,N)
(1,N)
(1,N)
(1,1)(1,1)
(1,N)
(1,1)
(1,1)
{technical, fiction}
Category
Author
Name(1,1)
(1,N)
workAddress
(1,1)
(1,N)
StreetCity
(1,N)(1,N)(1,1) (1,1)
Number
(1,N)(1,1)
string
string
string
string
string
string
string
integer
string integer
Exemplo de Esquema MCC
Publication
Proceedings
Title
Business
University
AddressConference
Publisher
Book
(1,N)
homeAddress
(0,1)
(1,N)
(1,N)
(1,1)
(1,N)
(1,N)
(1,N)
(1,N)
(1,N)
(1,1)(1,1)
(1,N)
(1,1)
(1,1)
{technical, fiction}
Category
Author
Name(1,1)
(1,N)
workAddress
(1,1)
(1,N)
StreetCity
(1,N)(1,N)(1,1) (1,1)
Number
(1,N)(1,1)
string
string
string
string
string
string
string
integer
string integer
conceito NL
(1,N)
Exemplo de Esquema MCC
Publication
Proceedings
Title
Business
University
AddressConference
Publisher
Book
(1,N)
homeAddress
(0,1)
(1,N)
(1,N)
(1,1)
(1,N)
(1,N)
(1,N)
(1,N)
(1,N)
(1,1)(1,1)
(1,N)
(1,1)
(1,1)
{technical, fiction}
Category
Author
Name(1,1)
(1,N)
workAddress
(1,1)
(1,N)
StreetCity
(1,N)(1,N)(1,1) (1,1)
Number
(1,N)(1,1)
string
string
string
string
string
string
string
integer
string integer
conceito L
(1,N)
Exemplo de Esquema MCC
Publication
Proceedings
Title
Business
University
AddressConference
Publisher
Book
(1,N)
homeAddress
(0,1)
(1,N)
(1,N)
(1,1)
(1,N)
(1,N)
(1,N)
(1,N)
(1,N)
(1,1)(1,1)
(1,N)
(1,1)
(1,1)
{technical, fiction}
Category
Author
Name(1,1)
(1,N)
workAddress
(1,1)
(1,N)
StreetCity
(1,N)(1,N)(1,1) (1,1)
Number
(1,N)(1,1)
string
string
string
string
string
string
string
integer
string integer
relacionamento de associação
(1,N)
Exemplo de Esquema MCC
Publication
Proceedings
Title
Business
University
AddressConference
Publisher
Book
(1,N)
homeAddress
(0,1)
(1,N)
(1,N)
(1,1)
(1,N)
(1,N)
(1,N)
(1,N)
(1,N)
(1,1)(1,1)
(1,N)
(1,1)
(1,1)
{technical, fiction}
Category
Author
Name(1,1)
(1,N)
workAddress
(1,1)
(1,N)
StreetCity
(1,N)(1,N)(1,1) (1,1)
Number
(1,N)(1,1)
string
string
string
string
string
string
string
integer
string integer
relacionamento de herança
(1,N)
Exemplo de Esquema MCCdisjunção
Publication
Proceedings
Title
Business
University
AddressConference
Publisher
Book
(1,N)
homeAddress
(0,1)
(1,N)
(1,N)
(1,1)
(1,N)
(1,N)
(1,N)
(1,N)
(1,N)
(1,1)(1,1)
(1,N)
(1,1)
(1,1)
{technical, fiction}
Category
Author
Name(1,1)
(1,N)
workAddress
(1,1)
(1,N)
StreetCity
(1,N)(1,N)(1,1) (1,1)
Number
(1,N)(1,1)
string
string
string
string
string
string
string
integer
string integer
(1,N)
Roteiro
1. Introdução
2. Abordagem de Integração Proposta
3. Modelo Canônico e Mapeamentos3.1 Modelo Conceitual Canônico (MCC)
3.2 Mapeamento MCC-DTD
4. Etapa de Conversão da DTD
5. Etapa de Integração Semântica
6. Considerações Finais
Mapeamento MCC - DTD
• Informação de mapeamento– correspondência entre o esquema global e os
esquemas locais– finalidade: tradução de consultas globais
• Abordagens para definição de mapeamentos– catálogos de mapeamento– visões
Mapeamento MCC - DTD
• Informação de mapeamento– correspondência entre o esquema global e os
esquemas locais– finalidade: tradução de consultas globais
• Abordagens para definição de mapeamentos– catálogos de mapeamento– visões
Mapeamento MCC - DTD
• Estratégia de mapeamento– expressões de caminho XPath associadas a
conceitos e relacionamentos do esquema global
– por quê XPath?• XPath é um padrão para consulta a dados XML• visão XPath: expressão direta de busca para um
elemento ou atributo em uma fonte XML
Mapeamento de Conceitos
• Expressão de caminho absoluto XPath
Book(1,N)
Author
(1,N)
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
Mapeamento de Conceitos
• Expressão de caminho absoluto XPath
Book(1,N)
Author
(1,N)
DTD X : /Book/
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
Mapeamento de Conceitos
• Expressão de caminho absoluto XPath
Book(1,N)
Author
(1,N)
DTD X : /Book/AuthorList
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
Mapeamento de Conceitos
• Expressão de caminho absoluto XPath
Book(1,N)
Author
(1,N)
DTD X : /Book/AuthorList/Author
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
Mapeamento de Relacionamentos
• Expressão de caminho relativo XPath
Book(1,N)
Author
(1,N)
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
Mapeamento de Relacionamentos
• Expressão de caminho relativo XPath
Book(1,N)
Author
(1,N)
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
DTD X:
BookAuthor:
Mapeamento de Relacionamentos
• Expressão de caminho relativo XPath
Book(1,N)
Author
(1,N)
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
DTD X:
BookAuthor: AuthorList
Mapeamento de Relacionamentos
• Expressão de caminho relativo XPath
Book(1,N)
Author
(1,N)
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
DTD X:
BookAuthor: AuthorList/Author
Mapeamento de Relacionamentos
• Expressão de caminho relativo XPath
Book(1,N)
Author
(1,N)
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
DTD X:
Author Book:
Mapeamento de Relacionamentos
• Expressão de caminho relativo XPath
Book(1,N)
Author
(1,N)
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
DTD X:
Author Book: ..
Mapeamento de Relacionamentos
• Expressão de caminho relativo XPath
Book(1,N)
Author
(1,N)
DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>
DTD X:
Author Book: ../..
Roteiro
1. Introdução
2. Abordagem de Integração Proposta
3. Modelo Canônico e Mapeamentos
4. Etapa de Conversão da DTD
5. Etapa de Integração Semântica
6. Considerações Finais
Etapa de Conversão da DTD
• Contribuição principal da abordagem– diferencial em relação a outros trabalhos
• define um esquema semântico para uma DTD • resulta de uma análise detalhada do esquema +
dados de documentos XML + inferências semânticas
– modelagem canônica +adequada ao domínio
esquema global +preciso
Processo de Conversão
Documentos XML
Usuário Especialista
Pré-Processamento
DTD
DTDPré-Processada
Conversão
Esquema Conceitual Preliminar
Reestruturação
Esquema Conceitual
Definitivo
Fonte XML
Processo de Conversão
Documentos XML
Usuário Especialista
Pré-Processamento
DTD
DTDPré-Processada
Conversão
Esquema Conceitual Preliminar
Reestruturação
Esquema Conceitual
Definitivo
Fonte XML
modifica detalhes de estruturação da DTD:• remoção de informação irrelevante para o domínio• tratamento de elementos com aninhamento• renomeação de informação
Remoção de Elementos
<!ELEMENT Book(AuthorList, Publisher)>
...
<!ELEMENT AuthorList(Author)+>
Remoção de Elementos
<!ELEMENT Book(AuthorList, Publisher)>
...
<!ELEMENT AuthorList(Author)+>
<!ELEMENT Book((Author)+, Publisher)>
Tratamento de Aninhamentos
<!ELEMENT Address((Street, Number)?, City)>
Tratamento de Aninhamentos
<!ELEMENT Address((Street, Number)?, City)>
<!ELEMENT Address(AddressGroup1?, City)>
<!ELEMENT AddressGroup1(Street, Number)>
Processo de Conversão
Documentos XML
Usuário Especialista
Pré-Processamento
DTD
DTDPré-Processada
Conversão
Esquema Conceitual Preliminar
Reestruturação
Esquema Conceitual
Definitivo
Fonte XML
gera os conceitos e relacionamentos de um esquema MCC com base:• nas definições de elementos e atributos da DTD• nos documentos XML
Regras de Conversão<!ELEMENT Publication (Year,...,Author+,...,Book?)>
Conversão de Elemento Composto<!ELEMENT Publication (Year,...,Author+,...,Book?)>
Publication
Conversão de Elemento Simples<!ELEMENT Publication (Year,...,Author+,...,Book?)>
<!ELEMENT Year (#PCDATA)>
Yearinteger
Publicationanálise de docs XML
default: string
Análise de Documentos XML
• Análise de tipo de dado
...<Year>2002</Year> ...<Year>1999</Year>...<Year>1995</Year> ...
Tipo de dado de Year: integer
Conversão de Componentes<!ELEMENT Publication (Year,...,Author+,...,Book?)>
<!ELEMENT Year (#PCDATA)>
Yearinteger
Publication
(1,1)
(1,N)default: (1,N)
regras decardinalidade
Análise de Documentos XML
• Análise de cardinalidade inversa...<Publication Title = “XML”> ... <Year>2002</Year> ... </Publication>...<Publication Title = “XPath”> ... <Year>2002</Year> ...</Publication>...
CardinalidadeYearPublication: (1,N)
Conversão de Componentes<!ELEMENT Publication (Year,...,Author+,...,Book?)>
<!ELEMENT Year (#PCDATA)>
<!ELEMENT Author(..., University+ | Business)>
Yearinteger
Publication
(1,1)
(1,N)
Author
Universitystring
(1,N)(1,N)
Businessstring
(1,N)(1,1)
Heurística de Herança<!ELEMENT Publication (Year,...,Author+,...,Book?)>
<!ELEMENT Year (#PCDATA)>
<!ELEMENT Author(..., University+ | Business)>
Yearinteger
Publication
(1,1)
(1,N)
Author
Universitystring
(1,N)(1,N)
Businessstring
(1,N)(1,1)
Book
consulta à Thesaurus (Wordnet)
<Publication BT Book>
Conversão de Atributos<!ELEMENT Publication (Year,...,Author+,...,Book?)>
<!ATTLIST Publication Title CDATA #REQUIRED>
<!ELEMENT Year (#PCDATA)>
<!ELEMENT Author(..., University+ | Business)>
Yearinteger
Publication
(1,1)
(1,N)
Author
Universitystring
(1,N)(1,N)
Businessstring
(1,N)(1,1)
Book
Titlestring
(1,1)(1,1)
Processo de Conversão
Documentos XML
Usuário Especialista
Pré-Processamento
DTD
DTDPré-Processada
Conversão
Esquema Conceitual Preliminar
Reestruturação
Esquema Conceitual
Definitivo
Fonte XML
realiza validações manuais e automáticas para uma melhor adequação do esquema ao domínio
Validações Manuais
Publication
Proceedings
(1,1)(1,1)
(1,1)(1,1)
Publication
Proceedings
Validações Automáticas
Publication
Proceedings Book
Title(1,1)(1,1)(1,N)(1,N)
(1,1)(1,1)(1,N)(1,N)
Title(1,1)(1,1)(1,N)(1,N)
Book
Proceedings
Publication
Processo de Conversão
Documentos XML
Usuário Especialista
Pré-Processamento
DTD
DTDPré-Processada
Conversão
Esquema Conceitual Preliminar
Reestruturação
Esquema Conceitual
Definitivo
Fonte XML
Roteiro
1. Introdução
2. Abordagem de Integração Proposta
3. Modelo Canônico e Mapeamentos
4. Etapa de Conversão da DTD
5. Etapa de Integração Semântica
6. Considerações Finais
Etapa de Integração Semântica
• Baseada em regras e algoritmos de unificação
• Diferencial em relação a outros trabalhos – trata as particularidades de integração de
esquemas XML • representações textuais e/ou estruturadas• representações alternativas
Processo de Integração Semântica
Usuário Especialista
Clusterização de SinônimosClusters deAfinidade
Esquema Conceitual 1
Reestruturação
Esquema Global
Definitivo
Esquema Conceitual n
Unificação
Inclusão de Relações de HerançaEsquema Global
Preliminar
ARTEMIS
...
Processo de Integração Semântica
Usuário Especialista
Clusterização de SinônimosClusters deAfinidade
Esquema Conceitual 1
Reestruturação
Esquema Global
Definitivo
determinação de equivalências entre conceitos:• graus de afinidade• agrupamento em clusters
Esquema Conceitual n
Unificação
Inclusão de Relações de HerançaEsquema Global
Preliminar
ARTEMIS
...
Processo de Integração Semântica
Usuário Especialista
Clusterização de SinônimosClusters deAfinidade
Esquema Conceitual 1
Reestruturação
Esquema Global
Definitivo
Esquema Conceitual n
Unificação
Inclusão de Relações de HerançaEsquema Global
Preliminar
ARTEMIS
...
integração semântica de conceitos presentes em um mesmo cluster
Unificação
• Regras e algoritmos aplicadas a três casos de unificação– Unificação L x L (cluster léxico)– Unificação NL x NL (cluster não-léxico)– Unificação NL x L (cluster misto)
Unificação L x L
Number
integer
Nr
integer
Number
floatNumber
float
string
Business
string
Enterprisestring
(1) (2)
Enterprise
(3)(1) (2)
Unificação NL x NL
WriterName(1,1) (1,N)
(1,1)
(1,N)
Author
AuthorName(1,1) (1,N)
(2)(1)
University
Business
Name(1,1) (1,1)
(1,N)
(1,N)
(1,1)
(1,N)
University
(1,1)
(1,N)
(1,1)(0,N)
University
Business(1,N) (0,1)
(1,N)(1,N)
Unificação NL x L
City
Publishing-House
Manual
(1,N)
(1,1)
Name
string
(1,N)
(1,1)
string
(1,1)
(0,N)
(2)
Publisher
string
(1)
Publisher (2) Publishing-House/Name (1)(mapeamento 1:1)
City
Publishing-House
Manual
(1,N)
(1,1)
Name
string
(1,N)
(1,1)
string
(1,1)
(0,N)
DTD 2: Publisher
Unificação NL x LAddress
StreetCity
(1,N)
(1,1)(1,1)
Number
(1,1)
stringstringinteger
(1,N)
(1,N)(1)
Address
string
(2)
Address (2) Address/Street Address/Number Address/City (1) (mapeamento 1:N)
Address
DetailedAddress TextualAddressTextualAddress
Text
string
(1,N) (1,1)Street(1,N)(1,1)
City
(1,N)(1,1)
string
Number
(1,1)
integer
(1,N)
string
DTD 1: Address DTD 2: Address
Processo de Integração Semântica
Usuário Especialista
Clusterização de SinônimosClusters deAfinidade
Esquema Conceitual 1
Reestruturação
Esquema Global
Definitivo
Esquema Conceitual n
Unificação
Inclusão de Relações de HerançaEsquema Global
Preliminar
ARTEMIS
...
consideração de novos relacionamentos de herança relevantes para o domínio
Inclusão de Relações de Herança
PublicationTitle (1,1)
string
(1,N)
Manual
(1,1)
(1,N)
e
<Publication BT Manual>
PublicationTitle (1,1)
string
(1,N)
Manual
(1,1)
(1,N)
relacionamento relevante?
Processo de Integração Semântica
Usuário Especialista
Clusterização de SinônimosClusters deAfinidade
Esquema Conceitual 1
Reestruturação
Esquema Global
Definitivo
Esquema Conceitual n
Unificação
Inclusão de Relações de HerançaEsquema Global
Preliminar
ARTEMIS
...
validações manuais e automáticos para uma melhor adequação do esquema global ao domínio
Ajuste de Disjunções
Publication
Proceedings BookManual
Publication
Proceedings BookManual
+
Publication
Proceedings BookManual
Publication
Proceedings BookManual
Simplificação do Esquema
PublicationTitle (1,1)
string
(1,N)
Manual
(1,1)
(1,N)
PublicationTitle (1,1)
string
(1,N)
Manual
Processo de Integração Semântica
Usuário Especialista
Clusterização de SinônimosClusters deAfinidade
Esquema Conceitual 1
Reestruturação
Esquema Global
Definitivo
Esquema Conceitual n
Unificação
Inclusão de Relações de HerançaEsquema Global
Preliminar
ARTEMIS
...
Roteiro
1. Introdução
2. Abordagem de Integração Proposta
3. Modelo Canônico e Mapeamentos
4. Etapa de Conversão da DTD
5. Etapa de Integração Semântica
6. Considerações Finais
Contribuições
• Um processo de conversão de uma DTD para um esquema conceitual
• Um processo de integração semântica de esquemas XML
• Uma estratégia de mapeamento baseado no padrão XPath
Trabalhos RelacionadosTrabalho Integração Processo Modelo
Canônico
TSIMMIS manual bottom-up grafo
Garlic manual bottom-up ODMG
MIX manual bottom-up DTD
DIXSE manual bottom-up conceitual
Jensen manual bottom-up UML
YAT manual - árvore
McBrien manual - grafo
Vdovjak manual top-down conceitual
Xyleme semi-automático top-down DTD
LSD semi-automático top-down DTD
Lim semi-automático bottom-up grafo
TESE semi-automático bottom-up conceitual
Trabalhos Relacionados
Trabalho Técnicas de Integração Integração de esquemas XML
CUPID • análise de informação do
esquema• análise de nomenclatura• análise de estrutura
• não tratam a integração de
representações alternativas
de elementos (disjunções)• não tratam de forma completa
a integração de elementos
textuais com estruturados
MOMIS
TESE • análise de informação do
esquema• análise de nomenclatura• análise de estrutura• análise de informação análise de informação
de instânciasde instâncias
• tratam a integração de tratam a integração de
disjunçõesdisjunções• consideram várias consideram várias
alternativas para a alternativas para a
integração NL x Lintegração NL x L
Trabalhos Relacionados
Trabalho Limitações de Modelagem Conceitual TESE
CUPID • não modela representações alternativas de
elementos• não filtra elementos irrelevantes para o domínio
MOMIS • esquema conceitual definido manualmente
Vdokjak • esquema conceitual definido manualmente
DIXSE • não modela relacionamentos de herança• não filtra elementos irrelevantes para o domínio
Trabalhos Futuros
• Comparação de esquemas– técnicas de integração baseada em instâncias
• aprendizado de máquina, PLN
• Mapeamento– desenvolvimento do módulo processador de
consultas do Mediador• validação da estratégia de mapeamento
– consideração de restrições de integridade• Fonte X: Sigmod Record Journal
– Journal — Title (Fonte X: [Title = “Sigmod Record”])
Trabalhos Futuros
• Processo de integração– abstração de esquemas em XML-Schema– consulta a vários Thesauri
• comparação de termos em diversas línguas
– análise de performance dos algoritmos• otimização de processamento
– realização de mais estudos de caso• validação da aplicabilidade das regras e algoritmos
– desenvolvimento de um protótipo completo
Publicações• Abordagem de integração
– “A Method for the Unification of XML Schemata”• Mello, R.; Castano, S.; Heuser, C. Information & Software
Technology, v.44, n.4, Mar 2002.
– “A Rule-Based Conversion of a DTD to a Conceptual Schema”
• Mello, R.; Heuser, C. Proceedings of the XX International Conference on Conceptual Modeling (ER’2001), Yokohama, Japan, Springer-Verlag, Nov 2001.
– “A Bottom-Up Approach for Integration of XML Sources”
• Mello, R.; Heuser, C. Proceedings of the International Workshop on Information Integration on the Web (WIIW’2001), Rio de Janeiro, Brazil, Apr 2001.
Publicações
• Estado da arte– “Dados Semi-Estruturados”
• Mello R. et. al. Anais do XV Simpósio Brasileiro de Banco de Dados (SBBD’2000) / XIV Simpósio Brasileiro de Engenharia de Software – Mini-cursos e Tutoriais, João Pessoa, Brasil, Out. 2000.
– “Aplicação de Ontologias a Dados Semi-Estruturados”
• Mello R., Heuser, C. Anais da XXVI Conferencia Latinoamericana de Informática (CLEI’2000), Cidade do México, México, Set, 2000 (ed. eletrônica)
Uma Abordagem Uma Abordagem Bottom-UpBottom-Up para a Integração Semântica para a Integração Semântica
de Esquemas XMLde Esquemas XML
Tese de Doutoradopor
Ronaldo dos Santos Mello
Prof. Carlos Alberto Heuser
Orientador
UFRGS/II - PPGC
ORM x ER
• ER– dicotomia Entidade-Atributo
Author University
<!ELEMENT Author (University)><!ELEMENT University (#PCDATA)> DTD
University
Author
affiliation
ER:name
ORM x ER• ORM
– somente um construtor de modelagem para representação de informação léxica
ORM: Author University
<!ELEMENT Author (University)><!ELEMENT University (#PCDATA)> DTD
ORM x ER
• ER– elementos léxicos compartilhados não podem
ser modelados como atributos
<!ELEMENT Author (Name)><!ELEMENT Company (Name)><!ELEMENT Name (#PCDATA)>
DTD
AuthorName
CompanyName
ER:
ORM x ER
• ORM– não há restrição de modelagem para conceitos
léxicos compartilhados
ORM: Author Name
<!ELEMENT Author (Name)><!ELEMENT Company (Name)><!ELEMENT Name (#PCDATA)>
DTD
Company
Top Related