Arquivos Digitais com Semântica

33
Arquivos Digitais na 3ª geração da Web: uma ideia com mais de 20 anos José Carlos Ramalho [email protected] [email protected] Encontro Internacional de Arquivos: Instituição, Arquivos e Sistemas de Informação na Era pós- custodial

description

Hoje em dia a Web sobrepôs-se a todos os outros meios de comunicação tornando-se o meio de comunicação principal para quem produz informação e para quem a consome. O seu crescimento é exponencial, pode-se dizer mesmo, assustador. Com este ritmo de crescimento e se continuarmos a produzir e a consumir informação da mesma forma, o que hoje tomamos como certo poderá deixar de sê-lo a curto prazo. Os arquivos digitais constituem um subdomínio da Web e estão neste ritmo de crescimento acelerado. A informação disponibilizada seja ela na forma de descrições, transcrições ou digitalizações cresce diariamente. A Web veio eliminar as barreiras geográficas mas se nada for feito no entretanto, encontrar o item que procuramos pode-se tornar uma tarefa difícil. Como a comunidade é muito proactiva a tecnologia já existe o que é preciso é dá-la a conhecer e aplicá-la aos vários domínios. Estamos a falar da Web Semântica ou Web 3.0 e que assenta na seguinte premissa: até à segunda geração da Web as máquinas limitavam-se a apresentar a informação, a interpretação da informação era tarefa exclusiva dos humanos, ou seja, às máquinas era pedido que apresentassem mais ou menos bonita a informação, uma tarefa fácil, aos humanos cabia a tarefa mais árdua e complexa; porque não colocar as máquinas a fazer parte do trabalho árduo? O que temos de alterar na nossa forma de produzir conteúdos para tornar este cenário possível? Estas são algumas das questões a que queremos dar resposta no contexto dos arquivos.

Transcript of Arquivos Digitais com Semântica

Page 1: Arquivos Digitais com Semântica

Arquivos Digitais na 3ª geração da Web: uma ideia com mais de 20 anos

José Carlos [email protected]

[email protected]

Encontro Internacional de Arquivos: Instituição, Arquivos e Sistemas de Informação na Era pós-custodial

Page 2: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 2

A nossa históriaPeríodo Projeto

1989 - 1991 HiTeX – Transcrição assistida com semântica

1998 - 2000 Ed. Eletrónica: “Memórias de José Inácio Peixoto”; “Índice das Gavetas do Cabido”; “Bulário Bracarense”; etc.

2000 Reverse Engineering da BD das “Inquirições de Génere”

2003 – 2013 Digitarq: Gestão de metainformação, ODs, etc.

2006 – 2008 RODA: Preservação Digital

2006 – 2013 CRAV: Consulta Real em Ambiente Virtual

2010 – 2014 SCAPE: projeto FP7 sobre Preservação Digital

2013 - ... Archeevo: a nova geração do Digitarq e do CRAV

2013 – 2015 4C: projeto FP7 sobre Preservação Digital

5 de Outubro de 2013

Um denominador comum: geração automática de índices (cronológico, toponímico e antroponímico). Facilidades: navegação

relacional e não hierárquica.

Produção massiva de conteúdos

Milhões de registos organizados hierarquicamente: ISAD, EAD, METS, etc.

Page 3: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 3

De regresso ao passado…

• HITEX (1989-1991): Um Sistema em Desenvolvimento para Historiadores e Arquivistas– Normalização: cada um deixar de fazer à sua maneira;– Reutilização: noção de componente reutilizável com interesse

histórico;– Classificação: taxonomia padrão de conceitos históricos (classes) que

exprime a ordem de subsunção sobre o conhecimento histórico;– Tolerância para com informação incompleta: permite a aquisição

incremental de conhecimento histórico;– Resultados:

• formato HiTeX: uma linguagem de fácil utilização para transcrição documental;• criação automática de índices: cronológico, toponímico e antroponímico.

5 de Outubro de 2013

Page 4: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 4

Um pequeno exemplo

5 de Outubro de 2013

“Certidão da doação que o arcebispo de Braga D.Martinho de Oliveira fez aoCabido de Braga [: : : ] Ano de 1300.”

Início do primeiro volume do Índice das Gavetas do Cabido de Braga

Asserções:• D. Martinho de Oliveira era o Arcebispo de Braga em 1300;• Este arcebispo doou qualquer coisa ao Cabido de Braga, nesse mesmo ano;• O Cabido guardou uma certidão dessa doação;• Essa certidão está arquivada no fundo documental designado Gavetas do Cabido;• Uma referência a essa certidão é a que se pode encontrar no fol.1, vol.1 do

correspondente Índice, compilado no século XVIII.

D. Martinho de Oliveira Gavetas do Cabido Certidão X Índice

Page 5: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 5

Modelo ontológico

5 de Outubro de 2013

Qual a relevância disto no contexto atual?

Page 6: Arquivos Digitais com Semântica

Engenharia Web 2013 6

Três vias alternativas para o desenvolvimento Web

Setembro de 2013

Comunidades

EquipamentoAplicações,Serviços,Agentes

• Wikis• Blogs• Mashups• Portais

• Computação Ubíqua• Espaços Inteligentes• RFID• Sistemas Embebidos• Redes Sensoriais

• Metainformação• Ontologias• Serviços Web• Agentes• Portais Inteligentes

Web 2.0

Web of Things

Semantic Web

Page 7: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 7

Evolução da WebWeb Arquivos pt

1ª geração Páginas estáticas 1ª geração Informatização

2ª geração Páginas geradas a partir de conteúdos em SI

2ª geração Acesso Web à informação em regime de acesso livre

3ª geração Sites que se atualizam automaticamente mediante alterações de 3ªs partes: BBC• Integração automática de SI• Normalização• Identificadores persistentes• ...

3ª geração • Integração• Dados com semântica• Novos modelos de acesso• Aplicações de valor acrescentado

5 de Outubro de 2013

É preciso aumentar o nível de percepção das “máquinas”…

Page 8: Arquivos Digitais com Semântica

Engenharia Web 2013 8

Hoje: a Web Sintáctica

Setembro de 2013

Resource

Resource

ResourceResource

Resource

Resourcehrefhref

href

href

href

href

href

href

• Um lugar onde os computadores fazem a apresentação da informação (fácil) e as pessoas a interpretação e a navegação (difícil).• Ideia: Porque não colocar o computador a fazer uma maior parte do trabalho difícil?

Page 9: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 9

Exemplo: a Europeana

5 de Outubro de 2013

Page 10: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 10

Exemplo: a Europeana

5 de Outubro de 2013

Page 11: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 11

Apenas Semântica?!

5 de Outubro de 2013

Estamos a criar silos bem estruturados…

SCOPE AND CONTENT: Contém correspondência dirigida ao SAALN proveniente do exterior : "Liga para a Protecção da Natureza", "A Voz do Porto", "projecto omnicooper", sobre assuntos vários.

Page 12: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 12

Semântica & “Linking”

5 de Outubro de 2013

• É necessário que:– a informação esteja

disponível na Web• accessível via tecnologias

Web standard;

– a informação esteja interligada através da Web;

– ie, a informação pode ser integrada através daWeb.

Informação disponível na Web não é suficiente…

Page 13: Arquivos Digitais com Semântica

13

Linked Open Data, Set. 2010

Page 14: Arquivos Digitais com Semântica

14

Linked Open Data, Set. 2011

Page 15: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 15

Por áreas específicas

5 de Outubro de 2013

Gostaria que os sistemas de arquivo portugueses fizessem parte desta área nos próximos anos...

Page 16: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 16

As opções da Europeana

• Geonames: 10 milhões de nomes/designações geográficos;

• Dbpedia: base de conhecimento que encerra a descrição de 3,64 milhões de itens;

• Catalog of Life (CoL): catálogo completo de todos os organismos vivos conhecidos;

• Uniprot: banco de dados sobre sequenciação de proteínas;• GEMET: thesaurus que define um vocabulário controlado

para a temática ambiental;• FOAF: “Friend of a Friend” – ontologia para descrever

pessoas e respetivas relações.5 de Outubro de 2013

Page 17: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 17

Geonames

5 de Outubro de 2013

Page 18: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 18

Descrição arquivística com semântica

1. É preciso identificar univocamente os registos descritivos: utilizando URIs persistentes;

2. Os registos descritivos devem estar num formato normalizado de modo a que recursos e respetivas relações possam ser automaticamente reconhecidos (RDF);

3. Incluir nas descrições o maior número de links (mínimo = 50 links externos / dataset) possíveis para outros recursos de informação.

5 de Outubro de 2013

Page 19: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 19

• Para integrar dados é necessário acordar– nos termos a usar:

• “translator”, “author”

– nas categorias a usar:• “Person”, “literature”

– nas relações entre aqueles:• “an author is also a Person…”, “historical fiction is a

narrower term than fiction”• novas relações podem ser deduzidas.

Vocabulários

5 de Outubro de 2013

Page 20: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 20

O que é preciso?

• Acordo num vocabulário;• Acordo numa ontologia;• Embeber esta semântica no “front-end” dos

sistemas de informação atuais (experiências em curso);

• No fim: vontade e força política (difícil mas não impossível).

5 de Outubro de 2013

Page 21: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 21

– É necessária uma linguagem de especificação formal para estes vocabulários;

– Para os definir;– Para lhes associar semântica de modo a tornar

claro como é que novas relações podem ser deduzidas.

Vocabulários

5 de Outubro de 2013

Page 22: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 22

• Definição:

Ontologias

“Especificação formal de uma área de conhecimento através da definição dos conceitos que lhe são subjacentes e relações entre estes.”

• Conhecimento explícito (fácil);• Conhecimento implícito (difícil, é preciso torná-lo explícito).

5 de Outubro de 2013

Page 23: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 23

• Para thesauri, glossários, etc: SKOS• Para definir vocabulários mais complexos com

alguma lógica subjacente: OWL• E uma framework para definir regras sobre os

termos e a informação: RIF

• RDF/XML para representação dos modelos semânticos

Emergiram 3 tecnologias e 1 formato

5 de Outubro de 2013

Page 24: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro

Do bit à Semântica:

XML

RDF

NameSpaces XML Schema

Unicode URI

RDF Schema

Ontologias

Lógica

Prova

TopicMap

s

245 de Outubro de 2013

Vocabulários

Page 25: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 25

Último exemplo: Inquirições de “Génere”

• Motor SPARQL: http://librdf.org/query• Ontologia light:

http://www.di.uminho.pt/~jcr/XML/sparql/inquiricoes-light.owl

5 de Outubro de 2013

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX owl: <http://www.w3.org/2002/07/owl#>PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>

Page 26: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 26

Interrogações: Nomes dos indivíduos?

5 de Outubro de 2013

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX owl: <http://www.w3.org/2002/07/owl#>PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>

SELECT ?na WHERE { ?a inq:nome ?na.}

Page 27: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 27

Os pares de nomes dos que são Irmãos?

5 de Outubro de 2013

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>PREFIX owl: <http://www.w3.org/2002/07/owl#>PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>

SELECT ?na, ?nbWHERE { ?a inq:Irmao ?b. ?a inq:nome ?na. ?b inq:nome ?nb}

Page 28: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 28

• Publica a tua informação primeiro, preocupa-te com as interfaces/aparência depois!– a “informação crua” pode ser útil assim mesmo e outros

poderão usá-la; – podes acrescentar-lhe valor, mais tarde, criando-lhe acessos

sofisticados.• Se possível, publica a tua informação em RDF caso

contrário, outros poderão ajudar-te na conversão– confia na comunidade…

• Acrescenta links para outras fontes. “Apenas” publicar não é suficiente…

Algumas recomendações

5 de Outubro de 2013

Page 29: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 29

Oportunidades

• Horizonte 2020: este é um dos eixos principais de financiamento na área das TIC;

• Criação de novos produtos: site da BBC, Retrievo, Archeevo, …

• Se ligarmos à LOD o nosso repositório estamos a maximizar a sua visibilidade e a aumentar potencialmente o número de visitas;

• Os motores de busca tipo google já tiram partido da informação semântica se esta estiver disponível.

5 de Outubro de 2013

Page 30: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 30

Dificuldades

• Se descrever arquivisticamente consome recursos, descrever conteúdos consome ainda mais;

• Voluntariado (folksonomias na prática)– é preciso preparar o terreno;– controlar/definir os vocabulários usados;– criar política de contribuições.

5 de Outubro de 2013

Page 31: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 31

Exemplo: www.retrievo.pt

5 de Outubro de 2013

Page 32: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 32

Pensamentos “soltos”

5 de Outubro de 2013

Linguagem

Informação

Conhecimento

Estamos algures entre a Informação e o Conhecimento...

Page 33: Arquivos Digitais com Semântica

Encontro Internacional de Arquivos - Faro 335 de Outubro de 2013

José Carlos RamalhoKEEPS/Universidade do [email protected] / [email protected]

Questões?

http://www.keep.pt