Pesquisa no Passado - Arquivo.ptsobre.arquivo.pt/wp-content/uploads/pesquisa-no-passado.pdf ·...

Post on 25-Sep-2020

1 views 0 download

Transcript of Pesquisa no Passado - Arquivo.ptsobre.arquivo.pt/wp-content/uploads/pesquisa-no-passado.pdf ·...

Pesquisa no Passado

Miguel Costa Engenheiro, Investigador, Aluno de Doutoramento

Faculdade de Letras da UL - 21 de Maio, 2012

2

Do Papel ao Digital

• Enciclopédia Britannica abandona edição impressa

ao fim de 244 anos

• Livros → E-Books

• Diários → Blogs

• Álbuns de fotos → Flick

• Cartas → Redes Sociais

3

Evolução da World Wide Web

• 1995: 11,4 milhões

• 1997: 200 milhões

• 1998: 800 milhões

• 2005: 19,2 mil milhões

• 2008: 1 bilião

• 2012: ???

0

200

400

600

800

1000

1995 1997 1998 2005 2008

co

nte

úd

os

(m

ilh

õe

s)

anos

4

Muitas Tecnologias Novas

RSS

Flash

Móvel

5

A Web é Efémera

• 50 dias - 50% dos documentos são alterados

(Cho and Garcia-Molina. 2000)

• 1 ano - 80% dos documentos ficam inacessíveis

(Ntoulas, Cho and Olson. 2004)

• 27 meses - 13% citações para a Web desaparecem

(http://webcitation.org/. 2007)

6

404 - Página Não Encontrada

7

Iniciativas de Arquivos da Web

• +77 iniciativas em 39 países

• +193 mil milhões de documentos desde 1996

8

Arquivo da Web Portuguesa

• Disponível desde 2010: http://arquivo.pt

• Mil milhões de documentos

– pesquisáveis por endereço (URL) e texto

– entre 1996 e 2011

9

Pesquisa por Endereço (URL)

2010

10

2005

11

2000

12

13

Pesquisa Textual

14

Pesquisa Textual

Complementar aos Motores de Busca

Hoje

2011 2010 …

2000

1996 …

Arquivo da

Web

Tem

po

15

Casos de Uso

• Utilizador visita Favorito desaparecido

• Jornalista revisita notícia passada

• Webmaster recupera versão perdida do site

• Historiador analisa documentos digitais

• Web designer faz portfólio de sites antigos

• Professor recupera slides

• Outros?

16

17

Onde está a Informação?

18

Como é feito a Pesquisa?

Pesquisa Resultados

19

Recolha de Dados

• Automática a partir de um conjunto de endereços

• Recursivamente são seguidas ligações e arquivados os

conteúdos

Web Crawlers

20

Recolha de Dados

• Automática a partir de um conjunto de endereços

• Iterativamente são seguidas ligações e arquivados os

conteúdos

Web Crawlers

21

Preservação de Dados

Adicionar

metadados

“Curar” dados

Localização 1

Localização 2

Replicar Migrar ou

Emular

22

Como é feito a Pesquisa?

Pesquisa Resultados

Recolha

Preservação

23

Indexação

<HTML>

O rio era frio …

</HTML>

Documento 1

<HTML>

O frio que …

</HTML>

Documento 2

rio 1

frio 1 2

era 1

Extração Criação de

estruturas de dados

Ficheiro Invertido

24

Recuperação

rio frio @ [1996, 2000]

rio 1

frio 1 2

era 1

rio 599

frio 1041

765 era 321

rio 4033

frio 2078

3012 era 2045 3455

2090

1996

2000

2004

1841

1841

25

Ordenação

3.039.553

26

Objetivo

Relevante Não Relevante

Maximizar Relevância

Para todas as pesquisas

27

Ordenação

Extração de Sinais de Relevância

Criação de Funções de Relevância

Seleção de Funções de Relevância

Combinação de Funções (Modelo)

Extração de Sinais de Relevância

28

Sinais de Relevância

• Os termos da pesquisa estão:

– quantas vezes no título?

– próximo entre eles no texto?

• A página:

– tem muitas versões diferentes?

– tem muitos links a apontar para ela?

• Os utilizadores:

– clicaram quantas vezes a página?

– quanto tempo viram a página?

29

Ordenação

Extração de Sinais de Relevância

Criação de Funções de Relevância

Seleção de Funções de Relevância

Combinação de Funções (Modelo)

30

Modelar os Sinais de Relevância

0 500 10000

0.2

0.4

0.6

0.8

1

valo

r

nº. versões

𝑓 𝑣𝑡𝑑 =𝑙𝑜𝑔10(𝑥)

𝑙𝑜𝑔10(𝑦)= 𝑙𝑜𝑔𝑦(𝑥)

Parâmetros: x = nº. versões da página d y = máximo nº. de versões

Exemplo de nº. de versões:

31

Ordenação

Extração de Sinais de Relevância

Criação de Funções de Relevância

Seleção de Funções de Relevância

Combinação de Funções (Modelo)

32

Selecionar Funções

• Com bons resultados

• Não redundantes

• Computacionalmente leves

33

Ordenação

Extração de Sinais de Relevância

Criação de Funções de Relevância

Seleção de Funções de Relevância

Combinação de Funções (Modelo)

34

Combinar Funções

ℎ 𝑑 = 𝑛 ∗ 𝑓𝑛(𝑑)

𝑝

𝑛=1

35

Como é feito a Pesquisa?

Pesquisa Resultados

Recolha Indexação

Apresentação

Preservação

Recuperação

Ordenação

Para saber Mais

• Ver: http://sobre.arquivo.pt/

– publicações

– vídeos

• Seguir notícias: http://sobre.arquivo.pt/news

• Twitter

• Facebook

• Linkedin

• RSS feeds

36

Colaborar

• Seguir recomendações para autores

– Não esconder ligações

– Usar formatos adequados

• Sugerir sítios web portugueses para arquivo

• Fornecer conteúdos históricos

•Divulgar!

37

Desafios e Projetos

• Pesquisa de imagens

• Classificação automática de conteúdos

• Etiquetagem comunitária de conteúdos

• Reconhecimento de entidades mencionadas

• Para saber mais: http://www.arquivo.pt/propostas

38

Obrigado

http://arquivo.pt

miguel.costa@fccn.pt

39

40

1996: SAPO

1998: Abertura da EXPO 98

41

2001: Figo melhor jogador do mundo

42

2003: Portugal apoia a guerra no Iraque

43

2004: Grécia vence Euro 2004

44

O que faz a FCCN? www.fccn.pt

45

Serviços de Rede Segurança & Serviços à

Comunidade DNS Serviços

Avançados

Gestão da rede de Investigação e Ensino Nacional