Aula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Sistemas de Recuperação da Informação
description
Transcript of Sistemas de Recuperação da Informação
Sistemas de Recuperação da Informação
Parte IV
Multimídia
MIDIASMIDIAS
Principais estruturas:
• Textos – linguagem natural
• Hipertextos - caminhamento
• Textos estruturados - esquema
• textos marcados – esquema
• multimidia (dados digitais de diferentes midias):
• texto
• som (linguagem falada, música, ruídos)
• imagens (fotos, pinturas, mapas, diagramas, tabelas)
• vídeo – sequência síncrona dos anteriores (filmes, animações de imagens)
•
MULTIMIDIA MULTIMIDIA
Hipertextos:
Um grafo dirigido de textos e sub-textos.
Cada aresta aponta ou par um texto ou para um subtext.
EXEMPLO: Um Índice Remissivo (a fonte é uma página)
Fonte pode ser um
• documento,
• parágrafo,
• palavra
• bloco de n caracteres
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
EXEMPLO:
Texto 1 (t1):
Integridade declarativa ou implícita: são condições inseridas no próprio esquema conceitual da aplicação desenvolvida. Isto é um dos objetivos de um modelo semântico de dados, de captar o máximo possível de condições de consistência na própria estrutura do esquema conceitual. Existem várias formas de expressar estas condições:1) Esquema, tipos, subtipos: os próprios conceitos de classes e subclasses, atributos e domínios, impõem restrições ao tipo e formato dos dados a serem armazenados no banco de dados;2) Outras hierarquias: também as hierarquias de agregação e agrupamento, assim como outras que porventura poderão ser desenvolvidas, permitem descrever um comportamento especial dos elementos envolvidos.
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Dicionário de termos com lista de documentos
Integridade declarativa implícitacondições esquema conceitual aplicação objetivos modelo semântico de dadoscondições de consistênciaestrutura esquema conceitualcondiçõesEsquematiposSubtipos
ClassesSubclassesAtributosDomíniosRestriçõesTipoFormatoDadosArmazenadosbanco de dados;HierarquiasHierarquiasAgregaçãoAgrupamentoComportamento.
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Dicionário de termos com lista de documentos
Integridade declarativaIntegridadeimplícitacondições (3)esquema conceitual (2)aplicação objetivos modelo semântico de dadoscondições de consistênciaestrutura Esquema (3)Tipos (2)SubtiposDados (3)
ClassesSubclassesAtributosDomíniosRestriçõesFormatoArmazenadosbanco de dadosHierarquias (2)AgregaçãoAgrupamentoComportamento.
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Texto 2 (t2):
Integridade não-declarativa: nenhum modelo de dados é suficientemente rico para poder captar todas as restrições de integridade de uma aplicação complexa. Certas restrições não podem ser dadas de forma declarativa nas estruturas de dados e precisam ser expressas explicitamente de alguma forma. Isto pode acontecer de quatro maneiras distintas:1) Por meio de invariantes ou asserções, que permitem descrever as restrições de integridade como fórmulas ou expressões em uma linguagem específica, que serão verificadas sempre que necessário.2) Por meio de pré- e pós-condições associadas às operações (vide parágrafo seguinte);
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Dicionário de termos com lista de documentos
Integridade não-declarativamodelo de dadosrestrições de integridadeaplicação complexaRestriçõesforma declarativaestruturas de dadosExpressasexplicitamente
Invariantes asserçõesrestrições de integridadeFórmulasExpressõeslinguagem específicapré-condiçõespós-condições operações
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Dicionário de termos com lista de documentos
Integridade não-declarativaIntegridade (3)modelo de dadosrestrições de integridade (2)aplicação complexaRestrições (3)forma declarativaestruturas de dadosDados (2)Expressasexplicitamente
Invariantes asserçõesFórmulasExpressõeslinguagem específicapré-condiçõespós-condições Condições (2)operações
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Dicionário de termos com lista de documentos
Condições (2) Dados (2) Integridade (3)restrições de integridade (2)Restrições (3)
condições (3) Dados (3)Esquema (3)esquema conceitual (2)Hierarquia (2)Tipos (2)
T1:
T2:
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Dicionário de termos ponderados com lista de documentos
T1,3Condições T2,2
T1,3Dados T2,2
T1,2Esquema conceitual
T1,3esquema
T1,2hierarquia
T2,2Restrições de integridade
T1,2tipos
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Dicionário de termos ponderados com lista de documentosconsiderando a posição
T1,3 (1-6;2-18; 3-7)Condições T2,2 (5-4;5-7)
T1,3 (2-11; 4-21; 4-28)Dados T2,2
T1,2Esquema conceitual
T1,3 (1-10; 2-26; 4-1)esquema
T1,2hierarquia
T2,2Restrições de integridade
T1,2tipos
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Dicionário de termos ponderados com lista de documentosconsiderando a posição
T1,3 (1-6;2-18; 3-7)1.Condições T2,2 (5-4;5-7)
T1,3 (2-11; 4-21; 4-28)2.Dados T2,2
T1,24.Esquema conceitual(+3)
T1,3 (1-10; 2-26; 4-1)3.Esquema (-4, -2, ~7)
T1,25.hierarquia
T2,26.Restrições de integridade (~1)
T1,27.tipos(~3)
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Trie dos índices:
T1,3C T2,2
T1,3D T2,2
T1,2c
T1,3esquema
T1,2h
T2,2R
T1,2t
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Incremento dos índices:
1. Termo `condições`:
T1,3C T2,2
2. Acréscimo de `consistência` em T1:
o n d
s T2,1
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Árvore de sufixos:
T1,3C T2,2
o n d
s T2,1
T1,3
1
T2,2
T2,1
3c
s
d
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos invertidos :
Vantagens
• cada termo só aparece uma vez• busca por proximidade• facilidade de associar pesos, posições
Desvantagens
• muita redundância nas referências aos documentos•
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
EXERCÍCIO
A crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês. Nesse contexto a cada dia aumenta a necessidade por sistemas capazes de recuperar informação sem levar em consideração o idioma no qual a informação esteja expressa.
Além da Web, vários outros sistemas de informação que lidam com documentos, tal como bibliotecas digitais e convencionais, jornais, documentos jurídicos, entre outros, vem tendo um significativo aumento na quantidade de informação que pode estar expressa em uma grande variedade de idiomas diferentes.
A recuperação de informação multilíngüe vem sendo tema de pesquisas já há bastante tempo e ao longo desse tempo ótimos resultados vêm sendo obtidos pelos pesquisadores da área. Muitos pesquisadores, inclusive, acreditam que o problema de recuperação de informação multilíngüe já está resolvido [15].
ESTRUTURAS DE ARQUIVOS - Textos integraisESTRUTURAS DE ARQUIVOS - Textos integrais
N-Gramas
Divide o texto em pedaços de tamanho fixo (n):
Bigramas:Di iv vi id de o te ex xt to em pe ed da aç ço os …
Trigramas:Div ivi vid ide o tex ext xto em ped eda daç ços …
Com marcadores de palavras:#Div ivi vid ide# #o# #tex ext xto# …
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
N-Gramas
Aplicaçoes
• Criptografia• Correção de erros de grafia• Compressão de textos• Manipulação de índices• Recuperação de textos integral
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
N-Gramas
erros de grafia:
Erros típicos:• Commputer (letra a mais)
• Cmputer (letra a menos)
• Comptuer (letras trocadas)
• Cumputer (letra errada)
Regras de substituição:• omm mmu ~ omu• cmp ~ com omp• mpt ptu ~ mpu put
Cum ump ~ com omp
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Árvores PATRICIA (PAT trees e PAT arrays)(Practical Algorithm To Retrieve Information Coded In Alphanumerics)
Um texto é considerado como uma longa cadeia de caracteres.
Cada posição desta cadeia é o começo de um sufixo (semi-infinito) do texto
Também chamado de árvore ou array de sufixos.
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Árvores PATRICIA (PAT trees e PAT arrays)
“Um texto é considerado como uma longa cadeia de caracteres.”
Um texto é considerado como uma longa cadeia de caracteres.m texto é considerado como uma longa cadeia de caracterestexto é considerado como uma longa cadeia de caracteresexto é considerado como uma longa cadeia de caracteres
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Árvores PATRICIA (PAT trees e PAT arrays)
Um texto é considerado como uma longa cadeia de caracteres. 1 2 3 4 5
texto é considerado como uma longa cadeia de caracteres.considerado como uma longa cadeia de caractereslonga cadeia de caracterescadeia de caracterescaracteres
Sufixos significativos = pontos de indexação:
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Árvores PATRICIA (PAT trees e PAT arrays)
Um texto é considerado como uma longa cadeia de caracteres.1 4 10 34 40 50
d
Representação
4
10
c
l
a
to
40
3450
r
Trie
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Árvores PATRICIA (PAT trees e PAT arrays)
Um texto é considerado como uma longa cadeia de caracteres.1 4 10 34 40 50
Representação
Array ordenado 40 | 50 | 10 | 34 | 4 |
Com supra índice-2 ca | co | lo | te |
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Árvores PATRICIA (PAT trees e PAT arrays)
Aplicações
• Índice remissivo (supra –indice-n)• Pesquisa por prefixos• Pesquisa de proximidade entre dois strings• Pesquisa por abrangências léxicas
p.ex. “abc” ... “acc” inclui “abra”, “acacia” mas não “acrimonioso”• Frequências de textos• Pesquisa por expressões regulares
Consultas: p.ex.
os trigrams mais frequentes ~ a maior sub-árvore a partir do nível 3 da raíz
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos Assinatura
É uma forma extremamente compacta de caracterizar um texto por meio de uma “assinatura”.
Assinatura = um bitstring que caracteriza uma palavra-chave um bloco um documentoX uma consulta
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos Assinatura
Palavra Assinatura
Computer 0001 0110 0000 0110Science 1001 0000 1110 0000Graduate 1000 0101 0100 0010Students 0000 0110 0110 0100Study 0000 0110 0110 0100
Assinatura do bloco 1001 0111 1110 0110
Constante: número de bits 1 por termo (=5)
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos Assinatura – Blocos de 5 palavrasA crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês.
Palavra AssinaturaInformação 0001 0110 0000 0110Web 1001 0000 1110 0000Recuperação 1000 0101 0100 0010Inglês 0000 0110 0110 0100Idioma(s) 0010 0110 0010 0100
Assinatura do documento 1001 0111 1110 0110
0001 0110 0000 01101001 0000 1110 00001001 0111 0100 01100000 0000 0000 00000010 0110 0010 01000000 0110 0110 01000000 0000 0000 00000001 0110 0000 01101001 0000 1110 00000010 0110 0110 0100
1011 0111 1110 0110
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Arquivos Assinatura - ConsultasA crescente quantidade de informação disponível na Web trás problemas desafiadores relacionados à recuperação de informação. Atualmente a maior parte do conteúdo disponível na Web está escrito em inglês, porém estudos recentes demonstram que o crescimento da quantidade de informação disponível na Web é maior para outros idiomas, que não o inglês.
Consulta: “Recuperação na web”
Web 1001 0000 1110 0000Recuperação 1000 0101 0100 0010
Assinatura da consulta 1001 0101 1110 0010
0001 0110 0000 01101001 0000 1110 00001001 0111 0100 01100000 0000 0000 00000010 0110 0010 01000000 0110 0110 01000000 0000 0000 00000001 0110 0000 01101001 0000 1110 00000010 0110 0110 0100
1011 0111 1110 0110
1001 0101 1110 0010
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Hipertextos
Um Hypertexto é um grafo dirigido de textos e pontos no texto.Cada nó é um texto e cada aresta aponta de um ponto em um texto a outro ponto em um texto.
Na Internet o padrão é HTML
Um hiperlink é dado por
<a href=“<url>”>texto</a>
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Hipertextos
EXEMPLO:
HTML
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
Hipertextos
Sistema que combina Pesquisa com browsing:
WebGlimpse
Questões:
• desprezar hiperlinks• como considerar hiperlinks locais• em que profundidade considerar hiperlinks externos (ciclos, cadeias ‘infinitas’)
ESTRUTURAS DE ARQUIVOSESTRUTURAS DE ARQUIVOS
EXERCÍCIO
Para as palavras chave do exercício anterior criar assinaturas para as palavras chave e usar os parágrafos como unidades e criar uma assinatura para cada parágrafo.
Considere as consultas:
• “Web multilingue”• “idiomas na Web”Quais textos serão retornados?