Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de...

Post on 18-Apr-2015

110 views 1 download

Transcript of Bancos de Dados e Recuperação de Informação Olinda Nogueira Paes Cardoso DCC - UFLA Maio de...

Bancos de Dados e

Recuperação de Informação

Olinda Nogueira Paes Cardoso

DCC - UFLA

Maio de 2004

Bancos de DadosBD

Bancos de Dados e Recuperação de informação 3

Introdução – Conceitos Básicos

Bancos de dados (BD) são conjuntos de dados relacionados e acessíveis.

Sistemas Gerenciadores de Bancos de Dados (SGBD) são pacotes de programas que gerenciam BD, são linguagens utilizadas para manter os BD.

Sistemas de BD são sistemas desenvolvidos com funções específicas, que usam BD, desenvolvidos em SGBD.

Bancos de Dados e Recuperação de informação 4

Introdução – Conceitos Básicos

SGBD é um pacote de softwares que facilita a criação e manutenção de um BD. Sozinho um SGBD não significa nada, com um BD e um programa escrito para sua manipulação forma-se um sistema de BD.

Uma analogia sobre a diferença de um SGBD e um sistema de BD, pode ser por exemplo, um programa escrito em C e seu compilador, juntos formam uma aplicação.

Bancos de Dados e Recuperação de informação 5

Introdução – Conceitos Básicos

Num BD os dados relacionados têm que possuir interesses comuns e têm que ser ligados à realidade.

Os dados são matéria-prima de forma crua, fatos que podem ser gravados com significado implícito.

Bancos de Dados e Recuperação de informação 6

Introdução – Conceitos Básicos

Mini-Mundo (Universo de Discurso) é a parte do Mundo real sobre o qual vai ser criado o BD e a aplicação.

Banco de

DadosMini-Mundo

Bancos de Dados e Recuperação de informação 7

Definição para Banco de Dados

Um banco de dados é um conjunto de dados armazenados, cujo conteúdo informativo representa, a qualquer instante, o estado de uma determinada aplicação.

ou Um banco de dados é um modelo de uma

determinada parte da realidade, geralmente denominada de Universo de Discurso.

Bancos de Dados e Recuperação de informação 8

Ambiente de um Sistema de Banco de Dados

Programadores / Usuários

Sistema de BD Programas de aplicação / Consultas

SGBD Programa para processar consultas / Programas

Programas para acessar dados armazenados

Definição dos dados

Dados armazenados

Bancos de Dados e Recuperação de informação 9

Características da tecnologia BD Isolamento entre programas e dados Múltiplas visões dos dados Compartilhamento entre múltiplos usuários Controle de redundância Diferentes tipos de interface para diferentes usuários Representação dos dados complexos Garante a restrição de integridade Mecanismos de backup e recuperação de dados Flexibilidade na mudança das estruturas de dados Redução do tempo de desenvolvimento da aplicação

Bancos de Dados e Recuperação de informação 10

Pessoas Envolvidas com BD

Administrador de bancos de dados (ADB ou DBA – Database Administrator)

Projetistas do banco de dados

Analistas de sistemas

Usuários finais: casuais, ingênuos e sofisticados

Bancos de Dados e Recuperação de informação 11

Linguagens do SGBD

DCL (Data Control Language) – usada pelo DBA para controlar o acesso aos dados, os usuários, etc.

DDL (Data Definition Language) – descreve a estrutura do BD. Usada pelo DBA e pelos projetistas.

DML (Data Manipulation Language) – permite especificar recuperação e alterações dos dados do BD. Pode ser embutida em outra linguagem, por exemplo C.

SQL = DCL + DDL + DML

(Structured Query Language)

Bancos de Dados e Recuperação de informação 12

Evolução das Aplicações de BD Gerência de dados

• Compreende facilidades para armazenar e manipular dados estruturados e de formato fixo, características das aplicações comerciais tradicionais.

Gerência de objetos • Compreende facilidades para armazenar e manipular dados de

estruturas complexas e tipos não tradicionais, tais como: imagens, textos, gráficos, mapas, figuras, etc.

Gerência de conhecimento • Compreende facilidades para armazenar e garantir a aplicação

de regras que possibilitam a manutenção de restrições de integridade entre os dados e a inferência automática de dados.

Bancos de Dados e Recuperação de informação 13

Cronograma de Evolução dos BD

70 80 90

Sistemas de Arquivos

SGBDs tradicionais

Redes Hierárquico

SGBDs relacionais

SQL

SGBDs OO/OR

SQL3

Bancos de Dados e Recuperação de informação 14

Sistemas Avançados em BD

Bancos de Dados Distribuídos

Bancos de Dados Temporais (Tempo-Real)

Bancos de Dados Semi-estruturados

Bancos de Dados na Web

Bancos de Dados Móveis

Recuperação de Informação

RI

Bancos de Dados e Recuperação de informação 16

Introdução - Conceito Recuperação de Informação (RI) é uma área da

Ciência da Computação que lida com armazenamento automático e recuperação de documentos.

Bancos de Dados e Recuperação de informação 17

Introdução - Motivação

Crescimento no volume das informações

Bibliotecas Digitais

Complexidade dos dados

Bancos de Dados e Recuperação de informação 18

Componentes de um Sistema de RIDocumentos Necessidade do usuário

PERDA DE INFORMAÇÃOPROCESSO DE

INDEXAÇÃO

PROCESSO DE RECUPERAÇÃO

PROCESSO DE ESPECIFICAÇÃO DE CONSULTA

Índices Uma representação dos documentos Consulta

Lista de documentos recuperados

Bancos de Dados e Recuperação de informação 19

Modelos Clássicos

Apresentam estratégias de busca de documentos importantes para uma consulta (query).

Cada documento é descrito pelo conjunto de palavras, que o compõe, ou termos de indexação.

Os modelos clássicos: Booleano Vetorial Probabilístico

Bancos de Dados e Recuperação de informação 20

Arquivo Invertido

Termo1

Termo2

Termo3

TermoN

...

doc5 50

doc1 45

doc4 66

doc3 26

doc1 30

doc5 23

doc3 59

doc5 13

doc3 15

doc2 10

doc5 47

doc2 7

...

...

...

...

Bancos de Dados e Recuperação de informação 21

Modelos Clássicos

O índice atribuído aos documentos deve indicar qual documento é mais relevante que outro, estabelecendo uma ordem de relevância (Ranking).

Taxas (índices) de similaridade são calculadas com base na comparação entre a consulta e os documentos.

Bancos de Dados e Recuperação de informação 22

Termos x Documentos

Documentos

Termos

Bancos de Dados e Recuperação de informação 23

Termos x Documentos

Documentos

Termos

Query

Bancos de Dados e Recuperação de informação 24

Avaliação de Sistemas de RI

Coleções de documentos• Tipster (Wall Street Journal - TREC)• Fibrose Cística• Lexis / Nexis

Avalia-se um SRI comparando as respostas geradas por este sistema e o conjunto ideal de respostas de uma coleção de documentos.

Índices de avaliação• Precisão ( Precision )• Revocação ( Recall )

Bancos de Dados e Recuperação de informação 25

Tópicos especiais em RI Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização

Bancos de Dados e Recuperação de informação 26

Passagens

Bancos de Dados e Recuperação de informação 27

Tópicos especiais em RI Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização

Bancos de Dados e Recuperação de informação 28

Expansão de ConsultasUsuário

Consulta: Redes de Computadores + www

Sistema

Consulta:Redes de Computadores + www + Internet +

web + http + net + w3 + backbone

Bancos de Dados e Recuperação de informação 29

Tópicos especiais em RI Passagens

Expansão de Consultas

Filtragem de Informação

Categorização e extração da informação

Visualização