Post on 17-Apr-2015
INFORMÁTICA INFORMÁTICA INSTRUMENTALINSTRUMENTAL
Prof. Edberto Ferneda
BUSCA DE BUSCA DE INFORMAÇÃO NA INFORMAÇÃO NA WEBWEB
Informática Instrumental
Interfaces da EscritaInterfaces da EscritaLivro
◦Numeração de páginas;◦Subdivisão em partes (capítulos);◦Sumários e índices;
◦Exame rápido do conteúdo;◦Acesso não linear e seletivo ao texto;◦Segmentação do saber em módulos;◦Conexões a outros livros
(bibliografia)
Interfaces da EscritaInterfaces da EscritaLivro
Interfaces da EscritaInterfaces da EscritaJornais
◦Adaptados a uma atitude de “atenção flutuante”;
◦No território quadriculado do livro precisamos de índices, sumários, etc. O leitor do jornal realiza diretamente uma navegação a olho nu;
◦As manchetes chamam a atenção, dando uma primeira idéia, pinçam-se aqui e ali algumas frases, uma foto e, de repente, encontramos algo que nos atrai.
Interfaces da EscritaInterfaces da EscritaJornais
Interfaces da EscritaInterfaces da EscritaRevistas
Interfaces da EscritaInterfaces da EscritaComputador
◦ “pacote terrivelmente redobrado, com pouquíssima superfície que seja diretamente acessível em um mesmo instante. A manipulação deve então substituir o sobrevôo”.
◦ Tela gráfica de alta resolução;◦ Representação icônica (figurada) das
estruturas de informação e dos comandos;◦ Uso do mouse, permitindo agir sobre o que
ocorre na tela;◦ Menus que mostram as operações que se
pode realizar;
Interfaces da EscritaInterfaces da EscritaComputador
Interfaces da EscritaInterfaces da EscritaComputador
Interfaces da EscritaInterfaces da EscritaComputador
Interfaces da EscritaInterfaces da EscritaComputador
Interfaces da EscritaInterfaces da EscritaComputador
WebBrain
BUSCANDO BUSCANDO INFORMAÇÕES NA INFORMAÇÕES NA WEBWEB
Buscando informações na Buscando informações na WebWebSites/mecanismos de busca
◦ permitem ao usuário submeter sua expressão de busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação
◦ Maioria de uso geral◦ Em um acervo extremamente grande como é
a Web é essencial uma indexação antecipada de seus documentos (páginas). A maioria dos mecanismos de busca da Web gera índices. Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização
Buscando Informações na Buscando Informações na WebWebSites/mecanismos de busca
◦Índexação Não Automáticos
O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página
Automáticos Spiders (robôs, crawlers ou worms)
Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da WEB, colhendo informações sobre as páginas que encontram;
Indexam cada página utilizando métodos de indexação automática
Buscando Informações na Buscando Informações na WebWeb
Indexação não-automática (manual)◦ Indexadores profissionais especificam uma
hierarquia de assuntos e indexam as páginas Web utilizando tais categorias.
◦ Uma URL submetida pode ser associada a uma categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, “Ciência”, ou à subcategoria, “Ciências Humanas”, ou à sub-subcategoria, “Biblioteconomia e Ciência da Informação”.
◦ A URL cadastrada é avaliada por profissionais, que podendo alterar os dados fornecidos pelo usuário.
◦ Caso um usuário não consiga encontrar uma categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria.
Buscando Informações na Buscando Informações na WebWeb
Buscando Informações na Buscando Informações na WebWeb Indexação automática
◦ A indexação automática é realizada através de duas etapas: Seleção de endereços (URLs) de páginas; Indexação das páginas, gerando para cada uma um
conjunto de termos de indexação.
◦ Existem programas que “viajam” através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms.
◦ Partindo de uma lista inicial de URLs, esses robôs rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram.
Buscando Informações na Buscando Informações na WebWeb
Banco de dados de URLs
Buscador(yahoo, google, etc)
Buscando Informações na Buscando Informações na WebWeb
Banco de dados de URLs
Buscador(yahoo, google, etc)
URLs(links)
Buscando Informações na Buscando Informações na WebWeb
Banco de dados de URLs
Buscador(yahoo, google, etc)
URLs(links)
Buscando Informações na Buscando Informações na WebWeb Indexação automática
◦ Duas estratégias podem ser adotadas pelos robôs para rastrear as páginas da Web breadth-first
visa maximizar a amplitude da pesquisa descendo apenas poucos níveis de cada site
deep-first visa maximizar a profundidade buscando um maior detalhamento do
assunto tratado pelo site.
◦ Quando uma nova página é recuperada, o robô extrai todas os links (URLs) dessa página e os adiciona na sua base de dados.
◦ Para aumentar a velocidade de cobertura da Web podem ser usados vários robôs trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados.
Buscando Informações na Buscando Informações na WebWebIndexação automática
◦Depois de formado o banco de dados de URLs o robô poderá acessar cada página e indexa-la usando métodos de indexação automática.
Buscando Informações na Buscando Informações na WebWebBuscas
◦Geralmente dois níveis de busca: básico e avançado
◦Básico: Buscas booleanas utilizando os
operadores AND, OR, NOT
◦Avançado: Buscas por proximidade: NEAR, ADJ Buscas por tipo de mídia ou tipo de
arquivo: “.JPG”, “.MPEG”, “.GIF”, etc.
Buscando Informações na Buscando Informações na WebWeb
www.google.com.br
Buscando Informações na Buscando Informações na WebWeb
História da Internet
Buscando Informações na Buscando Informações na WebWebMeta-buscadores
◦Realizam buscas utilizando diversos mecanismos de busca; A expressão de busca é traduzida e
enviada para cada um dos mecanismos que o meta-buscador utiliza.
Cada buscador retornará uma lista de URLs
O meta-buscador agrega as listas em uma única lista, eliminando possíveis duplicações.
Buscando Informações na Buscando Informações na WebWeb
Buscando Informações na Buscando Informações na WebWeb
http:///www.metacrawler.com