Implementação do Módulo de Indexação e Consulta para ser ...

48
Aureliano Gustavo de Queiroz Arantes IMPLEMENTAÇÃO DO MÓDULO DE INDEXAÇÃO E CONSULTA PARA SER AGREGADO AO METABUSCADOR DO PORTAL DO CEULP/ULBRA Palmas 2005

Transcript of Implementação do Módulo de Indexação e Consulta para ser ...

Page 1: Implementação do Módulo de Indexação e Consulta para ser ...

Aureliano Gustavo de Queiroz Arantes

IMPLEMENTAÇÃO DO MÓDULO DE INDEXAÇÃO E CONSULTA

PARA SER AGREGADO AO METABUSCADOR DO PORTAL DO

CEULP/ULBRA

Palmas

2005

Page 2: Implementação do Módulo de Indexação e Consulta para ser ...

i

Aureliano Gustavo de Queiroz Arantes

IMPLEMENTAÇÃO DO MÓDULO DE INDEXAÇÃO E CONSULTA

PARA SER AGREGADO AO METABUSCADOR DO PORTAL DO

CEULP/ULBRA

“Monografia apresentada como

requisito parcial da disciplina Prática

de Sistemas de Informação II (TCC)

do curso de Sistemas de Informação,

orientado pelo Prof. Fernando Luiz de

Oliveira”.

Palmas

2005

Page 3: Implementação do Módulo de Indexação e Consulta para ser ...

ii

Aureliano Gustavo de Queiroz Arantes

IMPLEMENTAÇÃO DO MÓDULO DE INDEXAÇÃO E CONSULTA

PARA SER AGREGADO AO METABUSCADOR DO PORTAL DO

CEULP/ULBRA

“Monografia apresentada como

requisito parcial da disciplina Prática

de Sistemas de Informação II (TCC)

do curso de Sistemas de Informação,

orientado pelo Prof. Fernando Luiz de

Oliveira”.

BANCA EXAMINADORA

Prof. Fernando Luiz de Oliveira

Centro Universitário Luterano de Palmas

Prof. Ricardo Marx Costa S. de Jesus

Centro Universitário Luterano de Palmas

Prof. Msc. Eduardo Leal

Centro Universitário Luterano de Palmas

PALMAS

2005

Page 4: Implementação do Módulo de Indexação e Consulta para ser ...

iii

AGRADECIMENTOS

Gostaria de agradecer primeiramente a Deus, que me deu força nos momentos que eu mais

necessitei sendo minha rocha e minha fortaleza. Gostaria também de agradecer ao meu pai

Sandoval que sempre me incentivou, de uma forma muito especial, a conseguir vencer as

barreiras da vida, à minha Mãe Cilsa que sempre esteve ao meu lado nunca me deixando

desistir desta caminhada, à minha namorada que sempre ouviu os meus desabafos sendo um

ombro amigo em que pude sempre confiar.

Não posso esquecer de agradecer a uma pessoa muito especial pra mim que é o Prof.

Fabiano (Thilfa), que sempre me puxou a orelha na hora certa, me orientou e me incentivou

sempre que eu estava preste a desistir, sempre acreditou em mim e no meu potencial como

profissional, também ao meu professor orientador Prof. Fernando, que me orientou e me

ajudou muito, não só no meu crescimento como acadêmico, mas também como pessoa,

corrigindo e me ensinando os caminhos para uma correta apresentação das idéias num trabalho

deste porte.

Por fim, gostaria de agradecer a todos os meus amigos e companheiros que de uma

forma ou de outra sempre me ajudaram a ser o que sou, não posso citar nomes, pois não quero

ser injusto se por acaso vier a deixar de mencionar o nome de alguém.

Page 5: Implementação do Módulo de Indexação e Consulta para ser ...

iv

SUMÁRIO

1. INTRODUÇÃO ...................................................................................................10

2. REVISÃO DE LITERATURA...........................................................................12

2.1 Recuperação de Informação ..........................................................................12

2.2 Processos de Recuperação de Informação.....................................................13

2.3 Indexação de documentos..............................................................................15

2.4 Indexação Manual..........................................................................................16

2.5 Indexação automática ....................................................................................17

2.5.1 Identificação de termos..............................................................................18

2.5.2 Remoção de Stopwords .............................................................................19

2.5.3 Seleção de termos relevantes.....................................................................20

2.5.4 Estrutura de índice .....................................................................................22

2.6 Classificação dos SRI Web............................................................................23

2.6.1 Mecanismo de Busca .................................................................................23

2.6.2 Metabuscador.............................................................................................25

2.6.3 Diretórios ...................................................................................................26

2.6.4 Sistemas Híbridos......................................................................................26

3. MATERIAIS E MÉTODOS ...............................................................................28

3.1 Local e Período..............................................................................................28

3.2 Material..........................................................................................................28

3.3 Metodologia...................................................................................................29

4. RESULTADOS E DISCUSSÃO ........................................................................30

4.1 Módulo de indexação.....................................................................................30

Page 6: Implementação do Módulo de Indexação e Consulta para ser ...

v

4.1.1 Fonte de dados ...........................................................................................31

4.1.2 Processo de indexação ...............................................................................32

4.1.3 Tabela de Índices .......................................................................................33

4.1.4 Atualização de índices ...............................................................................34

4.2 Módulo de Consulta ......................................................................................35

4.2.1 Nova Consulta ...........................................................................................37

4.2.2 Limpando uma expressão ..........................................................................39

4.2.3 Indexando os resultados ............................................................................40

4.3 Considerações finais ......................................................................................43

5. CONSIDERAÇÕES FINAIS..............................................................................44

6. REFERÊNCIAS BIBLIOGRÁFICAS ..............................................................45

Page 7: Implementação do Módulo de Indexação e Consulta para ser ...

vi

LISTA DE FIGURAS

Figura 1 – Modelo Representação do processo de Recuperação de Informação (FERNEDA, 2003) ................... 13

Figura 2 – Processo de Recuperação de Informação (CARDOSO, 2002) ............................................................ 14

Figura 3 – Exemplo de categorias geradas a partir da indexação manual (Categoria educação) .......................... 16

Figura 4 – Etapas do processo de indexação automática (WIVES, 2000)............................................................. 18

Figura 5 – Identificação de termos válidos (WIVES, 2000).................................................................................. 19

Figura 6 – Identificação de stopwords (WIVES, 2000) ........................................................................................ 20

Figura 7 – Estrutura de uma lista invertida (HARMAN, 1992) ............................................................................ 22

Figura 8 – Arquitetura geral de um Mecanismo de Busca (ARASU, 2001). ........................................................ 24

Figura 9 – Fluxograma de um Metabuscador segundo (DETERS, 2003). ............................................................ 25

Figura 10 - Módulo de indexação.......................................................................................................................... 31

Figura 11 – Representação da tabela de índices .................................................................................................... 34

Figura 12 – Metabuscador (Portal - CEULP\ULBRA) ......................................................................................... 35

Figura 13 – Módulo de Consultas ......................................................................................................................... 36

Figura 14 - Nova Consulta ................................................................................................................................... 38

Figura 15 - Resultado da pesquisa........................................................................................................................ 39

Figura 16 – Limpar expressão de consulta ............................................................................................................ 40

Figura 17 – Exemplo do processo de limpeza de expressão.................................................................................. 40

Figura 18 – Diagrama de relacionamento índices x consultas............................................................................... 41

Figura 19 – Calculo de Relevância........................................................................................................................ 42

Page 8: Implementação do Módulo de Indexação e Consulta para ser ...

vii

LISTA DE ABREVIATURAS

BD Banco de Dados

CEULP Centro Universitário Luterano de Palmas

RD Recuperação de Dados

RI Recuperação de informação

SGBD Sistema de Gerenciamento de Banco de Dados

SRI Sistema de Recuperação de informação

ULBRA Universidade Luterana do Brasil

Page 9: Implementação do Módulo de Indexação e Consulta para ser ...

viii

RESUMO

A Web pode ser considerada como uma das principais ferramentas de auxílio para

troca de informações. Assim, qualquer pessoa que tenha acesso a Web pode

propagar informações através de sites pessoais, fóruns, salas de bate-papo ou

através de flog’s ou blog’s. Por outro lado, as instituições (privadas ou públicas), tal

como o Centro Universitário Luterano de Palmas, também são grandes produtoras

de informações e, atualmente, boa parte dessas informações são divulgadas através

da Web. Porém, por causa do grande volume de informações disponíveis torna-se

cada vez mais difícil que itens específicos sejam localizados e acessados. Isto

acontece visto que muitos itens de informações são omitidos nos resultados de sites

de busca ou exibidas de forma incompleta. O presente trabalho tem a finalidade de

expor conceitos envolvendo Recuperação de Informação, assim como apresentar a

ferramenta de indexação desenvolvida, a qual será responsável por indexar as

informações contidas atualmente no Portal do CEULP/ULBRA e que, uma vez

agregada ao metabuscador já existente neste Portal, possibilitará a realização de

pesquisas no conteúdo produzido internamente por esta referida Instituição.

Palavras-chaves: Sistemas de Recuperação de Informação, Banco de Dados.

Page 10: Implementação do Módulo de Indexação e Consulta para ser ...

ix

ABSTRACT

The Web can be considered as one of the main tools of aid for exchange of

information. Thus, any person who has access the Web can propagate information

through personal sites, rooms of chat or through flog's or blog's. On the other hand,

the institutions (private or public), such as the University Center Luterano de Palmas,

also are great producers of information and, currently, good part of these information

is divulged through the Web. However, because of the great volume of available

information each specific time more difficult becomes than device is located and had

access. This happens since many device of information are omitted in the results of

shown sites of search or of incomplete form. The present work has the purpose to

display concepts involving Recovery of Information, as well as presenting the tool of

developed indexation, which will be responsible for indexing the information contained

currently in the Vestibule of the CEULP/ULBRA and that, an aggregate time to the

existing metabuscador already in this Vestibule, will make possible the

accomplishment of research in the content produced internally for this related

Institution.

Word-key: SRI, data base.

Page 11: Implementação do Módulo de Indexação e Consulta para ser ...

10

1. INTRODUÇÃO

A Web tem se tornado uma ferramenta indispensável na vida dos usuários da Internet, que se

caracteriza como uma grande rede capaz de interligar, não simplesmente computadores, mas

pessoas com culturas, costumes e conhecimentos diferentes, o que também contribui para o

aumento do volume de informações que circulam pela rede. Por ser assim, qualquer pessoa

que tenha acesso a Web pode propagar informações através de sites pessoais, fóruns, salas de

bate-papo ou através de flog’s ou blog’s. Por outro lado, as instituições (privadas ou públicas),

tal como o Centro Universitário Luterano de Palmas (CEULP/ULBRA), também são grandes

produtoras de informações e, atualmente, boa parte dessas informações são divulgadas através

da Web.

No caso do CEULP/ULBRA, isso se torna evidente ao se analisar a quantidade de

informações disponíveis no sistema de notícias do Portal da referida Instituição, assim como o

volume de trabalhos e projetos desenvolvidos na área acadêmica. Muitas dessas informações

estão disponíveis na Web e podem ser acessadas através das ferramentas de buscas disponíveis

como: Google1, Altavista2 e Yahoo3. Porém, parte deste conteúdo não é indexado por essas

ferramentas, tendo em vista que parte do conteúdo do Portal do CEULP/ULBRA não é gerado

dinamicamente e isso pode trazer problemas para a Instituição, pois por não estarem

indexadas, muitas dessas informações poderão ser replicadas e/ou omitidas, resultando em

perda de tempo e esforço, tanto humano, quanto computacional. Por este motivo, é proposto

neste trabalho o desenvolvimento de uma ferramenta de indexação e consulta das informações

1 http://www.google.com.br 2 http://www.altavista.com.br

Page 12: Implementação do Módulo de Indexação e Consulta para ser ...

11

armazenadas no Portal do CEULP/ULBRA para indexar e oferecer um mecanismo de acesso

eficiente a essas informações.

Para tanto, este trabalho tem por objetivo agregar ao portal do CEULP/ULBRA uma

ferramenta capaz de fornecer aos usuários Web que estejam interessados nas informações

produzidas nesta Instituição, um acesso facilitado às notícias, informações sobre cursos,

trabalhos e projetos desenvolvidos. Esta ferramenta se faz necessário porque boa parte do

conteúdo é gerada dinamicamente nas páginas do Portal, já que os mesmos são provenientes

da base de dados do Portal, muitas vezes as informações do CEULP/ULBRA não chegam a

constar nos resultados exibidos pelas ferramentas de busca existentes. A possibilidade de

realizar buscas internas no banco de dados do Portal do CEULP/ULBRA será muito útil aos

usuários (internos e externos), pois permitirá que os usuários tenham acesso a este conteúdo

que as demais ferramentas de busca não conseguem indexar.

Este trabalho será dividido em duas etapas principais, sendo a primeira composta pela

revisão de literatura que dará embasamento teórico aos fundamentos e técnicas que serão

utilizadas na construção dos módulos. E, na segunda etapa, será apresentada a ferramenta

desenvolvida neste trabalho. As outras incluem: Considerações Finais e Referencias

Bibliográficas.

3 http://www.yahoo.com.br

Page 13: Implementação do Módulo de Indexação e Consulta para ser ...

12

2. REVISÃO DE LITERATURA

Para que os objetivos deste trabalho sejam alcançados, faz-se necessário que alguns conceitos

sejam abordados. Para tanto, nesta seção serão apresentados conceitos sobre Recuperação de

Informação (RI), observando os processos existentes para a realização dessa atividade, assim,

como a classificação dos Sistemas de Recuperação de Informação (SRI) existentes na Internet,

de modo que venha oferecer um embasamento teórico para uma melhor compreensão deste

trabalho.

2.1 Recuperação de Informação

Existem diversos conceitos para o termo “Recuperação de Informação (RI)” que podem ser

analisados sob perspectivas diferentes. Uma delas refere-se à perspectiva da Ciência da

Informação que, segundo (KURAMOTO, 1995), RI pode ser definida como sendo a operação

pela qual se seleciona documentos em um acervo, de acordo com a demanda do usuário. Já

tendo como base a perspectiva da própria Recuperação de informação, HAN (1986), afirma

que um Sistema de Recuperação de Informação (SRI) atua como um dispositivo que se

interpõe entre os usuários e a coleção de informação. STORB (1997) complementa esta

definição, afirmando que tais sistemas tem como função típica a de selecionar documentos de

uma base de dados, em resposta a uma questão do usuário, apresentando-os em ordem de

pertinência. Por outro lado, SALTON (1983) conceitua tecnicamente o termo RI como sendo

um método que trata da representação, do armazenamento, da organização e do acesso aos

itens de informação.

Em alguns casos são acoplados ao contexto de RI os Sistemas de Gerenciamento de

Page 14: Implementação do Módulo de Indexação e Consulta para ser ...

13

Banco de Dados (SGDB’s), pelo fato deste não deixar de ser uma ferramenta de recuperação

de informação. Porém, observa-se a existência de uma diferença entre RI e Recuperação de

Dados (RD). A primeira tem por objetivo recuperar informações relevantes ao termo que se

deseja pesquisar, onde o usuário desse SRI está interessado em recuperar informações sobre

um determinado assunto. Assim, as informações recuperadas não precisam ser exatamente o

que a expressão de busca determina, embora seja nos SGBD’s que essas informações estão

armazenadas. Já a segunda (RD) visa recuperar dados que satisfaçam uma expressão de

busca, ou seja, a recuperação de todos os objetos ou itens que satisfazem precisamente as

condições formuladas através de uma expressão de busca (FERNEDA, 2003). A seção

seguinte apresenta os conceitos referentes ao processo de RI.

2.2 Processos de Recuperação de Informação

Segundo FERNEDA (2003), os SRI devem representar todo o conteúdo dos documentos e

apresentá-los ao usuário de uma maneira que lhe permita uma rápida seleção dos itens que

satisfazem total ou parcialmente à sua necessidade de informação, formalizada através de uma

expressão de busca. Este processo é representado de forma simplificada pela Figura 1.

Figura 1 – Modelo Representação do processo de Recuperação de Informação (FERNEDA, 2003)

A principal dificuldade encontrada em SRI Web é a distinção entre os sentidos das

palavras e/ou conjunto de termos escolhidos pelo usuário, pois todo o processo de recuperação

está baseado nisso (FERNEDA, 2003). Observa-se na Figura 1, que todo o processo gira em

torno da função de busca, que se torna importante por se tratar do módulo que processa e

distingue as expressões de busca desejadas pelos usuários.

Segundo HAN (1986), os usuários Web que utilizam os SRI estão mais interessados na

qualidade de informações sobre o assunto pesquisado do que na quantidade de resultados

exibidos pelo SRI. A figura 2 apresenta um gráfico que representa o processo de RI.

Page 15: Implementação do Módulo de Indexação e Consulta para ser ...

14

Figura 2 – Processo de Recuperação de Informação (CARDOSO, 2002)

A figura 2 representa o processo de RI no qual pode-se observar algumas

características básicas de funcionamento de um SRI. Assim, ao ser efetuada uma consulta,

primeiramente são realizadas algumas ações sobre o texto da consulta, extraindo dele todas as

palavras que não são relevantes para a busca. Logo após essas operações, é verificado no BD

da ferramenta de pesquisa se existe uma consulta realizada com a mesma expressão desejada,

pois caso exista, o resultado é retornado imediatamente sem ter que ser feita uma pesquisa

externa. Caso a consulta seja uma nova consulta, ou seja, a busca por uma expressão que

nunca foi feita no SRI, então será feita uma busca externa pela expressão desejada pelo

usuário. Observa-se que isso aumenta consideravelmente o desempenho deste SRI, evitando o

fato de sempre estar executando uma nova consulta externa, perdendo tempo e processamento.

Um processo de recuperação de informação envolve vários fatores que determinam o

desempenho do SRI de acordo com o modelo com o qual mesmo foi desenvolvido. A RI é

composta pelos seguintes módulos:

Page 16: Implementação do Módulo de Indexação e Consulta para ser ...

15

• Interface: para que o usuário possa interagir com o SRI.

• Operações sobre textos: essas operações são aplicadas ao texto no qual o

usuário pretende utilizar para a busca.

• Operações sobre consultas: que são operações que constroem a string de

consulta de acordo com o resultado do módulo de operações sobre textos;

• Busca: que é o modulo que realiza de fato a busca, utilizando diversas

ferramentas tais como robots e crawlers para isto.

• Ordenação: o módulo que organiza o resultado retornado pela busca.

• Indexação: módulo este que armazena e representa os documentos Web no

SGBD para que, posteriormente, possam ser recuperados.

Apesar do processo de RI ser composto por todos estes módulos, o presente trabalho

abordará com mais detalhes apenas o módulo de indexação, pois o objetivo do mesmo é a

implementação deste módulo para que o mesmo seja agregado ao Portal do CEULP/ULBRA,

tal como será apresentado na seção seguinte.

2.3 Indexação de documentos

Segundo WIVES (2000), indexar significa, justamente, identificar as características de um

documento e colocá-las em uma estrutura denominada índice. Assim como todo livro possui

um sumário para oferecer ao leitor um acesso rápido ao tema desejado, é necessário também

que os SRI’s realizem um processo de catalogação dos documentos existentes na Web para

fornecer a seus usuários um maior número de referências possíveis quando for realizada uma

busca. Todo e qualquer documento que for adicionado ao índice deve passar por um processo

de análise para que se possa fornecer uma descrição breve, ou resumo, das informações

contidas nele.

Page 17: Implementação do Módulo de Indexação e Consulta para ser ...

16

2.4 Indexação Manual

Existem ferramentas de busca que empregam indexadores profissionais que especificam uma

hierarquia de assuntos, similar às classificações encontradas em uma biblioteca tradicional,

como a classificação decimal de dewey (CDD), e indexam as páginas Web usando tais

categorias (FERNEDA, 2003). Um exemplo gerado a partir desta catalogação é apresentado

na Figura 3.

Figura 3 – Exemplo de categorias geradas a partir da indexação manual (Categoria educação)

Na Web existem sites de busca que realizam o processo de indexação manual, como é

o caso do Cadê?4 (Figura 3) e do Yahoo!5. A maior parte do conteúdo encontrado no índice

desses sites se dá graças ao trabalho voluntário de seus usuários, que podem cadastrar a URL

de suas páginas classificando-as em uma ou mais categorias. Ao cadastrar uma página, os

usuários especificam um título, uma breve descrição do conteúdo e a URL da página que

deseja cadastrar.

Neste tipo de indexação, todo e qualquer site cadastrados por usuários passam pelo

4 http://www.cade.com.br

Page 18: Implementação do Módulo de Indexação e Consulta para ser ...

17

crivo de uma equipe que avalia o conteúdo do site, que podem inclusive alterar a descrição

realizada pelo usuário que o cadastrou além de permitir ou não a sua indexação. Existem

diversas vantagens na utilização deste método, uma delas refere-se à precisão nos resultados

das buscas. Porém, existem também algumas desvantagens como, por exemplo, ter uma menor

cobertura da Web, uma vez que sua indexação é dependente da disponibilidade de pessoas na

realização de suas tarefas.

2.5 Indexação automática

Outras ferramentas de busca, tais como o Altavista6 e o Excite7, indexam automaticamente

páginas Web, que é realizada através de duas etapas FERNEDA (2003):

1. Seleção de endereços (URL’s) de páginas;

2. Indexação das páginas, gerando para cada uma um conjunto de termos de indexação.

Segundo WIVES (2000), o processo de indexação automática busca identificar

palavras relevantes (descritores) nos documentos que compõem a coleção (Web) e armazená-

las em uma estrutura de índice. Na figura abaixo (Figura 4) é apresentada a etapa que forma o

processo de indexação automática.

5 http://www.yahoo.com.br 6 http://www.altavista.com.br 7 http://www.excite.com.br

Page 19: Implementação do Módulo de Indexação e Consulta para ser ...

18

Figura 4 – Etapas do processo de indexação automática (WIVES, 2000)

A Figura 4 designa que a indexação automática é composta por um conjunto de etapas,

as quais serão apresentadas nas seções seguintes.

2.5.1 Identificação de termos

Nesta fase, acontece a aplicação de um analisador léxico8 que identifica as palavras existentes

nos documentos, ignorando os símbolos e caracteres de controle de arquivo ou de formatação.

A Figura 5 apresenta um exemplo desta atividade.

8 Análise léxica consiste na conversão de uma cadeia de caracteres de entrada em uma

cadeia de palavras (FOX, 1992)

Page 20: Implementação do Módulo de Indexação e Consulta para ser ...

19

Figura 5 – Identificação de termos válidos (WIVES, 2000)

Segundo SALTON (1983), um dicionário de sinônimos pode auxiliar na identificação

dos termos e na normalização do vocabulário, caso deseje-se trabalhar com um vocabulário

controlado. Já FOX (1992), diz que diversas técnicas adicionais de padronização podem ser

aplicadas, tais como: a passagem de todos os caracteres para a forma maiúscula ou minúscula;

a substituição de múltiplos espaços e tabulações por um único espaço; a padronização de datas

e números; a eliminação de hífens. Se uma técnica for adotada ela deve ser aplicada sobre a

consulta realizada pelo usuário. Mas, segundo WIVES (2000), a utilização de técnicas de

padronização não oferece apenas vantagens, tendo em vista que, se a transformação de

caracteres maiúsculos para minúsculos for adotada, por exemplo, será impossível diferenciar

substantivos próprios de comuns nas buscas.

2.5.2 Remoção de Stopwords

Segundo WIVES (2000), existem algumas palavras presentes em um documento textual que

são utilizadas com o intuito de conectar as frases. Entretanto, essas e outras palavras que

pertencem a classe cuja finalidade é auxiliar a estruturação da linguagem, tais como

conjunções e preposições, necessitam ser incluídas na estrutura de índice. Já FOX (1992)

afirma que, além dessas, existem também palavras cuja freqüência na coleção é muito alta, ou

Page 21: Implementação do Módulo de Indexação e Consulta para ser ...

20

seja, aparecem em praticamente todos os documentos de uma coleção. Portanto, essas palavras

não são capazes de discriminar documentos e também não devem constar na estrutura de

índice. A seguir (Figura 6) esta etapa será exemplificada.

Figura 6 – Identificação de stopwords (WIVES, 2000)

Todas as palavras consideradas sem valor para busca devido à sua natureza, freqüente

ou semântica, são denominados palavras negativas (ou stopwords) e, por isso, são retiradas da

representação dos documentos.

2.5.3 Seleção de termos relevantes

WIVES (2000) define a relevância dos termos com base em três afirmativas:

• Nem todas as palavras encontradas em um documento possuem a mesma importância.

• As palavras utilizadas mais freqüentemente (com exceção das stopwords) costumam

ter um significado mais importante.

• Palavras encontradas em títulos ou em outras estruturas também possuem uma

importância maior, já que o autor deve tê-las colocado lá por considerarem que sejam

muito importantes para a descrição da sua idéia.

O cálculo de relevância de uma palavra pode se basear no calculo da freqüência dessa

palavra, ou na análise estrutural do documento, ou na sua posição sintática. Existe também

Page 22: Implementação do Módulo de Indexação e Consulta para ser ...

21

outra forma de se calcular a relevância de uma palavra como, por exemplo, análise de

linguagem natural, porém, esta alternativa é um tanto mais complexa.

Existem várias fórmulas que foram desenvolvidas com a intenção de calcular a

relevância de uma palavra em um determinado documento. Algumas dessas fórmulas são

bastante simples, outras são complexas e envolvem um nível de conhecimento da língua muito

elevado. As mais simples são baseadas em cálculos simples de freqüência: freqüência

absoluta, freqüência relativa e freqüência inversa de documentos (WIVES, 2000) onde:

• Freqüência absoluta, ou freqüência do termo, que nada mais é do que uma métrica da

quantidade de vezes que um determinado termo se repete no documento. Porém, não

avalia o tamanho do documento pesquisado, assim, uma palavra pode aparecer várias

vezes em um documento grande e poucas vezes em um documento pequeno, inferindo

diretamente em sua relevância.

• Freqüência relativa: que busca resolver o problema anterior calculando a freqüência de

uma palavra em um documento, levando em consideração o tamanho deste documento.

Uma fórmula simples retorna o valor da freqüência relativa que é calculada dividindo-

se a freqüência absoluta do termo pela quantidade de palavras existentes no documento

normalizado.

Porém, é necessário obter uma informação importante para resolver outro problema da

freqüência absoluta, a freqüência de documentos, que é a quantidades de documentos

que um termo aparece (WIVES, 2000).

• Freqüência inversa de documentos: após obter a freqüência absoluta e a freqüência de

documentos, é possível calcular a freqüência inversa de documentos que pode

aumentar a importância de termos que aparecem em poucos documentos e diminuir a

importância de termos que aparecem em muitos documentos (ROBERTSON, 1997).

Segundo SALTON (1983), existem mais de uma maneira de se identificar o peso

através de uma freqüência inversa de documentos. Uma das mais conhecidas é obtida

Page 23: Implementação do Módulo de Indexação e Consulta para ser ...

22

pela aplicação da seguinte fórmula:

Um fator que se tem que levar em consideração é a identificação de pesos dos termos

em um documento, pois os mesmos são válidos por um determinado período de tempo

(KOWALSKI, 1997). Isso porque pode haver mudanças ou adição de novos conteúdos

na coleção de documentos.

2.5.4 Estrutura de índice

Existem diversos tipos de estruturas de índices que já foram desenvolvidos ao longo dos anos.

Na área de RI textuais, as mais comuns são as que utilizam regras lexicográficas, ou seja, são

baseadas nos caracteres e em sua ordenação alfabética, tal como: estrutura de arquivos

invertidos, árvores TRIE e método da assinatura, que utiliza uma estrutura baseada em acesso

direto (hash) (WIVES, 2000), os quais serão apresentados com mais detalhes nas seções

seguintes.

2.5.4.1 Arquivos invertidos

A estrutura de arquivo invertido é uma lista ordenada de palavras onde cada palavra contém

apontadores para os documentos onde ela aparece. Logo, quando um termo é localizado na

lista, o registro correspondente contendo a lista de todos os documentos em que ele aparece é

retornada (HARMAN, 1992).

Figura 7 – Estrutura de uma lista invertida (HARMAN, 1992)

Page 24: Implementação do Módulo de Indexação e Consulta para ser ...

23

Essa estrutura é basicamente formada por três arquivos: dicionário, lista de inversão e

documentos. O dicionário é a entrada para o índice, sendo, uma lista que contém todas as

palavras da coleção de documentos correspondentes. Esse dicionário pode ser implementado

em alguma estrutura mais eficiente como uma TRIE e árvores-B (HARMAN, 1992). Devido à

sua rapidez de acesso e a sua facilidade de identificação de documentos relevantes a um termo,

essa estrutura é uma das mais utilizadas em SRI (KOWALSKI, 1997).

2.6 Classificação dos SRI Web

O objetivo principal dos SRI é, dado um conjunto de documentos (ou links que os

referenciem), determinar quais são relevantes a uma determinada consulta de usuário,

organizando-os em uma lista (ranking). Para isto, os SRI’s utilizam algoritmos e estruturas

próprias, o que os tornam diferentes entre si, tanto na forma como indexam a informação,

como nos resultados apresentados pelos mesmos (BOTELHO, 2004).

Existem quatro modelos nos quais se podem classificar os SRI disponíveis hoje na

Web: mecanismos de busca, metabuscadores, sistemas híbridos e diretórios. Como o objetivo

deste trabalho não é fazer um estudo aprofundado de cada um destes tipos de SRI’s, será

abordada apenas uma visão geral sobre o funcionamento, tal como apresentado nas seções

seguintes.

2.6.1 Mecanismo de Busca

Mecanismos de busca são ferramentas utilizadas para realizar buscas na Internet por meio de

expressões textuais feitas pelo usuário Web. Essa tarefa envolve o processo de representação,

armazenamento e recuperação da informação, que são realizadas de forma automática via

sistema de computador (ARASU, 2001). De uma forma simplificada, pode-se dizer que um

mecanismo de busca possui três componentes básicos (MOURA, 2001):

• Um aplicativo denominado robô, que pode ser referenciado como: robot, spider,

wanderer, knowbot, worm ou web-bot. Este aplicativo tem a função de percorrer a Web

Page 25: Implementação do Módulo de Indexação e Consulta para ser ...

24

em busca de informações, criando uma cópia idêntica dos documentos encontrados, que

mais tarde serão indexados. Por exemplo, ao chegar em um site, este componente faz

uma cópia do seu conteúdo e o armazena temporariamente, no servidor para ser

processado e indexado.

• O segundo componente é o BD, que serve como repositório de informações. Este BD,

utilizado para a realização da indexação, pode ser chamado de catálogo ou índice de

pesquisa para o motor de busca.

• O terceiro componente é o motor de busca propriamente dito, que é acionado cada vez

que um usuário desejar realizar uma busca. Neste instante, este aplicativo sai fazendo uma

varredura em seu BD, em busca das informações solicitadas pelo usuário.

Estes três componentes estão associados às três funções básicas de um mecanismo de

busca: indexar, armazenar e recuperar informações. A Figura 8 apresenta a arquitetura base de

um mecanismo de busca.

Figura 8 – Arquitetura geral de um Mecanismo de Busca (ARASU, 2001).

Pode-se observar que as estruturas existentes na arquitetura geral de um mecanismo de

busca (Figura 8) são as mesmas existentes no processo de RI (Figura 2), com exceção de

Page 26: Implementação do Módulo de Indexação e Consulta para ser ...

25

algumas particularidades, próprias dos mecanismos de busca, com relação ao módulo de

indexação, que variam entre as mais diversas implementações.

2.6.2 Metabuscador

Segundo DETERS (2003), este modelo conhecido como Metasearch Engine, é um sistema de

busca que não possui uma base de dados própria, robôs e muito menos esforço humano para

capturar e indexar os documentos Web. Este tipo de SRI realiza suas pesquisas nas bases de

dados de outras ferramentas de busca existentes na Web, tarefa esta que é feita

simultaneamente em vários SRI’s, como visto na Figura 9.

Figura 9 – Fluxograma de um Metabuscador segundo (DETERS, 2003).

O resultado da busca de um metabuscador é obtido através da combinação de

resultados dos diversos sistemas pesquisados, ou seja, a lista de documentos, assim, como a

relevância destes dá-se de acordo com a base dados e o critério de relevância adotado por cada

sistema fonte (BOTELHO, 2004). Metabuscadores, por se tratar de um SRI que utiliza outros

SRI’s para realizar suas pesquisas, não implementam todos os módulos descritos na

arquitetura geral dos mecanismos de busca (Figura 12), restringindo-se a apenas aos módulos:

Collection Analysis Module, Query Engine, Ranking e a interface.

METABUSCADOR

SRI (1) SRI (2) SRI (3) SRI (n) SRI (n+1)

ÍNDICE RANKIADO

Page 27: Implementação do Módulo de Indexação e Consulta para ser ...

26

2.6.3 Diretórios

Segundo MOURA (2001), este modelo possui basicamente a mesma aplicabilidade dos dois

citados acima, porém, com uma metodologia de trabalho diferente. Nos SRI’s baseados em

diretórios, a busca é realizada em um BD interno que é formado e indexado pelos próprios

administradores do site, ou seja, tarefa realizada com recursos humanos. Em um diretório,

existem dois componentes principais:

• Um banco de dados chamado de índice ou catálogo.

• Um aplicativo que realiza a pesquisa neste banco de dados.

Uma característica dos diretórios refere-se a forma como suas informações são

organizadas. A organização dos sites no banco de dados e, até mesmo na interface, realizada

através de categorias, que podem conter subcategorias, seguindo uma hierarquia definida,

geralmente, pelo assunto (CENDÓN, 2001).

2.6.4 Sistemas Híbridos

Sistemas híbridos são ferramentas que utilizam duas ou mais ferramentas de pesquisa para

realizar uma busca, de acordo com a necessidade do usuário e a política de uso implementada

pelo site. Este sistema atua de forma semelhante ao metabuscador, porém, possui todas as

características dos mecanismos citados acima.

Segundo DETERS (2003), o limite dos SRI quanto à quantidade de informações

indexadas e a qualidade dos resultados oferecidos, fazem com que venham a utilizar sistemas

híbridos, buscando sempre oferecer um maior número de resultados, porém, com um melhor

nível de relevância ao usuário do SRI. O site Yahoo, por exemplo, realiza primeiramente a

consulta dentro de seu diretório e, somente caso os resultados não satisfaçam o usuário, essa

pesquisa se expande a seu mecanismo de busca. Já com ferramentas desenvolvidas de acordo

com mecanismos de busca, acontece justamente o contrário, quando nenhum dos resultados

Page 28: Implementação do Módulo de Indexação e Consulta para ser ...

27

apresentados satisfaz o usuário, a consulta se expande aos diretórios (SILVEIRA, 2002).

Page 29: Implementação do Módulo de Indexação e Consulta para ser ...

28

3. MATERIAIS E MÉTODOS

Nesta seção serão apresentadas as considerações referentes aos materiais e à metodologia

utilizada para a realização deste trabalho.

3.1 Local e Período

O trabalho foi desenvolvido no LABIN I (Laboratório de Informática I), disponibilizado pelo

curso de Sistemas de Informação do Centro Universitário Luterano de Palmas. O trabalho teve

inicio no mês de março de 2005 e término em julho de 2005.

3.2 Material

O material utilizado pode ser classificado em três categorias: hardware, software e referências

bibliográficas. A primeira é constituída um computador com processador Athlon XP 2200,

512 MB de memória RAM e HD com capacidade de 40 GB, localizado no LABIN I. Os

softwares utilizados foram os seguintes:

• Microsoft Windows 2000: sistema operacional;

• Microsoft Word: para elaboração do relatório;

• Adobe Acrobat Reader: para leitura de artigos e outras publicações PDF;

• Microsoft Internet Explorer: navegador;

• Microsoft SQL Server: criação do banco de dados;

• Microsoft Visual C# 2005: implementação do módulo de indexação;

Page 30: Implementação do Módulo de Indexação e Consulta para ser ...

29

• Microsoft Visual Web Devoloper 2005: implementação do modulo de consulta.

3.3 Metodologia

Várias pesquisas foram realizadas com a intenção de obter informações inerentes ao escopo do

trabalho desenvolvido, de modo que fosse oferecido um embasamento teórico suficiente para a

sua conclusão. A partir disto, foram estabelecidos os padrões para o desenvolvimento tanto do

módulo de index4ação, quanto do módulo de consulta e a maneira como seria agregado ao

metabuscador já existente no Portal do CEULP/ULBRA.

Page 31: Implementação do Módulo de Indexação e Consulta para ser ...

30

4. RESULTADOS E DISCUSSÃO

Nas seções seguintes, serão apresentados os módulos desenvolvidos, de modo que os mesmos

possam vir a incrementar ainda mais o metabuscador já existente no Portal do

CEULP/ULBRA.

4.1 Módulo de indexação

Atualmente no BD do Portal do CEULP\ULBRA existe um grande volume de informações

referentes à Instituição, tal como, notícias, dados de professores, etc. Este módulo tem como

objetivo criar um índice que referencie cada uma dessas informações, ou seja, toda vez que

este módulo for executado, ele percorrerá todo o BD do Portal em busca de informações que

não existem em seu índice, mantendo-o sempre atualizado. O processo ocorre conforme o

representado na figura 10.

Page 32: Implementação do Módulo de Indexação e Consulta para ser ...

31

Figura 10 - Módulo de indexação

A arquitetura deste módulo está dividida da seguinte forma:

1. BD do Portal: fonte original de dados do CEULP\ULBRA;

2. Seleção das informações: neste processo ocorre a seleção de quais informações

serão indexadas.

3. Processo de indexação: este é o processo responsável por percorrer o BD do

Portal em busca de novas informações e armazená-las no BD do Metabuscador,

onde ficará representado todo o índice;

4. BD do Metabuscador: BD onde ficarão armazenados os índices.

4.1.1 Fonte de dados

O Portal do CEULP\ULBRA possui uma grande variedade de informações que, no entanto,

nem todas poderão ser indexadas, visto que se tratam de informações sigilosas da própria

Page 33: Implementação do Módulo de Indexação e Consulta para ser ...

32

Instituição. Portanto, a escolha de quais informações poderiam ser indexadas foi uma tarefa

que exigiu muita atenção e responsabilidade, tendo em vista que este Portal possui uma vasta

gama de informações confidenciais que diz respeito somente à Instituição.

Todas essas informações estão armazenadas no BD em forma de tabelas e são exibidas

dinamicamente no Portal. Porém, em alguns casos, torna-se muito difícil de indexar por se

tratar de tabelas com relacionamentos muito complexos e com informações não relevantes.

Para esta primeira etapa da indexação foram levadas em consideração apenas as tabelas

responsáveis por armazenar as notícias e informações sobre cursos da Instituição, observando

que as mesmas armazenam cerca de 80% do conteúdo de informações do portal, sendo que as

outras tabelas são de uso exclusivo da Instituição por obterem conteúdo confidencial, tal

como, dados de funcionários, folha de pagamento, entre outros.

4.1.2 Processo de indexação

O primeiro passo desse processo foi observar, dentro da estrutura do Portal, como as

informações são apresentadas quando solicitadas. Por exemplo, para apresentar uma

determinada notícia é necessário acrescentar à URL do Portal um conjunto de parâmetros, os

quais também devem ser armazenados. Por isto, além de indexar as informações, também se

faz necessário armazenar as devidas URL’s (ou estruturas necessárias) de forma a permitir

que, posteriormente, uma consulta seja realizada e o índice aponte para a notícia original. A

seguir está o algoritmo com os passos necessários para a indexação das informações existentes

no Portal do CEULP/ULBRA.

Algoritmo: Indexação

Procedimentos:

1. Conecta ao BD do Portal

1.1. Obtêm todo o conteúdo das tabelas fontes (noticias, cursos e professores).

2. Conecta ao BD do Metabuscador

2.1. Obtém a relação de palavras irrelevantes (BD Metabuscador)

Page 34: Implementação do Módulo de Indexação e Consulta para ser ...

33

3. ENQUANTO uma tupla de uma das tabelas existir

3.1. SE a informação não estiver indexada

3.1.1. Obtém ano e semestre da informação

3.1.2. Elimina todas as palavras irrelevantes

3.1.3. Armazena o índice obtido

3.1.4. Vai para a próxima tupla da tabela

3.2. SENÃO

3.2.1. Vai para a próxima tupla da tabela selecionada

4.1.3 Tabela de Índices

Todos os índices criados são armazenados na tabela tb_Indu que consta no BD do

metabuscador. Esses índices são criados com a finalidade de otimizar as buscas realizadas

dentro do conjunto de informações do CEULP\ULBRA, bem como gerar a possibilidade de

se criar relevância a cada informação indexada através do módulo de consultas que será

apresentada posteriormente. A seguir, a Figura 11 representa a tabela tb_Indu.

Page 35: Implementação do Módulo de Indexação e Consulta para ser ...

34

Figura 11 – Representação da tabela de índices

Na tabela apresentada na Figura 11, cada tupla representa um índice, ou seja, é um

referencial a uma determinada informação contida no BD do Portal do CEULP\ULBRA.

Todo índice adicionado possui um identificador próprio na tabela de índices, os demais

campos são obrigatórios, pois são extremamente importantes na realização e execução do

módulo de consultas que os utiliza para reconstruir o caminho no qual aquela informação é

exibida.

4.1.4 Atualização de índices

A atualização dos índices é uma tarefa manual que pode ser realizada a qualquer momento

pelos administradores do portal, observando que manter a regularidade dessas atualizações

implicam diretamente na manutenção da credibilidade deste mecanismo de busca.

Sempre que a atualização dos índices for realizada, todas as consultas armazenadas

serão automaticamente excluídas, bem como os índices relacionados. Essa diretiva irá garantir

que todos os índices sempre serão exibidos, mesmo os que forem incluídos recentemente.

Page 36: Implementação do Módulo de Indexação e Consulta para ser ...

35

4.2 Módulo de Consulta

Após a realização da indexação, é necessário fornecer os meios para se recuperar estas

informações. Esta tarefa é realizada através do módulo de consulta. Este módulo já existia no

metabuscador existente no Portal. No entanto, foi necessário acrescentar a possibilidade de se

realizar consultas nas informações geradas pelo processo de indexação. A Figura 12 apresenta

o módulo de consulta já modificado.

Figura 12 – Metabuscador (Portal - CEULP\ULBRA)

Quando um usuário Web solicitar que a pesquisa que ele deseja fazer seja realizada no

CEULP\ULBRA, entra em execução a modificação realizada no módulo de consulta, que

utiliza todos os recursos já existentes atualmente no metabuscador, mais os métodos

particulares desta implementação.

Para melhorar o entendimento, faz-se necessário uma explanação da arquitetura desse

módulo. Esta arquitetura será apresentada na Figura 13.

Page 37: Implementação do Módulo de Indexação e Consulta para ser ...

36

Figura 13 – Módulo de Consultas

Algoritmo: Consultar(k)

Procedimentos: k

1. Conecta ao BD do buscador

2. SE k existe (Consulta já realizada)

2.1. Retorna todos os índices relacionados com k

3. SENÃO (Nova consulta)

3.1. Obtém as palavras irrelevantes

3.2. Exclui de k todas as palavras irrelevantes

3.3. Localiza quais índices contém uma ou todas as palavras contidas em k

3.4. Calcula relevância e armazena relacionamento com cada índice

3.5. Retorna todos os índices classificados por ordem de relevância

BD

Nova

Consulta

Consultas

Existentes

Módulo

de

Consulta

Ranking

Cliente

Page 38: Implementação do Módulo de Indexação e Consulta para ser ...

37

Quando um usuário do Portal, designado acima como cliente, solicitar uma busca

interna no conteúdo do CEULP\ULBRA através do módulo de consulta, o primeiro passo

dado pelo módulo é verificar se a consulta já foi realizada anteriormente. Caso a consulta já

tenha sido realizada anteriormente, o módulo recupera os índices e exibe ao usuário. Caso essa

consulta nunca tenha sido realizada, ela é designada como sendo uma nova consulta, que será

abordada na seção seguinte. Logo após é encaminhado ao ranking, que nada mais é do que a

classificação do resultado por ordem de relevância, ou seja, cada índice (documento

recuperado) possuirá uma relevância associada à consulta que a retornou. O objetivo de se

armazenar as consultas, assim como os índices retornados, é otimização do processo de

consulta, uma vez que se pretende evitar o recalculo da relevância dos índices à consulta que

os retornaram.

Todas as consultas armazenadas, assim como seus respectivos resultados, terão

validade até que a uma nova indexação seja realizada, ou seja, sempre que ocorrer a indexação

dos dados, todas as consultas serão eliminadas, assim como seus resultados, fazendo com que

os novos índices criados pelo processo de indexação sejam incluídos.

4.2.1 Nova Consulta

Todas as consultas que forem realizadas através do módulo de consulta, mais especificamente

quando a opção CEULP\ULBRA estiver selecionada, serão armazenadas no BD do

metabuscador na tabela tb_consultas. A seguir (Figura 14) são apresentados os passos de

entrada de uma nova consulta.

Page 39: Implementação do Módulo de Indexação e Consulta para ser ...

38

Figura 14 - Nova Consulta

A expressão digitada pelo usuário passa por um processo de limpeza, que será

apresentado na seção seguinte, logo depois é realizada uma pesquisa na tabela tb_Indu

retornando todas as tuplas que contiverem alguma das palavras existentes na expressão limpa.

Após este processo, a expressão que o usuário desejou consultar é armazenada na tabela -

tb_consultas possibilitando, então, que o resultado da pesquisa realizada na tabela tb_Indu seja

indexado e relacionado especificamente a esta consulta.

Page 40: Implementação do Módulo de Indexação e Consulta para ser ...

39

Figura 15 - Resultado da pesquisa

Na figura 15 é apresentado o resultado de uma busca pela expressão “Futsal em

Palmas”, onde o buscador encontrou três resultados referentes à expressão e exibiu abaixo os

índices com seus respectivos link’s.

4.2.2 Limpando uma expressão

O termo “limpar expressão” (ou remoção de palavras irrelevantes) foi adotado por se tratar de

uma operação de filtragem que é realizada sobre a expressão que o usuário deseja realizar uma

busca. A seguir (Figura 16), é apresentada a forma como acontece este processo.

Page 41: Implementação do Módulo de Indexação e Consulta para ser ...

40

Figura 16 – Limpar expressão de consulta

Assim, toda expressão que entra neste processo é separada por palavras, dividindo toda

a frase em palavras para que seja possível uma análise textual de todas as palavras existentes

na expressão, onde as que sejam irrelevantes serão excluídas. No BD do buscador existe uma

tabela chamada de tb_PalavrasIrrelevantes que contém todas as palavras que são consideradas

irrelevantes a uma pesquisa, dentro do contexto da língua portuguesa, tal como pronomes,

conjunções, advérbios, etc. Essa tabela é recuperada e armazenada em um vetor e, quando o

processo divide a expressão de consulta em palavras distintas, ele compara palavra por

palavra, verificando a existência de cada uma dentro da lista de palavras irrelevantes e, caso

exista, essa palavra é retirada da expressão. A Figura 17 exemplifica este processo.

Figura 17 – Exemplo do processo de limpeza de expressão

4.2.3 Indexando os resultados

Este processo é o responsável por armazenar as consultas realizadas, assim como todos os

Expressão

Remoção das palavras

irrelevantes

Expressão limpa

“As praias do Tocantins e do

Araguaia”

Limpando

Expressão “Praias Tocantins

Araguaia”

Page 42: Implementação do Módulo de Indexação e Consulta para ser ...

41

índices recuperados e as relevâncias associadas. A Figura 18 apresenta o diagrama de

relacionamento entre a tabela tb_consultas e a tabela tb_Indu.

Figura 18 – Diagrama de relacionamento índices x consultas

É através deste relacionamento que se pode chegar à relevância de cada resultado da

busca à sua consulta correspondente, observando que a relevância é baseada na freqüência

relativa dos termos da expressão. Toda consulta realizada possuirá seus respectivos resultados

pré-processados e armazenados nas tabelas, de acordo com a estrutura apresentada na figura

18, toda vez que for necessário atualizar os resultados das consultas já realizadas, basta apenas

retirar a consulta da tabela tb_consultas e todas as tuplas da tabela tb_consultaXindice que

contiverem a chave estrangeira fkidConsulta igual à chave id_consulta, que automaticamente

da próxima vez que se desejar fazer uma consulta com o mesmo termo, ela será reconstruída

novamente. A seguir (Figura 19), o cálculo de relevância será apresentado.

BD

Portal

Page 43: Implementação do Módulo de Indexação e Consulta para ser ...

42

Figura 19 – Calculo de Relevância

O processo acima é aplicado a todas as tuplas resultantes da busca feita na tabela

Parâmetro 1: Exp. de Consulta(Limpa)

Parâmetro 2: Id da Consulta

Parâmetro 3: Id da tupla relacionada

Parâmetro 4: Palavras-chave da tupla

Split Parâmetro 1

praias

tocantins

OC

2

3

Parâmetro 1

“praias Tocantins”

Parâmetro 4

“praias Tocantins bacia

hidrográfica gera renda povo

classe-baixa turismo praias

Tocantins rio Tocantins

araguaia”

Split Parâmetro 3

praias

tocantins

bacia

hidrográfica

...

Calcula Relevância

Grava Relacionamento

Page 44: Implementação do Módulo de Indexação e Consulta para ser ...

43

tb_Indu quando for realizada uma nova consulta, sendo feito para cada tupla o cálculo de sua

relevância para aquela consulta especificamente. Um índice pode aparecer em várias consultas

e com vários níveis de relevância diferentes, isso vai depender de como essa consulta for

contextualizada pelo usuário.

O índice de relevância de um determinado resultado é dado através da freqüência

relativa, ou seja, de acordo com o número de ocorrências de uma das palavras contidas na

expressão de consulta na lista de palavras chave de cada índice, sendo calculada de acordo

com a seguinte função:

Soma das ocorrência * 100 Relevância =

Quantidade de Palavras Chave

A relevância de uma consulta é exatamente a porcentagem das ocorrências, ou seja,

este valor é calculado de acordo com a quantidade total de palavras chave contidas em um

determinado índice. Esta função foi escolhida por se tratar de um cálculo cujo custo

computacional de processamento é relativamente baixo e também pelo fato de ser um

conteúdo de uma instituição privada que gera interesse maior a seus usuários, não sendo

necessário à implementação dos outros modelos de cálculo de relevância, tal como, relevância

por tempo de navegação.

4.3 Considerações finais

Nesta seção foram apresentados os módulos de indexação e consulta, assim como a maneira

como os mesmos foram implementados, apresentando e exemplificando, passo a passo, todos

os processos que envolvem a indexação das informações contidas no Portal do

CEULP\ULBRA e o desenvolvimento do módulo de consulta, permitindo assim, que qualquer

usuário do Portal possa realizar uma busca sobre diversos assuntos dentro do conteúdo de

informações do mesmo.

Page 45: Implementação do Módulo de Indexação e Consulta para ser ...

44

5. CONSIDERAÇÕES FINAIS

O Portal do Centro Universitário Luterano de Palmas – CEULP\ULBRA possui um grande

volume de informações que são de interesse de todos os acadêmicos e professores. Porém,

essas informações não eram indexadas e a busca por informações dentro do próprio Portal é,

por si só, uma tarefa exaustiva, uma vez que, para se chegar a um item específico de

informação é necessário percorrer todo o Portal.

Assim, por ter boa parte do seu conteúdo gerado dinamicamente, as ferramentas de

busca existentes não conseguem indexar todas as informações existentes. Desta forma, torna-

se necessária à criação de uma ferramenta que indexe essas informações, de modo que viesse

solucionar a impossibilidade de realização de buscas por informações dentro do conteúdo do

Portal, ferramenta esta que seria agregada ao metabuscador já existente no referido Portal.

O presente trabalho realizou uma pesquisa sobre indexação, consulta e recuperação de

informações, avaliando e observando o comportamento de algumas ferramentas de busca, bem

como as técnicas que elas utilizam para otimizar as buscas que realizam. O resultado desta

pesquisa foi utilizado para a implementação do módulo de indexação e para a modificação do

módulo de consulta, os quais foram agregados ao metabuscador do Portal do CEULP/ULBRA.

Nesta primeira parte, foram indexadas as tabelas de notícias e cursos existentes no banco de

dados desta Instituição, que correspondem a mais de 85% do volume de informações contidas

no Portal, não impedindo que as demais informações também sejam indexadas, tal como o

conteúdo da biblioteca digital que utiliza um algoritmo diferente para a indexação de

informações, ficando esta tarefa como um possível trabalho futuro, que daria continuidade a

este trabalho.

Page 46: Implementação do Módulo de Indexação e Consulta para ser ...

45

6. REFERÊNCIAS BIBLIOGRÁFICAS

(ARASU, 2001) ARASU, Arvind et al. Searching the Web. ACM Transactions on Internet

Technology (TOIT), v. 1, n. 1, p. 2-43. New York: ACM Press, 2001.

(BAKEL, 1998) BAKEL, Bas van. Modern classical document indexing: a linguistic

contribution to nowledge-based IR. In: ANNUAL INTERNATIONAL ACM SIGIR

CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION

RETRIEVAL (SIGIR'98), 1998, Melborne, AU. Proceedings... New York: ACM Press,

1998. p.333-334.

(BOTELHO, 2004) BOTELHO, Arylma Rocha. Estudo e Avaliação dos Sistemas de

Recuperação de Informação Web. Palmas, 2004. Monografia (Bacharel em Sistemas de

Informação). Centro Universitário Luterano de Palmas. ULBRA, Palmas, 2004.

(CENDÓN, 2001) CENDÓN, B. V. Ferramentas de Busca na Web. Brasília, v. 30, n.1, p.

39 – 49, jan./abr. 2001.

(DETERS, 2003) DETERS, Janice Inês. Método de Ordenação de Documentos na Web

Baseado no Tempo de Permanência. Florianópolis, 2003. 88 f. Dissertação (Mestrado

em Ciências da Computação) - Universidade Federal de Santa Catarina, Florianópolis,

2003.

Page 47: Implementação do Módulo de Indexação e Consulta para ser ...

46

(FELDMAN, 1997) FELDMAN, Ronen; HIRSH, Haum. Exploiting background information

in knowledge discovery from text. Journal of Intelligent Information Systems,

Netherlands: Kluwer Academic Publishers. v.9, n.1, p.83-97. 1997.

(FERNEDA, 2003) FERNEDA, Edberto. Recuperação de Informação: Análise sobre a

contribuição da Ciência da Computação para a Ciência da Informação. São Paulo,

2003. 137 f. Tese (Doutorado em Ciências da Comunicação). Escola de Comunicação e

Artes, Universidade de São Paulo, São Paulo, 2003.

(FOX, 1992) FOX, Christopher. Lexical analysis and stoplists. In: FRAKES, William B.;

(HAN, 1996) HAN, J. et al: Intelligente Query Answering by Knowledge Discovery

Techniques, IEEE Transactions on Knowledge and Data Engineering, v.8, n.3, 1996.

(HARMAN, 1992) HARMAN, Donna et al. Inverted Files. In: FRAKES, William B.;

BAEZAYates, Ricardo A. Information Retrieval: Data Structures & Algorithms.

Upper addle River, New Jersey: Prentice Hall PTR, 1992. p.28-43.

(KOWALSKI, 1997) KOWALSKI, Gerald. Information Retrieval Systems: Theory and

Implementation. Boston: Kluwer Academic Plubishers, 1997. 282p.

(KURAMOTO, 1995) KURAMOTO, Hélio. Uma abordagem alternativa para o

tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da

Informação. Volume 25. Número 2. Artigos, 1995.

(MOURA, 2000) MOURA, G.. Sistemas de busca na web: diretórios e mecanismos de

busca. 2000. Disponível em:

<http://www.quatrocantos.com/tec_web/sist_busca/sb_sum.htm>. Acesso em: 09/05/2005.

Page 48: Implementação do Módulo de Indexação e Consulta para ser ...

47

(ROBERTSON, 1997) ROBERTSON, S. E.; WALKER, S. On relevance weights with little

relevance information. Em: ANNUAL INTERNATIONAL ACM-SIGIR CONFERENCE

ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL

(SIGIR’97), 1997, Philadelphia, USA. Proceedings… New York: ACM Press, 1997. p.

16-24.

(SALTON, 1983) SALTON, Gerard; MACGILL, Michael J. Introduction to Modern

(SILVEIRA, 2002) SILVEIRA, Marcelo. Web Marketing Usando Ferramentas de

Busca. São Paulo: Novatec, 2002.

(STORB, 1997) STORB, Bernd Heinrich. Um modelo difuso de recuperação de

documentos utilizando processamento morfológico. Florianópolis, 1997. 107 f.

Dissertação (Mestrado em Engenharia da Produção). Centro Tecnológico da Universidade

Federal de Santa Catarina. Universidade Federal de Santa Catarina, Florianópolis, 1997.

(WARTIK, 1992) WARTIK, S. et al. Hashing Algorithms. In: FRAKES, William B.;

BAEZAYates, Ricardo A. Information Retrieval: Data Structures & Algorithms.

Upper Saddle River, New Jersey: Prentice Hall PTR, 1992. p.293-363.

(WIVES, 2000) WIVES, Leandro. Tecnologias de Descoberta de Conhecimento em Textos

aplicadas à Inteligência Competitiva. Porto Alegre, 2002. 100 f. Pós-Graduação em

Computação. Universidade Federal do Rio Grande do Sul, Porto Alegre, 2002.