Sistemas de RI na Web

91
Sistemas de RI na Web Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França

description

Sistemas de RI na Web. Adriano Melo Amora Albuquerque Anália Lima Eduardo Pires Ivan França. Roteiro. Introdução Objetivos Entendendo a Web Arquiteturas Técnicas Estratégia de Busca Crawlers Browsing Metabuscas Conclusão . A Web. - PowerPoint PPT Presentation

Transcript of Sistemas de RI na Web

Rastreamento de Objetos

Sistemas de RI na WebAdriano MeloAmora AlbuquerqueAnlia LimaEduardo PiresIvan Frana1RoteiroIntroduoObjetivosEntendendo a WebArquiteturasTcnicasEstratgia de BuscaCrawlersBrowsingMetabuscasConcluso

2A WebPode ser vista como uma grande base de dados no estruturada e ubquaSurge a necessidade de ferramentas para gerenciar, buscar e filtrar informaes

3Formas de busca na WebEngenhos de buscaDiretrios de sitesExplorao de hyperlinks

4

5+1.000.000.000 de buscasso realizadas por diaGoogle data, September 20106+1.000.000.000 de pessoasusam o google a cada semanaGoogle data, September 2010720% das buscasfeitas nos ltimos 90 dias nunca tinham sido feitas antesGoogle Internal Data, April 20108 > 4 bilhesde pageviews so realizados por ms no reino unido** dados de abril de 2010910 bilhes de imagensesto indexadas no Google Images*(eram 250 milhes em 2001)* TechCrunch, July 201010

11115.000 filmes a equivalncia do total de uploads de vdeos feitos no YouTube por ms12700 bilhesde execues de vdeos foram realizadas no YouTube em 2010132.9 bilhes de horasso gastas por ms vendo os vdeos do YouTube14quem tem acesso a esse contedo?todo mundo! (exceto os vdeos do YouTube)15

16600 milhes de pessoasesto cadastradas no facebook*(250 milhes entraram em 2010)* Fim de 2010179.3 bilhes de horasso gastas por ms nas pginas do site1830 bilhes de documentoscomo links e notcias so compartilhados a cada ms no facebook19Quem tem acesso a esse contedo?bind e os usurios do facebook20DesafiosGrande quantidade de dadosDados volteis (mudam muito rpido)Acesso ao contedo produzido em redes sociaisContedo heterogneo (multimdia, linguagem)Informaes redundantes e no estruturadas

21Entendendo a Web

22Caracterizao da WEBMensurando a WEBOrganizao atual da WEBArquiteturas

23Mensurando a WEBQual o nmero de computadores conectados a internet?

Qual o nmero de websites na internet?Mensurar a WEB de maneira precisa uma tarefa difcil devido a sua natureza altamente dinmica. Hoje, h mais de 500 milhes de computadores conectados a internet, em mais de 200 pases.

24Mensurando a WEBQual o nmero de computadores conectados a internet?

500 milhes de hosts, em mais de 200 pases.

25Mensurando a WEB

26Mensurando a WEB

27Mensurando a WEBQual o nmero de websites na internet?O Netcraft roda desde agosto de 1995Em maio de 2011 foram recebidas respostas de mais de 324 milhes websites.

28

29Organizao atual da WEBWEB uma coleo no controlada de documentos.Insero de documentosFormato dos documentosEngenhos de buscaRecuperar informaes na WEBPermitir a consulta por usurios

Ao contrrio de uma biblioteca, a Web uma coleo no controlada de documentos, ou seja, a todo instante, documentos esto sendo inseridos e modificados por diferentes pessoas, sendo o contedo e formato desses documentos os mais variados possveis. Para poder lidar com as caractersticas da Web, surgiu uma nova gerao de SRIs, os Mecanismos de Busca, ou Engenhos de Busca, ou ainda Mquinas de Busca.

30Engenhos de BuscaArquiteturaCentralizadaUsa crawlers(rastreadores)DistribudaA busca realizada utilizando um esforo de coordenao entre vrios gatherers e brokers

31Arquitetura Centralizada

32Arquitetura CentralizadaCrawlers (robots, spiders, wanderers)Buscam pginas na WEBEnviam para um servidor principalRoda em um sistema localEnvia requisies servidores web remotos

Quanto s arquiteturas, a maioria das engines de busca utilizam uma arquitetura centralizada baseada em crawlers (ratreadores). Crawlers so programas que buscam na web por novas pginas ou atualizaes nas pginas e eviam tais pginas para um servidor principal onde tais pginas sero indexadas. Crawlers so tambm chamados de robots, spiders, wanderers, walkers, and knowbots. Um crawler no se move e nem roda em mquinas remotas, em vez disso um crawler roda em um sistema local e envia requisies para servidores web remotos.

33Arquitetura CentralizadaIndexerCada pgina baixada processada localmenteA informao indexada salva e a pgina descartadaExceo: alguns sites de busca mantm um cach local algumas cpias das pginas mais populares34Arquitetura CentralizadaPrincipais dificuldadesRecolha dos dadosNatureza dinmica da WEBVolume de dadosSobrecarga nos servidores webRequisies de diferentes crawlersTrfego na WEBObjetos recolhidos pelos crawlersInformaes recolhidas independentementeSem coordenao

35Arquitetura DistribudaNovos elementosGatheres (recolhedores)Brokers

36Arquitetura DistribudaGatherers (recolhedores)Coletar e extrair informaes de um ou mais servidores WEBTempos de coletas so peridicos definidos pelo sistema37Arquitetura DistribudaBrokersObtm informaes extradas pelo GathererRecuperam informaes de BrokersMecanismo de indexaoAtualizando ndicesInterface de consulta38Arquitetura DistribudaVantagensReduo na carga dos servidores webGatherers podem rodar em um servidor web sem gerar trfego externoReduo no trfego da redeArquitetura centralizada retm todo os documentos, enquanto que a arquitetura distribuda move apenas o que extrado pelos Gatherers Evita trabalho redundanteUm gatherer envia informaes para vrios brokers, reduzindo repetio do trabalho

39Ranking na Web

40

Base dos algoritmos mais utilizadosConsiderar a relevncia de web pages por meio dos links

Incomming links

Outgoing Links

41Conceitos BsicosUma pgina da web valiosa e informativa geralmente apontado por um grande nmero de hiperlinks, ou seja, ele tem um grande indegree (grau de entrada) .

Essa pgina chamada um authority

Uma pgina da Web que aponta para muitas pginas authority um recurso til e chamado de hub. Um hub tem geralmente uma grande outdegree (grau de sada).

LINK ANALYSIS: HUBS AND AUTHORITIES ON THE WORLD WIDE WEB [CHRIS H.Q. DING, HONGYUAN ZHA , XIAOFENG HE , PARRY HUSBANDS , ANDHORST D. SIMON]

42Hypertext Induced Topic Selection (HITS)O algoritmo foi criado por Jon Kleinberg

Precursor do Page Rank, utilizado pelo Google.

O algoritmo atribui pontuaes de importncia para os hubs eauthorities seguindo este conceito:

Uma boa authority deve ser apontada por vrios bons hubs e um bom hub deve apontar para vrias boas authorities.

43Determinar subgrafo (S) composto pelo conjunto de pginas retornadas em uma busca e pginas que apontam e so apontadas por pginas deste conjunto.

Realizar vrias iteraes para determinar um valor hub e um valor authority para cada pgina do subgrafo. Esses valores so normalizados.

O algoritmo aplica iteraes at que pesos de hub e authority cheguem a convergir, isto , at que estes pesos no variem acima de um valor pr-determinado.

Hypertext Induced Topic Selection (HITS)44Todo este processamento, que leva cerca de alguns minutos, realizado no momento da consulta. Por esta razo o HITS no atende ao requisito de tempo imposto pelos engenhos de busca comerciais, que de poucos segundos.

Algumas extenses do algoritmo HITS que adicionaram anlise de contedo anlise puramente estrutural foram desenvolvidas pelo projeto CLEVER da IBM.

Combinando Informaes Textuais e Estruturais na Recuperao de Documentos Web.[Roberta de Souza Coelho, Marcelo Nery dos Santos,Silvio Romero Lemos Meira]Hypertext Induced Topic Selection (HITS)

45PageRankPageRank uma famlia de algoritmos de anlise de rede que d pesos numricos a cada elemento de uma coleo de documentos hiperligados, como as pginas da Internet, com o propsito de medir a sua importncia nesse grupo por meio de um motor de busca.

O processo do PageRank foi patenteado pela Universidade de Stanford.

Somente o nome PageRank uma marca registrada do Google.

46PageRank e GoogleO sistema PageRank usado pelo motor de busca Google para ajudar a determinar a relevncia ou importncia de uma pgina.O Google mantm uma lista de bilhes de pginas em ordem de importncia, isto , cada pgina tem sua importncia na Internet como um todo.

A importncia se d pelo nmero de votos que uma pgina recebe. Um voto um link em qualquer lugar da Internet para aquela pgina.Os votos de pginas de alta popularidade na Web contam mais do que os votos de sites de baixa popularidade.

Quanto mais links uma pgina de Web oferece, mais diludo seu poder de votao.Uma boa unidade de medida para definir o PageRank de uma pgina pode ser a percentagem (%) de pginas que ela mais importante.

Por exemplo, se uma pgina tem PageRank de 33% significa que ela mais importante que um tero de toda a Internet. Se o seu PageRank 99% significa que ela superior a quase todas as pginas da Internet.47O PageRank faz uma avaliao objetiva da importncia de pginas da web, resolvendo uma equao de mais de 500 milhes de variveis e 2 bilhes de termos.

O mecanismo de pesquisa do Google tambm analisa o contedo completo de uma pgina e os fatores em fontes, subdivises e a localizao exata de cada palavra.PageRank e Google

48Quais os sites com maior PageRank?O website Search Engine Genie atualizou sua lista dos websites com maior PageRank e tornou a informao pblica no dia 20 de janeiro de 2011.

49Google CaffeineExibe taxa maior de resultados mais recentes devido sua atualizao mais constante.

Ocupa cerca de 100 milhes de gigabytes de armazenamento em um banco de dados eadiciona novas informaes auma taxa de centenas de milhares de gigabytes por dia.

50GoogleVdeo Como Google funciona http://www.google.com/howgoogleworks/

possvel manipular o PageRank atribuindo links descontextualizados com o objetivo da pgina, modificando a ordenao de resultados na pesquisa pelo Google e induzindo a resultados pouco relevantes ou tendenciosos.

Googlebombing

failure ou miserable failure: retornava biografia oficial da Casa Branca para o presidente dos EUA, George W. Bush e em sequncia a pgina de Michael Moore, inimigo declarado do presidente dos EUA.

NO MOSTRAR O VDEO!!51SEO - Search Engine Optimization

Hoje em dia cerca de 85% do trfego na Internet inicia-se com uma pesquisa num motor de busca como o Google, o Yahoo ou o Bing

Conjunto de tcnicas que otimizam os web sites, tornando-os mais aptos a estarem bem colocados nas pesquisas efetuadas pelos potenciais visitantes.

So baseados naquilo que os buscadores levam em conta no momento da busca.52

SEO Exemplos de fatores consideradosTempo de registro do domnio (Idade do domnio)Freqncia do contedo: regularidade com a qual novo contedo adicionadoOriginalidade do contedoQuantidade de links externosRelevncia do site que linka para o seu websiteCitaes e fontes de pesquisa (indica que o contedo de qualidade para pesquisa)Links "quebradosContedo inseguro ou ilegalQualidade da codificao HTML, presena de erros no cdigo53

CrawlersSPIDERS, BOTS, etc.54CrawlersColeta automtica e sistemtica de documentos da Web a serem indexados e consultados pela mquina de busca

55CrawlersComo funcionam?

56CrawlersEstratgias de busca:Em Profundidade- Resulta em uma coleta focada, pois o crawlercaminhapor todo um determinado site antes de ir para o prximo. Pode-se limitar o nmero de nveis.

57CrawlersEstratgias de busca:Em Largura com sufixo de URL -Exemplo: *.terra.com.br. Garante cobertura balanceada entre sites. Tcnica bastante utilizada.

58CrawlersEstratgias baseadas em conectividadeReferncias (Backlink count)- Quanto mais links apontando para uma pgina maior a "importncia" dela.Variaes recursivas -Links vindos de pginas com maior "importncia" tem maior peso. Esta a tcnica usada pelo algoritmoPageRank.

59Crawlers

60Arquitetura

61Crawlers

62Componentes

63CrawlersColetoresResponsveis pela requisio de pginas aos servidores HTTPExtraem os links das pginas recebidas e enviam ao escalonadorRequisitam do escalonador uma ou mais URLs a serem coletadasPodem realizar um escalonamento local (short term scheduling)64CrawlersServidor de NomesAtendem requisies DNS dos coletoresMantm um cache de identificadores DNS (nomes) resolvidosCrucial para evitar que cada coletor faa requisies DNS remotas65CrawlersServidor de ArmazenamentoRecebem as pginas ou outros objetos coletados e armazenam em uma base localFazem a extrao (parsing) de textoPodem tratar vrios formatos: Postscript, PDF, Word, Powerpoint, etc.66CrawlersEscalonadorResponsvel por decidir qual a prxima URL a ser coletadaCoordena as aes dos coletoresEstratgias de busca (LIFO, FIFO, PageRank)Deve garantir: Protocolo de exclusoRobots.txtRetardo mnimo entre requisies a um mesmo servidor HTTP.No havero coletas repetidas67CrawlersQual a melhor estratgia de escalonamento?Coletar k pginas com vrios tipos de escalonamento (Randmico, FIFO, backlink e PageRank)Critrios de avaliao: Freqncia de termos, Backlink, PageRank, tipo de URLsResultado:179.000 pginas do domnio stanford.eduEstratgia baseada em PageRank a melhorEstratgia baseada em FIFO boa68CrawlersQual a melhor estratgia de escalonamento?Usando somente PageRank como mtricaResultadoEstratgia FIFO descobre pginas com alto PageRank primeiroConclusoMquinas com ranking baseado em conectividade devem coletar em FIFO69Restries

70CrawlersProtocolo de exclusoRecomendao informalRestries de acessoDelay mnimo entre requisies a um mesmo servidor71

CrawlersRobots.txtRegras de restrio para navegao automticaEst sempre na URL raiz e deve ser consultado antesObedincia no obrigatria

http://www.robotstxt.org/db.htmlUser-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/Robots.txt72Recomendaes

73CrawlersRespeitar retardo mnimo entre requisies em um mesmo servidor HTTPUsar header User-AgentNome do rob, e-mail, responsvel, instituio, etcEvitar horrios de trfego intensoLimitar o nmero de pginas coletadas em sites grandes

74CrawlersNo coletar tipos de dados no-indexveisJPG, EXE, Cuidado com links relativosClique aquiCuidado com Buracos Negros (Spider Traps)Pginas que prendem o crawler num loop infinitoLinks como: http://foo.com/bar/foo/bar/foo/bar/foo/bar/....Pginas dinmicas que geram nmero infinito de pginas (Ex: calendrios)

75Browsing

76Recapitulando...Estratgia de BuscaTermos de Busca

Termos do sistema

Recapitulando...

Em RI, a estratgia de busca geralmente descrita como um subsistema, com o objetivo de traar estratgias de combinao de termos de busca com os termos do sistema, propiciando a recuperao.Browsing uma modalidade de busca dentro do subsistema.

77BrowsingA arte de no saber o que se quer at que se encontreContraste da busca direta

78BrowsingAtividade no orientada, no programada, no sistemtica, informal e casual

Nveis de ateno:

- Ao acaso- Quase ao acaso- Semideterminado

Atividade no orientada, no programada, informal, no sistemtica, casual que justifica a dificuldade de defini-lo precisamente.Tipo de busca com critrios e objetivos no definidos previamente.Levine (1969), aponta trs diferentes nveis de ateno ao se fazerbrowsing: (1) ao acaso, com uma coleo desconhecida; (2) quase ao acaso, por meio de uma rea de um edifcio ou coleo previamente exploradas e (3) semideterminado em uma rea fsica limitada ou rea intelectual direcionada.

79BrowsingAtividade no orientada, no programada, no sistemtica, informal e casual

Essencialmente visualAcesso direto, sem mediador

o browsing essencialmente visual e, s se torna possvel, atravs do acesso direto, o que Naves denomina de livre acesso. Para o usurio ter pleno acesso coleo de uma biblioteca ou ao contedo total de um site, sem a ajuda de um mediador, ter a chance de encontrar, ao acaso, um item que lhe seja interessante

Na estratgia de recuperao por browsing, em oposio querying, o usurio explora visual e espacialmente o conjunto documental, sem necessidade de ter que expressar de forma prvia quais so suas necessidades de informao. Ou seja, o usurio prefere navegar [n]o conjunto documental, e reconhecer visualmente [o] que est buscando, ao invs de especificar suas necessidades mediante a linguagem de consulta.

Afinal quando um usurio visita uma pgina na internet, se adentra nas funcionalidades de um software ou navega em um hiperdocumento, seus movimentos visuais esto em plena atividade, colhendo flashes e analisando pequenos trechos ou contedos do objeto.

80BrowsingBrowsingNavegaoContexto fsicoPonto de destinoMas no contexto virtual, significam a mesma coisaChamamos a ateno aqui para tratar destes dois conceitos browsing e navegao que ora se aproximam ora se afastam. Assim fizemos algumas consideraes sobre os termos nos diferentes contextos: No contexto fsico a expresso browsing parece ser mais aceita para definir a ao de explorar um ambiente, como em uma biblioteca, por exemplo. No contexto virtual as palavras navegao e browsing so tratadas como sinnimos. Um bom exemplo seriam as palavras navegador e browser para definir softwares utilizados para acesso ao contedo Web. Na navegao o ponto de destino definido no incio do processo ainda que, necessariamente, no seja cumprido, j no browsing parece que no existe um ponto de chegada.

81Diretrios WebFerramentas baseadas em browsing

Pesquisas retornadas so relevantes

Cobertura relativamente pequenaClassifica o conhecimento humanoDiretorios web: ferramentas web que so baseadas em browsing. Pesquisas retornadas so normalmente relevantes apesar da cobertura relativamente pequena (1% das pginas web).Tcnica de classifica o conhecimento humano;

82Meta BuscadoresNem todas as pginas da web esto em todos os engenhos de busca

Podem diferir um do outro em como as respostas vo ser rankeadas no resultado final. (em alguns casos o rankeamento no feito); e em como eles traduzem uma dada query do usurio em uma query para os engenhos de busca e diretrios.

83Meta Buscadores

Combinao de resultados de diversas fontesOrdenao por diferentes atributosNavegao mais simples

Diminuio da precisoPrincipais vantagens:Habilidade em combinar os resultados de diversas fontes em apenas uma interface.Podem ser ordenadas por diferentes atributos, que podem ser mais informativos que as respostas de apenas um engenho de busca. Navegao das respostas mais simples.Desvantagem:Diminuio da preciso

84Busca usando hyperlinksInclui: Linguagens de consulta webBusca dinmica

Diminui a performanceLinguagens de consulta web:A pesquisa pode incluir link entre as pginasO modelo de grafos o mais utilizado para essa representao

.No amplamente usado por diversas razes, incluindo limitao de performance e falta de produtos comerciais.Linguagens de consulta web: at agora as consultas so feitas baseadas no contedo de cada pgina. No entanto, as pesquisas podem incluir tambm um link entre as pginas web.

O modelo de grafos o mais utilizado para essa representao.Pginas web : nsHyperlink entre as pginas: arestas.Modelo de semi-estrutura usado para representar o contedo das pginas.

85Busca usando hyperlinksLinguagens de consulta web: Ns: Pginas web Arestas: Hyperlink Modelo de semi-estrutura: Contedo

Por que usar esse tipo de busca? Combinao de estrutura com contedo; possvel extrair e integrar o contedo das pginas; Construir e restruturar sites.

Exemplo: Buscar todas as pginas web que contem pelo menos uma imagem e so acessveis a partir de um dado site seguindo mais de trs links.Pra responder a esse tipo de query, diferentes modelos de dados podem ser utilizados.Os mais importantes so os que rotulam um modelo de grafos para representar as pginas web (ns) e hyperlinks entra as pginas (arestas) , e um modelo de semi estrutura pra representar o conteudo das pginas.

Por que usar esse tipo de busca?Combinar estrutura com contedoTem sido estendido para extrair e integrar informaes de pginas web, e construir e restruturar estes sites.

86Busca usando hyperlinkBusca dinmica:Busca online para descobrir informaes relevantes dentre os links que foram retornados na busca.Abordagem lenta pra toda web, mas prtica pra um subconjunto especficoHeurstica: Documentos relevantes geralmente tm vizinhos que tambm so relevantes Busca dinmica: equivalente ao texto de busca sequencial. A idia usar uma busca online para descobrir informaes relevantes pelos seguintes links.Abordagem lenta pra toda a web, mas pode ser usado em subconjuntos da web.Se baisea na heuristica de que documentos relevantes geralmente tem vizinhos que so tambm relevantes

87Busca usando hyperlinksBusca dinmica:AlgoritmoDada uma query, para cada passo:Analisar a pgina com mais alta prioridade;Se a pgina for relevante, a heurstica decide seguir ou no os links dessa pgina;Se decidir que sim, novas pginas sero adicionadas lista.

Algoritmo:Dada uma query, para cada passo, analisar a pgina com mais alta prioridade. Se a pgina for considerada relevante, a heuristica decide seguir ou no os links desta pgina. Se decidir que sim, novas pginas sero adicionadas lista de prioridade, nas posies adequadas.

88Tendncias e Questes de PesquisaModelagem: Adaptao s necessidades da Web;Melhores paradigmas e melhores filtros de informaoConsulta: Melhorar a combinao entre estrutura e contedo;Processamento de linguagem natural

Arquiteturas Distribudas: Lidar com o crescimento da quantidade de informao na web;Qual ser o gargalo no futuro? Capacidade dos servidores ou largura de banda?elagem: Os modelod de RI precisam ser adaptados as necessidades da web. Ns buscaremos a informao Ou a informao chegar at ns? Em ambos os casos ns precisamos de melhores paradigmas de pesquisa e melhores filtros de informao.

Consulta: necessrio trabalhar mais na combinao entre estrutura e contedo na consultas bem como em um novo visual para posicionar essas consultas e visualizar as respostas. Futuras linguagens de consulta podem incluir conceitos baseados em pesquisa e processamento de linguagem natural.

novossistemas dedistribuioparapercorrere pesquisarna web deve serconcebido paralidarcom o crescimento.Isto ter impacto nas atuais tcnicas de rastreamento e indexao

89Tendncias e Questes de PesquisaRanking: Melhores esquemas de ranking;Explorao tanto no contedo como na estrutura;The search engine persuasion problemIndexao: Qual a melhor viso lgica para um texto?O que deve ser indexado?

Ranking: melhor esquemas de ranking so necessrios, explorao tanto no contedo como na estrutura (internos pagina e hyperlinks); Um problema que o engenho de busca pode rankear algumas paginas como de alta prioridade deviso a razoes que no so baseadas numa real relevncia da pgina (the search engine persuasin problem).

Indexao: Qual a melhor viso lgica para o texto? O que deve ser indexado? Como explorar melhor os esquemas de compreensao de texto ara alcanar buscas mais rpidas?90DesafiosMapear e indexar toda a WebSEO: Search Engine OptimizationRastrear e indexar aplicaes Web 2.0Making AJAX Applications Crawlablehttp://code.google.com/intl/pt-BR/web/ajaxcrawling/index.html91SEO - Search Engine Optimization

Hoje em dia cerca de 85% do trfego na Internet inicia-se com uma pesquisa num motor de busca como o Google, o Yahoo ou o Bing

Conjunto de tcnicas que otimizam os web sites, tornando-os mais aptos a estarem bem colocados nas pesquisas efetuadas pelos potenciais visitantes.

So baseados naquilo que os buscadores levam em conta no momento da busca.92

SEO Exemplos de fatores consideradosTempo de registro do domnio (Idade do domnio)Freqncia do contedo: regularidade com a qual novo contedo adicionadoOriginalidade do contedoQuantidade de links externosRelevncia do site que linka para o seu websiteCitaes e fontes de pesquisa (indica que o contedo de qualidade para pesquisa)Links "quebradosContedo inseguro ou ilegalQualidade da codificao HTML, presena de erros no cdigo93

Dvidas94Refernciashttp://www.apcwebconcept.com/Servicos?_Locale=pt&ID=f7dd7229-c6e1-4a3a-86ac-f3f21f1054dehttp://googleblog.blogspot.com/2010/06/our-new-search-index-caffeine.htmlhttp://ranger.uta.edu/~chqding/papers/hits5.pdfhttp://www.dimap.ufrn.br/~roberta/publicacoes/rita_magazine.pdfhttp://www.mestreseo.com.br/pagerank/o-que-e-pagerankhttp://www.google.com/corporate/tech.htmlhttp://informatica.hsw.uol.com.br/algoritmo-google1.htm[1]http://www.google.com/url?sa=t&source=web&cd=1&ved=0CBYQFjAA&url=http%3A%2F%2Fwww.di.ufpe.br%2F~sfd%2Funiverso%2Finternet%2Frec_web.doc&ei=HqrKTaf7Gcuftgeso7T6Bw&usg=AFQjCNG14humR3V6o6-TJ4GaO2DrOpdWyw&sig2=QCfp65iffOmVmj-nHH6tRg[2] http://www.cetic.br/hosts/2011/index.htm[3]http://news.netcraft.com/archives/category/web-server-survey/http://www.google.co.uk/intl/en/landing/internetstats/

95