NEScrawler
Aércio Cavalcanti – [email protected]
Afonso Ferreira - [email protected]
Vilmar Santos - [email protected]
{acmf,agaf,vsn}@cin.ufpe.br
Roteiro
• Introdução• Para que serve o NEScrawler?• Por que usar o NEScrawler?• Estrutura do Sistema• Funcionamento• Alguns Resultados• Conclusão
{acmf,agaf,vsn}@cin.ufpe.br
Introdução (I)
• NESCoFE• Pouca informação para ser utilizada pelo NESCoFE• Busca manual da informação• Solução? Automatização
{acmf,agaf,vsn}@cin.ufpe.br
Introdução (II)
• O que foi feito pra automatizar? – NEScrawler
• A automatização foi uma boa saída?
Para Que?
{acmf,agaf,vsn}@cin.ufpe.br
Para que serve o NEScrawler?
• Adquirir grande quantidade de páginas com informações de músicas
• Extrair informação sobre as músicas• Integrar essas informações
Por Que?
{acmf,agaf,vsn}@cin.ufpe.br
Por que usar o NEScrawler?
• Falta de dados para NESCoFE• Modo eficiente de recuperar e integrar informação• Resultados bastante satisfatórios• Facilidade de uso
Estrutura do Sistema
{acmf,agaf,vsn}@cin.ufpe.br
Arquitetura
Funcionamento
{acmf,agaf,vsn}@cin.ufpe.br
BarnesAndNoble (I)
{acmf,agaf,vsn}@cin.ufpe.br
BarnesAndNoble (II)
{acmf,agaf,vsn}@cin.ufpe.br
BarnesAndNoble (III)
{acmf,agaf,vsn}@cin.ufpe.br
BarnesAndNoble (IV)
{acmf,agaf,vsn}@cin.ufpe.br
Alguns Resultados
• Grande quantidade de dados... Aproximadamente 25.000 músicas na base de dados, extraídas de barnesandnoble.com
• Estrutura bem definida
MUSICore
www.cin.ufpe.br/~acmf/musicore
{acmf,agaf,vsn}@cin.ufpe.br
MUSICore (I)
{acmf,agaf,vsn}@cin.ufpe.br
MUSICore (II)
{acmf,agaf,vsn}@cin.ufpe.br
Conclusão
• Apesar de dificuldades, automatizar foi uma boa saída• Bastante informação, de apenas uma fonte • Da seca a enxurrada• Necessidade de abordagem híbrida?
{acmf,agaf,vsn}@cin.ufpe.br
Dúvidas ? ? ?
{acmf,agaf,vsn}@cin.ufpe.br
Referências
• Barnes and Noble – www.bn.com.br• Data Mining: Concepts and techniques – Han & Kamber• Modern Information Retrieval. Baeza-Yates & Ribeiro-
Neto. Addison-Wesley, 1999.• Salgado, A. C., Lóscio, B. F., Integração de Dados na Web
Top Related