Scraping

download Scraping

of 18

  • date post

    05-Dec-2014
  • Category

    Software

  • view

    107
  • download

    0

Embed Size (px)

description

Ferramentas para raspagem de páginas e PDFs

Transcript of Scraping

  • 1. Scraping Vtor Baptista vitor@vitorbaptista.com
  • 2. Qual o problema?
  • 3. Websites Requer envio de algum formulrio? Requer login? Funciona sem JavaScript?
  • 4. Website bsico
  • 5. Website com formulrio
  • 6. Website com login
  • 7. Acessando elementos especficos CSS Selectors (HTML) .classe-css #id-elemento div#body XPath (XML) //table/td/tr
  • 8. Ferramentas ScraperWiki ScrapingHub Mechanize (Python, Ruby, ...) Scrapy (Python) Ghost (Python, para sites que requerem JavaScript)
  • 9. PDFs Se voc consegue selecionar texto do PDF, ou seja, o PDF foi gerado por um programa qualquer, e no simplesmente um documento escaneado, voc est com sorte. Se no, as tcnicas so as mesmas pra quebrar CAPTCHA (vou falar a seguir)
  • 10. Ferramentas Pdftables Tabula ScraperWiki pdftohtml
  • 11. CAPTCHAS Existem para evitar que pessoas automatizem o acesso a websites, seja para raspagem ou para criar contas Para quebrar um CAPTCHA, primeiro baixamos um grande nmero de imagens, as resolvemos manualmente e usamos esse conjunto para treinar a ferramenta escolhida
  • 12. Limpeza de rudo ImageMagick
  • 13. Ferramentas GOCR Tesseract DeathByCaptcha
  • 14. GOCR Simples de usar Funciona em CAPTCHAs mais simples
  • 15. Tesseract a ferramenta livre mais poderosa Desenvolvida desde 1985 inicialmente pela HP, depois pelo Google Difcil de usar
  • 16. E se eu no conseguir quebrar o CAPTCHA?
  • 17. Death By Captcha Uma das empresas que vende servio de quebra de CAPTCHAs Voc envia a imagem do CAPTCHA e eles te devolvem a soluo So pessoas em algum lugar cujo trabalho quebrar CAPTCHAS US$ 1,39 por 1.000 CAPTCHAs (e voc no paga pelos errados)
  • 18. Etiqueta de crawling Limite sua velocidade (normalmente uso 1 requisio por segundo) Adicione uma forma de contato ao seu User- Agent