Crawlers - Tips & Tricks - #desconf 2010

Preview:

Citation preview

CrawlersTips & Tricks.

@paverama

@caroljanovik

@rafaelss

Crawler é...

• ... um programa que fica rodando em algum lugar, extraindo os dados que tu precisa

• ... uma ***puta*** dor de cabeça

Por quê?

• Dão trabalho

• Podem ser demorados

• Consomem processamento/memória

• Podem derrubar o site “crauleado”

• Nem todo mundo gosta de ser a “vítima” de um crawler

Então:• Não use a tecnologia errada

• Não tente capturar tudo

• Não derrube o site alheio

• Organize seu código

• Tenha cuidado com libs/frameworks de terceiros

• Crie formas de tratar os erros

• ...

Obrigado!@rafaelss