Ferramentas para capturar e converter a Web

O raspador da Web do GrabzIt respeita os arquivos robots.txt?

Nosso raspador de Web deve respeitar as regras encontradas em um arquivo robots.txt de sites. Uma das principais razões para isso, além de ser agradável, é que os raspadores da Web que não seguem o arquivo robots.txt podem ser incluídos na lista negra por um serviço de honeypot.

Esses serviços usam o robots.txt para solicitar que um raspador da Web não visite um determinado arquivo vinculado a partir do site. Se o raspador da Web ainda visitar o arquivo, o endereço IP dos raspadores da Web estará na lista negra, impedindo que o raspador da Web visite o site no futuro.