Ferramentas para capturar e converter a Web

O raspador da Web do GrabzIt respeita os arquivos robots.txt?

Nosso Web Scraper deve respeitar as regras encontradas no arquivo robots.txt de um site. Uma das principais razões para isso, além de ser legal, é que os web scrapers que não seguem o arquivo robots.txt podem ser colocados na lista negra de um serviço honeypot.

Esses serviços usam o robots.txt para instruir um web scraper a não visitar um determinado arquivo vinculado ao site. Se o web scraper ainda visitar o arquivo, o endereço IP do web scraper será colocado na lista negra, evitando que o web scraper visite o site no futuro.