Raspador da Web do GrabzIt é muito flexível, permitindo executar uma variedade de tarefas on-line, como verificar links de sites e relatórios quebrados.
A primeira coisa a fazer é criar um raspar e atribua o site de destino que você deseja verificar e use o código abaixo para obter as instruções de raspar.
var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); urls = Utility.Array.unique(urls); urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL")); for (i = 0; i < urls.length; i++) { var url = urls[i]; Data.save(Page.getUrl(), "Links", "Found On"); Data.save(url, "Links", "URL"); if (Utility.URL.exists(url)) { Data.save("Found", "Links", "Result"); } else { Data.save("Missing", "Links", "Result"); } }
A primeira linha var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
extrai todos os URLs de hiperlink e os coloca no urls
variável. A próxima linha usa o Utilitário.Array.único método para tornar todos os URLs exclusivos.
A terceira linha garante que os links não sejam verificados duas vezes para fazer isso. Lemos os URLs que foram previamente saved e filtre os links extraídos por isso. Se você deseja que todas as páginas em que um link está quebrado sejam gravadas, exclua esta linha.
Após a limpeza dos dados da URL, percorremos cada URL restante, salvando-o no conjunto de dados junto com a página atual, antes de verificar se o URL existe usando o Utility.URL.exists
método. O resultado dessa verificação também é saved no conjunto de dados.
Como alternativa, você pode verificar se as imagens de um site existem substituindo o código Page.getTagAttributes('href', {"tag":{"equals":"a"}});
com Page.getTagAttributes('src', {"tag":{"equals":"img"}});
.