Ferramentas para capturar e converter a Web

Crie um verificador de link personalizado

Este exemplo também está disponível como um modelo.

Raspador da Web do GrabzIt é muito flexível, permitindo executar uma variedade de tarefas on-line, como verificar links de sites e relatórios quebrados.

A primeira coisa a fazer é criar um raspar e atribua o site de destino que você deseja verificar e use o código abaixo para obter as instruções de raspar.

        var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}});
        urls = Utility.Array.unique(urls);
        urls = Utility.Array.filter(urls, Data.readColumn("Links", "URL"));

        for (i = 0; i < urls.length; i++) 
        {
          var url = urls[i];

          Data.save(Page.getUrl(), "Links", "Found On");
          Data.save(url, "Links", "URL");

          if (Utility.URL.exists(url))
          {
            Data.save("Found", "Links", "Result");
          }
          else
          {
            Data.save("Missing", "Links", "Result");
          }
        }
    

A primeira linha var urls = Page.getTagAttributes('href', {"tag":{"equals":"a"}}); extrai todos os URLs de hiperlink e os coloca no urls variável. A próxima linha usa o Utility.Array.unique método para tornar todos os URLs exclusivos.

A terceira linha garante que os links não sejam verificados duas vezes para fazer isso. Lemos os URLs que foram previamente saved e filtre os links extraídos por isso. Se você deseja que todas as páginas em que um link está quebrado sejam gravadas, exclua esta linha.

Após a limpeza dos dados da URL, percorremos cada URL restante, salvando-o no conjunto de dados junto com a página atual, antes de verificar se o URL existe usando o Utility.URL.exists método. O resultado dessa verificação também é saved no conjunto de dados.

Como alternativa, você pode verificar se as imagens de um site existem substituindo o código Page.getTagAttributes('href', {"tag":{"equals":"a"}}); com Page.getTagAttributes('src', {"tag":{"equals":"img"}});.