Uma tarefa comum é extrair links de um site, especificamente links HTML. Felizmente, isso é fácil ao usar Raspador da Web do GrabzIt. Primeiro, crie um novo raspar com os detalhes normais, como a página inicial do raspar e outras opções.
Em seguida, vá para o Instruções para raspar guia e clique no botão. Isso entrará no
Page
palavra chave into as instruções de raspar e abrirá uma lista suspensa. Selecione getTagAttributes
da lista. Próximo add 'href'
como o primeiro parâmetro, isso indica ao raspador da Web para extrair o atributo href e digite uma vírgula.
Em seguida, clique no isso permite que você informe ao raspador da Web de quais elementos extrair o atributo href. Na janela de filtro, verifique se o tipo está definido como 'Página da Web' e se a restrição é 'nome da tag' e 'igual a'. Então entre
a
na caixa de texto e clique no botão Adicionar e depois no botão Inserir filtro. Conclua a instrução adicionando um ponto-e-vírgula ao final da linha.
Você deve ficar com algo parecido com o que é mostrado abaixo.
Page.getTagAttributes('href', {"tag":{"equals":"a"}});
O código acima extrairá todos os URLs de link da página da web, mas agora precisamos save esses URLs de link. Para fazer isso, envolveremos esse comando menos o ponto e vírgula em um Data.save
comando. Para fazer isso, vá para o início da linha e selecione o botão. Em seguida, no menu suspenso, selecione
save
, vá para o final da linha e adicione uma vírgula. Em seguida, adicione o que deseja chamar ao conjunto de dados, como 'Meu site', adicione outra vírgula e adicione outro parâmetro para descrever a coluna, como 'Links', depois feche o comando com um )
antes do ponto e vírgula.
Agora você deve ter as seguintes instruções de raspar.
Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');
Agora, se você executar o raspar, extrairá todos os links do site. Isso criará uma tabela com o nome de Meus sites, com o nome da coluna Links, que poderá ser exportado into Muitos formatos diferentes, como XML, CSV ou uma planilha. Este tutorial também pode ter sido alcançado usando o botão do assistente na barra de ferramentas Instruções para raspar.