Ferramentas para capturar e converter a Web

Extrair links de um site

Este exemplo também está disponível como um modelo.

Uma tarefa comum é extrair links de um site, especificamente links HTML. Felizmente, isso é fácil ao usar Raspador da Web do GrabzIt. Primeiro, crie um novo raspar com os detalhes normais, como a página inicial do raspar e outras opções.

Em seguida, vá para o Instruções para raspar guia e clique no Botão de página da Web botão. Isso entrará no Page palavra chave into as instruções de raspar e abrirá uma lista suspensa. Selecione getTagAttributes da lista. Próximo add 'href' como o primeiro parâmetro, isso indica ao raspador da Web para extrair o atributo href e digite uma vírgula.

Em seguida, clique no Botão de filtro isso permite que você informe ao raspador da Web de quais elementos extrair o atributo href. Na janela de filtro, verifique se o tipo está definido como 'Página da Web' e se a restrição é 'nome da tag' e 'igual a'. Então entre a na caixa de texto e clique no botão Adicionar e depois no botão Inserir filtro. Conclua a instrução adicionando um ponto-e-vírgula ao final da linha.

VocĂŞ deve ficar com algo parecido com o que Ă© mostrado abaixo.

Page.getTagAttributes('href', {"tag":{"equals":"a"}});

O código acima extrairá todos os URLs de link da página da web, mas agora precisamos save esses URLs de link. Para fazer isso, envolveremos esse comando menos o ponto e vírgula em um Data.save comando. Para fazer isso, vá para o início da linha e selecione o Botão de dados botão. Em seguida, no menu suspenso, selecione save, vá para o final da linha e adicione uma vírgula. Em seguida, adicione o que deseja chamar ao conjunto de dados, como 'Meu site', adicione outra vírgula e adicione outro parâmetro para descrever a coluna, como 'Links', depois feche o comando com um ) antes do ponto e vírgula.

Agora você deve ter as seguintes instruções de raspar.

Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');

Agora, se você executar o raspar, extrairá todos os links do site. Isso criará uma tabela com o nome de Meus sites, com o nome da coluna Links, que poderá ser exportado into Muitos formatos diferentes, como XML, CSV ou uma planilha. Este tutorial também pode ter sido alcançado usando o botão do assistente na barra de ferramentas Instruções para raspar.