Ferramentas para capturar e converter a Web

Como raspar a lista de produtos e as páginas de detalhes

Nos sites, geralmente há uma página de pesquisa, que contém uma lista de itens, sendo que cada item recebe uma descrição resumida com um link para uma página de detalhes que inclui informações detalhadas sobre o item.

Como essa estrutura é usada com frequência, muitas vezes é necessário extrair algumas informações sobre cada item da página de pesquisa e o restante da página de detalhes. Este artigo fornecerá orientações sobre como raspar essas informações.

Primeiro, digite o URL da página da lista de produtos que você deseja raspar. Em seguida, selecione as informações que deseja selecionar na página da lista de produtos. Verifique se todos os exemplos dos dados estão selecionados.

Em seguida, na página de instruções de raspar, clique em Adicionar instrução de raspar.

A primeira coisa a ter em atenção é que o nosso raspador funciona exatamente da mesma maneira que um navegador. Portanto, se houver uma notificação de segurança de cookie ou outro pop-up embutido que o impede de clicar na página, você deve instruir o raspador a fechar o pop-up antes da resto do arranhão pode ser feito. A maioria desses pop-ups precisa ser clicada apenas uma vez e você pode solicitar ao GrabzIt que faça o mesmo. Para fazer isso, use o Elemento Clique ação e clique no elemento HTML necessário para fechar o pop-up. Em seguida, clique na opção Somente uma vez e Save e a seguir.

Em seguida, escolha o extrair dados ação e selecione os dados que deseja extrair. Portanto, se você deseja selecionar o título de um item, na lista de resultados da pesquisa. Verifique se todos os títulos nessa lista estão selecionados.

Nosso assistente tenta identificar automaticamente conjuntos de dados e pode selecionar mais informações do que você deseja automaticamente. Se isso acontecer, basta clicar novamente nos itens que você não deseja selecionar e eles não serão mais incluídos. Isso ensina ao nosso raspador da Web o que extrair.

Agora, escolha o atributo do item de dados que você deseja extrair. Como "Texto" e clique em Avançar. Na próxima tela, dê um título. Observe que aqui você deseja que todos os dados usem o modelo padrão. Isso ocorre porque você deseja que os dados sejam extraídos sempre que não estiverem em um modelo especial.

Depois de selecionar todos os dados dos itens que você deseja extrair da página de pesquisa do produto. Selecione todos os links para obter mais informações na página de detalhes do produto. Pode ser, por exemplo, a imagem. Depois clique no Elemento Clique açao. Defina o modelo como "detalhe" e aguarde cinco segundos e clique em Avançar. Quando perguntar se você deseja extrair dados da nova página, escolha sim. Agora selecione os dados que você deseja extrair como antes. Mas desta vez, especifique que ele deve ser executado no modelo "detalhe".

Adicione outra instrução de raspar e volte à página principal. Desta vez, selecione o próximo botão nos links de paginação. Quando o Clique em Ação caixa de opção for exibida, selecione o botão da próxima página opção. Dessa forma, o raspador sabe que esse botão é realmente um botão de paginação e paginará através de todos os resultados. Certifique-se de que você tenha esta instrução de raspar por último. Se não for a última instrução de raspar, ela poderá ser arrastada até o fim.

Em seguida, vá para a guia agendamento e clique em Criar para iniciar a raspagem. Você pode assistir ao progresso do raspar em tempo real na página Gerenciar raspar, clicando no ícone da linha e depois no ícone do visualizador do raspar.