Ferramentas para capturar e converter a Web

Grandes melhorias no raspador da Web para o 2019

08 Março de 2019

Além de um redesenho e uma série de correções de bugs, fizemos melhorias drásticas no web scraper do GrabzIt, incluindo:

  • Apoiando a extração de conteúdo contido em estilos CSS
  • Agora você pode escolher o país a partir do qual um scrape é executado. No momento as escolhas são os EUA ou o Reino Unido.
  • Agora você pode escolher se respeita ou não as regras do robots.txt. Por padrão, um arranhão faz isso.
  • Os dados relativos agora podem ser associados automaticamente, o que é útil quando você tem dados presentes em alguns elementos HTML, mas não em outros. Ao associar esses itens, os valores aparecerão em relação aos itens de dados corretos no conjunto de dados resultante.
  • Ao criar um conjunto de dados, colunas diferentes podem pertencer a modelos diferentes, o que significa que algumas colunas podem ser preenchidas a partir de um tipo de página e outras colunas de diferentes tipos de página. Um exemplo disso seria uma página de listagem de produtos e uma página de detalhes do produto. Isso permitiria que você obtivesse detalhes gerais da página de listagem e, em seguida, informações detalhadas da página de detalhes do produto.
  • Outra maneira de melhorar o construtor do conjunto de dados é permitir que os efeitos de uma operação, como contém, menos que etc, sejam aplicados a todas ou algumas colunas.
  • Agora existem vários novos comandos disponível no assistente de raspagem.
    • Excluir – agora você pode excluir elementos, o que é útil em algumas circunstâncias para impedir que os mesmos elementos sejam lidos várias vezes.
    • Rolagem – o web scraper agora pode rolar elementos HTML que o suportam.
    • Hover – este comando irá passar o mouse sobre um elemento especificado, o que pode ser útil para revelar informações.
    • Paginação – este é um novo recurso para a ação Clicar e permite que a paginação seja executada automaticamente em links de paginação selecionados. Isso significa que mesmo que o raspador clique em algum lugar dos dados paginados, como parte da raspagem, ele retornará à página paginada atual para continuar com a raspagem.
  • A melhor parte do GrabzIt's Raspador da Web é que você pode usá-lo gratuitamente todos os meses. Então, o que você está esperando, experimente e envie-nos qualquer feedback que você tiver. Adoraríamos fazer do nosso o melhor raspador da web online!

Ver as últimas postagens do blog