Ferramentas para capturar e converter a Web

Extraia dados e transforme-os into um conjunto de dados

Um dos requisitos mais comuns é extrair dados de um site e ativá-lo into uma estrutura tabular que pode ser exportada para processamento adicional. Mas o que é um conjunto de dados e como ele é usado no Raspador da Web do GrabzIt?

Exemplo de conjunto de dados: lista de preços

Abaixo estão os dados da tabela contidos no conjunto de dados lista de preços, a tabela consiste em três colunas etiqueta do item, descrição do item e Preço do item.

etiqueta do item descrição do item Preço do item
Câmara Tira fotos digitais $99.00

Para criar esse conjunto de dados, você precisará usar as seguintes instruções de raspar.

Data.save('Camera', 'price list', 'item label');
Data.save('Takes digital photos', 'price list', 'item description');
Data.save('$99.00', 'price list', 'item price');

Isso usa o Data.save método para adicionar um valor dos dados para um determinado conjunto de dados e coluna. Toda vez que o Data.save O método é chamado com os mesmos parâmetros de nome de conjunto de dados e coluna e uma nova linha é adicionada a essa coluna. No entanto, as instruções de raspagem acima não são muito úteis, pois estamos criando o conjunto de dados usando valores estáticos. O código abaixo mostra o HTML de uma página da web. Em seguida, escreveremos instruções de raspagem para extrair dinamicamente os dados da página e save it into um conjunto de dados.

<html>
    <body>
        <span id="spnLabel">Nikon 1055</span>
        <span id="spnDescription">Great little camera, creates clear sharp images.</span>
        <span id="spnPrice">$99.99</span>
    </body>
</html>

Agora vamos usar o Page.getTagValue para extrair os valores das tags span.

Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label');
Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description');
Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');

Como você pode ver o Page.getTagValue Os métodos usam um filtro, que identifica exclusivamente o elemento HTML do qual o texto precisa ser extraído. Nesse caso, os filtros estão especificando que o atributo id do HTML deve ser igual spnLabel, spnDescription or spnPrice respectivamente. Você pode gerar facilmente um filtro clicando no Botão de filtro ícone, que exibe um assistente para simplificar a construção do filtro.

Depois de criar seu conjunto de dados como mostramos aqui, você pode decidir como deseja exportá-lo no Opções de exportação aba.