Um dos requisitos mais comuns é extrair dados de um site e ativá-lo into uma estrutura tabular que pode ser exportada para processamento adicional. Mas o que é um conjunto de dados e como ele é usado no Raspador da Web do GrabzIt?
Abaixo estão os dados da tabela contidos no conjunto de dados lista de preços, a tabela consiste em três colunas etiqueta do item, descrição do item e Preço do item.
etiqueta do item | descrição do item | Preço do item |
---|---|---|
Câmara | Tira fotos digitais | $99.00 |
Para criar esse conjunto de dados, você precisará usar as seguintes instruções de raspar.
Data.save('Camera', 'price list', 'item label'); Data.save('Takes digital photos', 'price list', 'item description'); Data.save('$99.00', 'price list', 'item price');
Isso usa o Data.save
método para adicionar um valor dos dados para um determinado conjunto de dados e coluna. Toda vez que o Data.save
O método é chamado com os mesmos parâmetros de nome de conjunto de dados e coluna e uma nova linha é adicionada a essa coluna. No entanto, as instruções de raspagem acima não são muito úteis, pois estamos criando o conjunto de dados usando valores estáticos. O código abaixo mostra o HTML de uma página da web. Em seguida, escreveremos instruções de raspagem para extrair dinamicamente os dados da página e save it into um conjunto de dados.
<html> <body> <span id="spnLabel">Nikon 1055</span> <span id="spnDescription">Great little camera, creates clear sharp images.</span> <span id="spnPrice">$99.99</span> </body> </html>
Agora vamos usar o Page.getTagValue
para extrair os valores das tags span.
Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label'); Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description'); Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');
Como você pode ver o Page.getTagValue
Os métodos usam um filtro, que identifica exclusivamente o elemento HTML do qual o texto precisa ser extraído. Nesse caso, os filtros estão especificando que o atributo id do HTML deve ser igual spnLabel, spnDescription or spnPrice respectivamente. Você pode gerar facilmente um filtro clicando no ícone, que exibe um assistente para simplificar a construção do filtro.
Depois de criar seu conjunto de dados como mostramos aqui, você pode decidir como deseja exportá-lo no Opções de exportação aba.