Ferramentas para capturar e converter a Web

Extraindo dados de documentos PDF

A captura de dados do conteúdo de documentos PDF não é tão flexível quanto a de documentos HTML; no entanto, ainda existem várias maneiras de conseguir isso usando Raspador da Web do GrabzIt. Primeiro, para raspar o conteúdo PDF, você usa o PDF funções ao invés do Page funções, mas, caso contrário, as funções funcionam geralmente da mesma maneira.

Um filtro para um documento PDF é muito mais simples do que para um documento HTML. Antes de tudo, você deve especificar o tipo de conteúdo que deseja extrair: links, imagens ou texto.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Para links e imagens, você pode restringir qual imagem ou link é retornado especificando sua posição.

PDF.getValue({"type":"image","position":"2"});

Obtém a segunda imagem em um documento. Para texto, imagens e links, você pode restringir ainda mais os dados retornados especificando um número de página.

PDF.getValue({"type":"image","position":"2","page":"5"});

Isso retornará a segunda imagem da quinta página. O texto vem com a opção adicional de número de linha, no entanto, o texto não suporta a posição.

PDF.getValue({"type":"text","page":"5","line":"10"});

Isso obtém a décima linha de texto da quinta página. Além dessas diferenças nas opções de filtro, a raspagem de dados de documentos PDF funciona de maneira muito semelhante à raspando dados de documentos HTML, no entanto, como você não pode ser tão específico quanto ao que extrai com um filtro PDF, pode ser necessário especificar um padrão para extrair as informações corretas do texto.