Ferramentas para capturar e converter a Web

Raspe endereços de email de um site

Os dois exemplos a seguir fazem parte do mesmo modelo.

Raspador da Web do GrabzIt fornece vários métodos utilitários especiais para facilitar a extração de endereços de email de um site. O exemplo abaixo obtém todo o conteúdo HTML de uma página da Web e depois o passa pelo Utility.Text.extractAddresses método para encontrar todos os endereços de email válidos antes de salvar os endereços into um conjunto de dados, que é então enviado ao usuário.

Como alternativa, apenas o primeiro endereço de email correspondente pode ser extraído usando o Utility.Text.extractAddress método.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

Raspe endereços de email de documentos PDF

Os documentos PDF também podem ser raspados para endereços de e-mail de maneira semelhante à forma como as páginas da Web são raspadas acima. Como você pode ver no exemplo abaixo, o processo é exatamente o mesmo, exceto que o PDF.getText() método é usado em vez de Page.getHtml() método.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

Raspe endereços de email das imagens

GrabzIt tem a capacidade de extrair texto de imagens isso significa que essa capacidade também pode ser aproveitada para extrair endereços de email das imagens. O exemplo abaixo extrai todos os endereços de email de todas as imagens em uma página da web.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

Enquanto as instruções para raspar abaixo extraem todos os endereços de email das imagens encontradas nos documentos PDF.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));