Raspador da Web do GrabzIt fornece vários métodos utilitários especiais para facilitar a extração de endereços de email de um site. O exemplo abaixo obtém todo o conteúdo HTML de uma página da Web e depois o passa pelo Utility.Text.extractAddresses
método para encontrar todos os endereços de email válidos antes de salvar os endereços into um conjunto de dados, que é então enviado ao usuário.
Como alternativa, apenas o primeiro endereço de email correspondente pode ser extraído usando o Utility.Text.extractAddress
método.
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
Os documentos PDF também podem ser raspados para endereços de e-mail de maneira semelhante à forma como as páginas da Web são raspadas acima. Como você pode ver no exemplo abaixo, o processo é exatamente o mesmo, exceto que o PDF.getText()
método é usado em vez de Page.getHtml()
método.
Data.save(Utility.Text.extractAddresses(PDF.getText()));
GrabzIt tem a capacidade de extrair texto de imagens isso significa que essa capacidade também pode ser aproveitada para extrair endereços de email das imagens. O exemplo abaixo extrai todos os endereços de email de todas as imagens em uma página da web.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
Enquanto as instruções para raspar abaixo extraem todos os endereços de email das imagens encontradas nos documentos PDF.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));