Ferramentas para capturar e converter a Web

Extrair texto de imagens

Frequentemente, informações textuais importantes podem ser armazenadas nas imagens. Contudo Raspador da Web do GrabzIt fornece a capacidade de extrair automaticamente essas informações usando o reconhecimento óptico de caracteres. Embora esta seja uma forma artificial de intnegligência os resultados nem sempre são perfeitos.

Para extrair texto de imagens, você deve usar o Utility.Image.extractText como mostrado abaixo.

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));

Esses exemplos obtêm todos os URLs de imagem da página da Web e os transmitem ao método extractText, que tenta extrair dados de texto de cada imagem e retorna todas as correspondências como uma matriz de strings.

Se o texto da imagem estiver em um idioma diferente, você precisará especificar o código de idioma correto usando o formato de duas letras (ISO 639-1), conforme mostrado abaixo.

var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}), 'fr');