Ferramentas para capturar e converter a Web

Como extrair automaticamente informações estruturadas de texto não estruturado?

O texto escrito normal pode incluir muitas informações que não são facilmente extraíveis. Por exemplo, uma frase talvez uma resenha sobre uma empresa, mas como você sabe se é uma resenha boa ou ruim?

Um raspador de tela normal não seria capaz de extrair essas informações. No entanto, o GrabzIt pode usá-lo com recursos de processamento de linguagem natural. Conforme mostrado no exemplo abaixo, o texto da página é analisado e retorna um dos seguintes valores Muito Negativo, Negativo, Neutro, Positivo e Muito Positivo.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

Apesar Raspador da Web do GrabzIt pode extrair muito mais do texto, incluindo detecção de idioma, nomes de locais, nomes de pessoas e nomes de organizações. Exemplos dos quais são mostrados abaixo.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

Você não precisa escrever nenhuma dessas instruções de raspar, pois elas aparecerão automaticamente quando você selecionar um elemento HTML aplicável em nosso assistente de raspador.