Ferramentas para capturar e converter a Web

Documentação do raspador da Web

Esta é uma visão geral dos nossos métodos especiais de instrução de raspar que disponibilizamos através do nosso raspador de tela.

Critérios.applicar (matriz)

Remove todos os itens no mesmo local dos itens removidos por operações anteriores neste critério da matriz fornecida.

  • array - obrigatório, o array ao qual aplicar as alterações.

Critérios.ascendentes (valores)

Retorna os valores em ordem crescente.

  • valores - necessários, passe uma matriz que você deseja classificar em ordem crescente.

Criteria.contains (agulhas, valor)

Retorna apenas itens na matriz de agulhas que contém o valor especificado.

  • agulhas - necessário, a matriz para filtrar.
  • value - obrigatório, os itens de valor devem ser contidos.

Criteria.create (matriz)

Cria um novo critério pronto para executar operações em uma nova matriz.

  • array - obrigatório, o array de colunas ao qual aplicar as alterações.

  • Critérios.descendente (valores)

    Retorna os valores em ordem decrescente.

    • valores - necessários, passe uma matriz que você deseja classificar em ordem decrescente.

    Critérios.equals (agulhas, valor)

    Retorna apenas itens na matriz de agulhas que são iguais ao valor especificado.

    • agulhas - necessário, a matriz para filtrar.
    • value - obrigatório, os itens de valor devem ser iguais a.

    Critério.extrato (matriz, padrão)

    Retorna todos os itens na matriz que, com todas as correspondências cortadas de acordo com o padrão especificado.

    • array - obrigatório, o array para aparar correspondências.
    • padrão - obrigatório, o padrão define como aparar a parte desejada do texto retornado. O valor para aparar é indicado pelo {{VALUE}} no padrão.
      Por exemplo, para aparar a idade de "Minha idade é 33". o padrão "Minha idade é {{VALUE}}". seria usado.

    Critérios. Maior que (agulhas, valor)

    Retorna os únicos itens na matriz de agulhas que são maiores que o valor especificado.

    • agulhas - necessário, a matriz para filtrar.
    • value - obrigatório, os itens de valor devem ser maiores que.

    Critérios. Manutenção (agulhas, palheiro)

    Retorna a matriz de agulhas após manter as correspondências encontradas na matriz de palheiro.

    • agulhas - necessário, a matriz para filtrar.
    • palheiro - necessário, a matriz a ser usada para manter as agulhas.

    Criteria.lessThan (agulhas, valor)

    Retorna os únicos itens na matriz de agulhas que são menores que o valor especificado.

    • agulhas - necessário, a matriz para filtrar.
    • value - obrigatório, os itens de valor devem ser menores que.

    Criteria.limit (valores, limite)

    Retorna os primeiros n valores, onde n é a variável limite.

    • valores - necessários, passe uma matriz que você deseja limitar.
    • limit - required, o número de valores que você deseja retornar da matriz.

    Criteria.notEquals (agulhas, valor)

    Retorna os únicos itens na matriz de agulhas que NÃO são iguais ao valor especificado.

    • agulhas - necessário, a matriz para filtrar.
    • value - obrigatório, os itens de valor NÃO devem ser iguais a.

    Critérios.remover (agulhas, palheiro)

    Retorna a matriz de agulhas após remover quaisquer correspondências encontradas na matriz de palheiro.

    • agulhas - necessário, a matriz para filtrar.
    • palheiro - necessário, a matriz a ser usada para remover as agulhas.

    Criteria.repeat (matriz)

    Repita os itens na matriz até que correspondam ao comprimento da coluna mais longa.

    • array - necessário, o array a repetir.

    Critérios.unique (agulhas)

    Retorna apenas os valores exclusivos da matriz de agulhas.

    • agulhas - necessário, passe uma matriz da qual você deseja remover todos os valores duplicados.

    Data.countFilesDownloaded ()

    Conte o número total de arquivos baixados.


    Data.log (mensagem)

    Grava uma mensagem no log de raspar.

    • message - required, a mensagem a ser gravada no log.

    Data.pad (padValue, dataSet)

    Protege todas as colunas presentes nos conjuntos de dados anexando células vazias ao final das colunas até que todas as colunas em um determinado conjunto de dados tenham o mesmo número de células.

    • padValue - opcional, o valor para preencher as células. Se nenhum for especificado, um valor vazio será usado.
    • dataSet - opcional, o conjunto de dados a ser preenchido.

    Data.readColumn (dataSet, coluna)

    Lê uma coluna da coluna especificada do conjunto de dados especificado.

    • dataSet - opcional, o conjunto de dados para ler o valor.
    • coluna - opcional, a coluna no conjunto de dados para ler o valor.

    Dados.save(valors, dataSet, coluna)

    Saves qualquer valor ou valores para o conjunto de dados e coluna especificados.

    • value - obrigatório, passe qualquer valor ou matriz de valores que você deseja save.
    • dataSet - opcional, o conjunto de dados para save O valor que into.
    • coluna - opcional, a coluna no conjunto de dados para save O valor que into.

    Dados.saveDOCXScreenshot (htmlOrUrls, opções, dataSet, coluna)

    Faça uma captura de tela DOCX de HTML, URL ou URLs e, opcionalmente, coloque um link para o arquivo no conjunto de dados e na coluna especificados.

    • url - obrigatório, passe qualquer URL ou matriz de URLs dos quais você deseja tirar uma captura de tela do DOCX.
    • opções - opcional, opções de captura de tela.
    • dataSet - opcional, o conjunto de dados para save o link da captura de tela do DOCX into.
    • coluna - opcional, a coluna no conjunto de dados para save o link da captura de tela do DOCX into.

    Dados.saveImageScreenshot (htmlOrUrls, opções, dataSet, coluna)

    Faça uma captura de tela da imagem em HTML, URL ou URLs e, opcionalmente, coloque um link para o arquivo no conjunto de dados e na coluna especificados.

    • url - obrigatório, passe qualquer URL ou matriz de URLs dos quais você deseja tirar uma captura de tela da imagem.
    • opções - opcional, opções de captura de tela.
    • dataSet - opcional, o conjunto de dados para save o link da captura de tela da imagem into.
    • coluna - opcional, a coluna no conjunto de dados para save o link da captura de tela da imagem into.

    Dados.savePDFScreenshot (htmlOrUrls, opções, dataSet, coluna)

    Faça uma captura de tela em PDF de HTML, URL ou URLs e, opcionalmente, coloque um link para o arquivo no conjunto de dados e na coluna especificados.

    • url - necessário, passe qualquer URL ou matriz de URLs dos quais você deseja fazer uma captura de tela em PDF.
    • opções - opcional, opções de captura de tela.
    • dataSet - opcional, o conjunto de dados para save o link da captura de tela em PDF into.
    • coluna - opcional, a coluna no conjunto de dados para save o link da captura de tela em PDF into.

    Dados.saveTableScreenshot (htmlOrUrls, opções, dataSet, coluna)

    Faça uma captura de tela da tabela de HTML, URL ou URLs e, opcionalmente, coloque um link para o arquivo no conjunto de dados e na coluna especificados.

    • url - obrigatório, passe qualquer URL ou matriz de URLs dos quais você deseja tirar uma captura de tela da tabela.
    • opções - opcional, opções de captura de tela.
    • dataSet - opcional, o conjunto de dados para save o link da captura de tela da tabela into.
    • coluna - opcional, a coluna no conjunto de dados para save o link da captura de tela da tabela into.

    Dados.saveArquivo (urls, nome do arquivo, dataSet, coluna)

    Saves qualquer URL ou URLs como um arquivo e, opcionalmente, coloca um link para o arquivo no conjunto de dados e na coluna especificados.

    • url - obrigatório, passe qualquer URL ou matriz de URLs que você deseja ativar into um arquivo.
    • nome do arquivo - opcional, passe qualquer nome de arquivo que você deseja usar em vez do nome gerado.
    • dataSet - opcional, o conjunto de dados para save o link do arquivo into.
    • coluna - opcional, a coluna no conjunto de dados para save o link do arquivo into.

    Dados.saveToFile (dados, nome do arquivo, dataSet, coluna)

    Saves quaisquer dados ou itens de dados como um arquivo e, opcionalmente, coloca um link para o arquivo no conjunto de dados e na coluna especificados.

    • dados - necessários, passe todos os dados ou matriz de dados que você deseja save em um (s) arquivo (s).
    • nome do arquivo - opcional, passe qualquer nome de arquivo que você deseja usar em vez do nome gerado.
    • dataSet - opcional, o conjunto de dados para save o link do arquivo into.
    • coluna - opcional, a coluna no conjunto de dados para save o link do arquivo into.

    Dados.saveÚnico (valors, dataSet, coluna)

    Saves qualquer valor exclusivo ou valores para o conjunto de dados e a coluna especificados. Valores duplicados no mesmo conjunto de dados e coluna são ignorados.

    • value - obrigatório, passe qualquer valor ou matriz de valores que você deseja save.
    • dataSet - opcional, o conjunto de dados para save O valor que into.
    • coluna - opcional, a coluna no conjunto de dados para save O valor que into.

    Dados.saveUniqueFile (urls, nome do arquivo, dataSet, coluna)

    Saves qualquer URL ou URLs como um arquivo e, opcionalmente, coloca um link para o arquivo no conjunto de dados e na coluna especificados. Este método irá apenas save valores exclusivos para o conjunto de dados e coluna especificados ou se não houver URLs exclusivos de conjunto de dados e coluna para toda a sucata.

    • url - obrigatório, passe qualquer URL ou matriz de URLs que você deseja ativar into um arquivo.
    • nome do arquivo - opcional, passe qualquer nome de arquivo que você deseja usar em vez do nome gerado.
    • dataSet - opcional, o conjunto de dados para save o link do arquivo into.
    • coluna - opcional, a coluna no conjunto de dados para save o link do arquivo into.

    Dados.saveVideoAnimation (videoUrls, opções, dataSet, coluna)

    Converter um vídeo ou vídeos online into GIF (s) animado (s) e, opcionalmente, coloca um link para o arquivo no conjunto de dados e na coluna especificados.

    • videoUrl - obrigatório, transmita qualquer URL de vídeo ou matriz de URLs que você deseja converter into GIF animado (s).
    • opções - opcional, opções de animação.
    • dataSet - opcional, o conjunto de dados para save o link da animação into.
    • coluna - opcional, a coluna no conjunto de dados para save o link da animação into.

    Global.get (nome)

    Obtém um saved valor da variável.

    • nome - obrigatório, o nome da variável a ser retornada.

    Global.set (nome, valors, persistir)

    Saves qualquer valor ou valores entre páginas raspadas.

    • name - obrigatório, o nome da variável a save.
    • value - obrigatório, o valor da variável a save.
    • persist - opcional, se true a variável será mantida entre arranhões.

    Navigation.addTemplate (urlsmodelo)

    Defina o URL ou os URLs como pertencentes ao modelo especificado. Isso permite que as instruções de rastreio sejam restritas à execução apenas em determinados URLs.

    • url - obrigatório, transmita qualquer URL ou matriz de URLs para os quais você deseja definir um modelo.
    • modelo - obrigatório.

    Navigation.clearCookies ()

    Remova todos os cookies para o raspar atual.


    Navigation.navigate (filtro, modelo)

    Clique em um ou mais elementos HTML.

    • filter - required, o filtro usado para identificar em quais elementos HTML clicar.
    • template - o modelo a ser atribuído ao navegar para o elemento HTML selecionado.

    Navigation.goTo (url)

    Vá imediatamente para o URL especificado.

    • url - obrigatório, o URL para o qual navegar.

    Navigation.hover (filtro)

    Passe o mouse sobre um ou mais elementos HTML.

    • filter - required, o filtro usado para identificar quais elementos HTML passar o mouse.

    Navigation.isTemplate (modelo)

    Retorna true se a página atual pertencer ao modelo especificado.

    • template - obrigatório, o modelo para verificar se a página pertence.

    Navigation.paginate (filtro, segundos)

    Pagina através dos elementos especificados.

    • filter - required, o filtro usado para identificar quais elementos HTML devem ser paginados.
    • segundos - necessário, o número de segundos entre os resultados paginados.

    Navigation.remove (filtro)

    Exclua um ou mais elementos HTML.

    • filter - required, o filtro usado para identificar quais elementos HTML excluir.

    Navigation.scroll (filtro)

    Role um elemento selecionado ou a página da web inteira.

    • filter - opcional, o filtro usado para identificar qual elemento rolar, se não for fornecido, a página da web inteira será rolada.

    Navigation.select (values, filtro)

    Selecione um ou mais valores válidos em um elemento de seleção.

    • valor - obrigatório, o um ou mais valores a serem selecionados.
    • filter - required, o filtro usado para identificar qual elemento de seleção selecionar.

    Navigation.stopScraping (abort)

    Pare de raspar imediatamente.

    • abort - opcional, se true interromper o processamento e não exportar ou transmitir nenhum resultado.

    Navigation.type (textos, filtro)

    Digite o texto into um elemento.

    • texto - obrigatório, um ou mais itens de texto a serem digitados.
    • filter - obrigatório, o filtro usado para identificar qual elemento digitar into.

    Navigation.wait (segundos)

    Aguarde alguns segundos antes de continuar. Isso é mais útil ao usar este clique, selecione e digite comandos.

    • segundos - necessário, o número de segundos para aguardar.

    Page.contains (localizar, atributo, filtro)

    Retorna true se a página contiver o texto a ser encontrado.

    • find - obrigatório, o texto a ser encontrado.
    • attribute - opcional, o atributo para pesquisar.
    • filter - opcional, o filtro usado para identificar em qual elemento pesquisar.

    Page.exists (filtro)

    Retorna true se a página contiver um elemento que corresponda ao filtro de pesquisa.

    • filter - obrigatório, o filtro usado para identificar qual elemento procurar.

    Page.getAuthor ()

    Obtém o autor da página, se um for especificado.


    Page.getDescription ()

    Obtém a descrição da página, se uma for especificada.


    Page.getFavIconUrl ()

    Obtém o URL FavIcon da página.


    Page.getHtml ()

    Obtém o HTML da página não processada.


    Page.getKeywords ()

    Obtém as palavras-chave da página que está sendo raspada.


    Page.getLastModified ()

    Obtém o horário em que a página da Web foi modificada pela última vez nos metadados da página ou nos cabeçalhos de resposta.


    Page.getPageNumber ()

    Obtém o número da página do URL atual que está sendo raspado.


    Page.getPreviousUrl (índice)

    Obtém o URL anterior, um -1 indica o último URL, enquanto um número menor indica um URL anterior.

    • index - opcional, o índice da página anterior a retornar. O padrão é -1.

    Page.getTagAttribute (atributo, filtro)

    Retorna o valor do atributo correspondente.

    • attribute - required, o atributo a ser pesquisado.
    • filter - opcional, o filtro usado para identificar qual elemento procurar.

    Page.getTagAttributes (atributo, filtro, linkedTo)

    Retorna os valores CSS correspondentes.

    • attribute - required, o atributo CSS a ser procurado.
    • filter - opcional, o filtro usado para identificar qual elemento procurar.
    • linkedTo - opcional, pela coluna à qual isso deve ser vinculado, para que os valores relativos sejam mantidos juntos.

    Page.getTagCSSAttribute (atributo, filtro)

    Retorna o valor CSS correspondente.

    • attribute - required, o atributo CSS a ser procurado.
    • filter - opcional, o filtro usado para identificar qual elemento procurar.

    Page.getTagCSSAttributes (atributo, filtro, linkedTo)

    Retorna os valores de atributo correspondentes.

    • attribute - required, o atributo a ser pesquisado.
    • filter - opcional, o filtro usado para identificar qual elemento procurar.
    • linkedTo - opcional, pela coluna à qual isso deve ser vinculado, para que os valores relativos sejam mantidos juntos.

    Page.getTagValue (filtro)

    Retorna o valor do elemento correspondente.

    • filter - opcional, o filtro usado para identificar quais elementos procurar.

    Page.getTagValues ​​(filtro, linkedTo)

    Retorna os valores do elemento correspondente.

    • filter - opcional, o filtro usado para identificar quais elementos procurar.
    • linkedTo - opcional, pela coluna à qual isso deve ser vinculado, para que os valores relativos sejam mantidos juntos.

    Page.getText ()

    Obtém o texto visível da página.


    Page.getTitle ()

    Obtém o título da página.


    Page.getUrl ()

    Obtém o URL da página.


    Page.getValueXPath (xpath)

    Retorna o valor que corresponde ao XPATH fornecido.

    • xpath - necessário, o XPATH para corresponder ao valor ou atributo do elemento.

    Page.getValuesXPath (xpath)

    Retorna os valores que correspondem ao XPATH fornecido.

    • xpath - necessário, o XPATH para corresponder aos valores ou atributos do elemento.

    Page.valid ()

    Retorna true se o URL que está sendo raspado no momento for uma página da web válida.


    Utility.Array.clean (valors)

    Retorna todos os valores não nulos e vazios da matriz de valores.

    • valores - necessário, passe qualquer matriz de valores para limpar.

    Utility.Array.contains (values)

    Retorna true se a agulha estiver na matriz do palheiro.

    • agulha - necessário, passe qualquer valor ou matriz de valores para encontrar.
    • palheiro - necessário, a matriz para procurar a agulha ou agulhas.

    Utility.Array.merge (array1, array2)

    Mescla duas matrizes intum substituindo um valor vazio ou nulo por um valor da segunda matriz. Ambas as matrizes devem ter o mesmo tamanho.

    • array1 - necessário, passe a matriz de valores para mesclar.
    • array2 - necessário, passe a matriz de valores para mesclar.

    Utility.Array.unique (values)

    Retorna os valores exclusivos da matriz de valores.

    • values ​​- required, passe qualquer matriz de valores para torná-lo único.

    Utility.Text.extractAddress (texto)

    Extrai o primeiro endereço de email dentro do parâmetro de texto especificado.

    • text - required, o texto para extrair um endereço de email.

    Utility.Text.extractAddresses (texto)

    Extrai todos os endereços de email do parâmetro de texto especificado.

    • text - required, o texto para extrair todos os endereços de email.

    Utility.Text.extractLocation (texto, idioma)

    Extrai automaticamente o primeiro local do parâmetro de texto especificado.

    • text - required, o texto para extrair o local.
    • idioma - opcional, o idioma do texto a ser extraído no formato ISO 639-1 de duas letras. O padrão é 'en'. Use 'auto' para tentar detectar automaticamente o idioma do texto.

    Utility.Text.extractLocations (texto, idioma)

    Extrai automaticamente locais de dentro do parâmetro de texto especificado.

    • text - required, o texto para extrair locais.
    • idioma - opcional, o idioma do texto a ser extraído no formato ISO 639-1 de duas letras. O padrão é 'en'. Use 'auto' para tentar detectar automaticamente o idioma do texto.

    Utility.Text.extractLanguageName (texto)

    Extrai automaticamente o idioma especificado de dentro do parâmetro de texto.

    • text - required, o texto para extrair o idioma.

    Utility.Text.extractLanguageCode (texto)

    Extrai automaticamente o idioma especificado de dentro do parâmetro de texto.

    • text - required, o texto para extrair o idioma.

    Utility.Text.extractName (texto, idioma)

    Extrai automaticamente o primeiro nome do parâmetro de texto especificado.

    • text - required, o texto para extrair o nome.
    • idioma - opcional, o idioma do texto a ser extraído no formato ISO 639-1 de duas letras. O padrão é 'en'. Use 'auto' para tentar detectar automaticamente o idioma do texto.

    Utility.Text.extractNames (texto, idioma)

    Extrai automaticamente nomes de dentro do parâmetro de texto especificado.

    • text - required, o texto para extrair o nome.
    • idioma - opcional, o idioma do texto a ser extraído no formato ISO 639-1 de duas letras. O padrão é 'en'. Use 'auto' para tentar detectar automaticamente o idioma do texto.

    Utility.Text.extractOrganization (texto, idioma)

    Extrai automaticamente a primeira organização de dentro do parâmetro de texto especificado.

    • text - required, o texto para extrair a organização.
    • idioma - opcional, o idioma do texto a ser extraído no formato ISO 639-1 de duas letras. O padrão é 'en'. Use 'auto' para tentar detectar automaticamente o idioma do texto.

    Utility.Text.extractOrganizations (texto, idioma)

    Extrai automaticamente as organizações de dentro do parâmetro de texto especificado.

    • text - required, o texto para extrair organizações.
    • idioma - opcional, o idioma do texto a ser extraído no formato ISO 639-1 de duas letras. O padrão é 'en'. Use 'auto' para tentar detectar automaticamente o idioma do texto.

    Utility.Text.extractSentiment (texto)

    Extrai automaticamente o sentimento de dentro do parâmetro de texto especificado.

    • text - required, o texto para extrair o sentimento.

    Utility.Image.extractText (urls, língua)

    Tenta usar o reconhecimento óptico de caracteres para extrair texto de qualquer imagem especificada.

    • url - obrigatório, transmita qualquer URL ou conjunto de URLs de imagens das quais você deseja extrair texto.
    • idioma - opcional, o idioma do texto a ser extraído no formato ISO 639-1 de duas letras. O padrão é 'en'.

    Utility.URL.addQueryStringParâmetro (urls, valor chave)

    Adicionar uma consultastring parâmetro para qualquer URL ou URLs.

    • url - obrigatório, passe qualquer URL ou matriz de URLs que você deseja adicionar uma consulta string parâmetro para.
    • key - obrigatório, a chave do parâmetro a ser adicionado.
    • valor - obrigatório, o valor do parâmetro a ser adicionado.

    Utility.URL.getQueryStringParâmetro (urls, chave)

    Obtém o valor de uma consultastring parâmetro de qualquer URL ou URLs.

    • url - obrigatório, passe qualquer URL ou matriz de URLs que você deseja ler a consultastring parâmetro de.
    • key - obrigatório, a chave do parâmetro para ler.

    Utility.URL.removeQueryStringParâmetro (urls, chave)

    Remover uma consultastring parâmetro de qualquer URL ou URLs.

    • url - obrigatório, transmita qualquer URL ou matriz de URLs que você deseja remover uma consultastring parâmetro de.
    • chave - necessária, a chave do parâmetro a ser removido.

    Utility.URL.exists (urls)

    Verifique se o URL ou os URLs realmente existem chamando cada URL.

    • url - obrigatório, transmita qualquer URL ou matriz de URLs que você deseja verificar.