Ferramentas para capturar e converter a Web

Como baixar um site e todo o seu conteúdo?

SITE

Há alguns casos em que é importante baixar um site inteiro, não apenas o resultado final. Mas páginas da web em HTML, recursos como CSS, scripts e imagens.

Talvez porque você queira um backup do código, mas não possa mais acessar a fonte original por algum motivo. Ou talvez você queira um registro detalhado de como um site mudou ao longo do tempo.

Felizmente, o Web Scraper da GrabzIt pode conseguir isso rastreando todas as páginas da Web em um site. Em cada página da Web, o raspador baixa o HTML junto com todos os recursos mencionados na página.

Criar uma raspar para baixar um site inteiro

Para tornar o download do seu site o mais fácil possível, o GrabzIt fornece um modelo de raspar.

Para começar carregar este modelo.

Em seguida, insira seu URL de destino, esse URL será verificado automaticamente quanto a erros e alterações necessárias. Mantenha o Iniciar automaticamente raspar marque a caixa de seleção e seu raspar será iniciado automaticamente.

Personalizando seu Raspar

Se você deseja alterar o modelo, desmarque a opção Iniciar automaticamente raspar caixa de seleção. Uma alteração seria executar o rascunho regularmente, por exemplo, para criar cópias regulares de um site. No Raspar agendamento guia, basta clicar no Repetir Raspagem marque a caixa de seleção e selecione a frequência com que deseja repetir o raspar. Então clique atualizar para começar a raspar.

Usando seu site baixado

Depois que o raspar terminar, você receberá um arquivo ZIP. Em seguida, extraia o arquivo ZIP e, dentro de um diretório chamado Arquivos, estarão todas as páginas da web e recursos do site baixados. Também haverá uma página HTML especial chamada data.html na raiz do diretório. Abra esse arquivo em um navegador da web e você encontrará uma tabela HTML com três colunas:

  • URL do recurso - esse é o URL no qual o raspador da Web encontrou o recurso. Por exemplo, http://www.example.com/logo.jog
  • Tipo de recurso - este é o tipo de recurso que foi baixado. Existem quatro tipos de recursos.
    • web Página
    • Imagem
    • Recurso externo - qualquer recurso baixado de uma tag Link
    • Script
  • Novo nome de arquivo - o novo nome de arquivo em que o recurso foi saved abaixo. Observe que essa coluna também contém um link para o arquivo, o que facilita a inspeção de todos os recursos baixados.

Este arquivo foi desenvolvido para ajudar a mapear os novos nomes de arquivos para seus locais antigos. Isso é necessário porque um URL não pode ser mapeado diretamente para uma estrutura de arquivo, pois ele pode ser muito grande para ser armazenado diretamente no caminho do arquivo.

Também pode haver muitas permutações, especialmente quando uma página da web pode representar muitos conteúdos diferentes, alterando várias consultas string parâmetros! Em vez disso, armazenamos o site em uma estrutura plana na pasta do arquivo e fornecemos o arquivo data.html para mapear esses arquivos para a estrutura original.

Obviamente, por causa disso, você não pode abrir uma página HTML baixada e espera ver a página da web que viu na web. Para fazer isso, você precisará reescrever os caminhos da imagem, script e recursos CSS, etc., para que o arquivo HTML possa encontrá-los na estrutura de arquivos local.

Outro arquivo que será incluído na raiz do arquivo ZIP é chamado Website.csv. Ele contém exatamente as mesmas informações que o arquivo data.html. No entanto, isso está incluído caso você queira ler e processar o download do site programaticamente, talvez usando o mapeamento dos URLs para os arquivos para recriar o site baixado.