Ferramentas para capturar e converter a Web

Como baixar um site e todo o seu conteúdo?

Website

Há alguns casos em que é importante baixar um site inteiro, não apenas o resultado final. Mas páginas da web em HTML, recursos como CSS, scripts e imagens.

Talvez porque você queira um backup do código, mas não possa mais acessar a fonte original por algum motivo. Ou talvez você queira um registro detalhado de como um site mudou ao longo do tempo.

Felizmente, o Web Scraper da GrabzIt pode conseguir isso rastreando todas as páginas da Web em um site. Em cada página da Web, o raspador baixa o HTML junto com todos os recursos mencionados na página.

Criar uma raspar para baixar um site inteiro

Para tornar o download do seu site o mais fácil possível, o GrabzIt fornece um modelo de raspar.

Para começar carregar este modelo.

Then enter your URL de destino, this URL is then automatically checked for errors and any required changes made. Keep the Automatically Start Scrape checkbox ticked, and your scrape will automatically start.

Customizing your Scrape

If you want to alter the template, uncheck the Automatically Start Scrape checkbox. One alteration would be to run the scrape on a regular schedule, for instance, to create regular copies of a website. On the Raspar agendamento tab, simply click the Repetir Raspagem checkbox and then select how frequently you want the scrape to repeat. Then click atualizar to start the scrape.

Usando seu site baixado

Depois que o raspar terminar, você receberá um arquivo ZIP. Em seguida, extraia o arquivo ZIP e, dentro de um diretório chamado Arquivos, estarão todas as páginas da web e recursos do site baixados. Também haverá uma página HTML especial chamada data.html na raiz do diretório. Abra esse arquivo em um navegador da web e você encontrará uma tabela HTML com três colunas:

  • URL do recurso - esse é o URL no qual o raspador da Web encontrou o recurso. Por exemplo, http://www.example.com/logo.jog
  • Tipo de recurso - este é o tipo de recurso que foi baixado. Existem quatro tipos de recursos.
    • web Página
    • Imagem
    • Recurso externo - qualquer recurso baixado de uma tag Link
    • Script
  • Novo nome de arquivo - o novo nome de arquivo em que o recurso foi saved abaixo. Observe que essa coluna também contém um link para o arquivo, o que facilita a inspeção de todos os recursos baixados.

Este arquivo foi desenvolvido para ajudar a mapear os novos nomes de arquivos para seus locais antigos. Isso é necessário porque um URL não pode ser mapeado diretamente para uma estrutura de arquivo, pois ele pode ser muito grande para ser armazenado diretamente no caminho do arquivo.

Também pode haver muitas permutações, especialmente quando uma página da web pode representar muitos conteúdos diferentes, alterando várias consultas string parâmetros! Em vez disso, armazenamos o site em uma estrutura plana na pasta do arquivo e fornecemos o arquivo data.html para mapear esses arquivos para a estrutura original.

Obviamente, por causa disso, você não pode abrir uma página HTML baixada e espera ver a página da web que viu na web. Para fazer isso, você precisará reescrever os caminhos da imagem, script e recursos CSS, etc., para que o arquivo HTML possa encontrá-los na estrutura de arquivos local.

Outro arquivo que será incluído na raiz do arquivo ZIP é chamado Website.csv. Ele contém exatamente as mesmas informações que o arquivo data.html. No entanto, isso está incluído caso você queira ler e processar o download do site programaticamente, talvez usando o mapeamento dos URLs para os arquivos para recriar o site baixado.