Ferramentas para capturar e converter a Web

Converta páginas da Web e HTML em PDFAPI Python

Ao converter páginas da web e HTML para PDF API Python do GrabzIt fornece os seguintes recursos que ajudam integrate GrabzIt into seu sistema o mais facilmente possível. No entanto, antes de começar, lembre-se de que depois de ligar para o URLToPDF, HTMLToPDF or FileToPDF métodos os Save or SaveTo O método deve ser chamado para obter a captura de tela do PDF.

Opções Básicas

Freqüentemente ao converter uma página da web intoum documento PDF, muitas páginas serão produzidas para representar a página da web inteira. Apenas um parâmetro é necessário para converter uma página da web intum documento PDF ou para converter HTML para PDF como mostrado nos exemplos abaixo.

grabzIt.URLToPDF("https://www.tesla.com")
# Then call the Save or SaveTo method
grabzIt.HTMLToPDF("<html><body><h1>Hello World!</h1></body></html>")
# Then call the Save or SaveTo method
grabzIt.FileToPDF("example.html")
# Then call the Save or SaveTo method

Identificador Personalizado

Você pode passar um identificador personalizado para o PDF Como mostrado abaixo, esse valor é retornado ao seu manipulador GrabzIt Python. Por exemplo, esse identificador personalizado pode ser um identificador de banco de dados, permitindo que uma captura de tela seja associada a um registro específico do banco de dados.

from GrabzIt import GrabzItPDFOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItPDFOptions.GrabzItPDFOptions()
options.customId = "123456"

grabzIt.URLToPDF("https://www.tesla.com", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItPDFOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItPDFOptions.GrabzItPDFOptions()
options.customId = "123456"

grabzIt.HTMLToPDF("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItPDFOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItPDFOptions.GrabzItPDFOptions()
options.customId = "123456"

grabzIt.FileToPDF("example.html", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")

Cabeçalhos e rodapés

Ao criar uma captura de tela em PDF, você pode solicitar a aplicação de um determinado modelo para o PDF gerado. Este modelo deve ser saved com antecedência e especificará o conteúdo do cabeçalho e rodapé, juntamente com quaisquer variáveis ​​especiais. No código de exemplo abaixo, o usuário está usando o modelo chamado "meu modelo".

Se não houver uma margem superior ou inferior suficientemente grande para o cabeçalho ou rodapé, respectivamente, ela não aparecerá no PDF. No exemplo abaixo, definimos as margens superior e inferior como 20 para fornecer bastante espaço.

from GrabzIt import GrabzItPDFOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItPDFOptions.GrabzItPDFOptions()
options.marginTop = 20
options.marginBottom = 20
options.templateId = "my template"

grabzIt.FileToPDF("example.html", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.pdf")

Converter elemento HTML em PDF

Se você deseja apenas converter um elemento HTML, como um div ou span, diretamente intum documento PDF que você pode com a biblioteca Python do GrabzIt. Você deve passar o Seletor CSS do elemento HTML que você deseja converter para o targetElement parâmetro.

...
<span id="Article">
<p>This is the content I am interested in.</p>
<img src="myimage.jpg">
</span>
...

Neste exemplo, queremos capturar todo o conteúdo no período que possui o ID de Article, portanto, passamos isso para o GrabzIt, como mostrado abaixo.

from GrabzIt import GrabzItPDFOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItPDFOptions.GrabzItPDFOptions()
options.targetElement = "#Article"

grabzIt.URLToPDF("http://www.bbc.co.uk/news", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.pdf")

Como um PDF é cortado ao segmentar um elemento HTML pode ser controlado usando essas técnicas.