Ferramentas para capturar e converter a Web

Converta URLs e HTML em DOCXAPI Python

Adicionando a capacidade de converter HTML ou páginas da web into Documentos do Word para seu aplicativo nunca foram tão fáceis com API Python do GrabzIt. No entanto, antes de começar, lembre-se de que depois de ligar para o URLToDOCX, HTMLToDOCX or FileToDOCX métodos os Save or SaveTo O método deve ser chamado para realmente criar o DOCX.

Op√ß√Ķes B√°sicas

Capturar p√°ginas da Web como DOCX converte a p√°gina da Web inteira into Um documento do Word que pode consistir em muitas p√°ginas. Apenas um par√Ęmetro √© necess√°rio para converter uma p√°gina da web into um documento do Word ou para converter HTML para DOCX como mostrado nos exemplos abaixo.

grabzIt.URLToDOCX("https://www.tesla.com")
# Then call the Save or SaveTo method
grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>")
# Then call the Save or SaveTo method
grabzIt.FileToDOCX("example.html")
# Then call the Save or SaveTo method

Identificador Personalizado

Você pode passar um identificador personalizado para o DOCX Como mostrado abaixo, esse valor é retornado ao seu manipulador GrabzIt Python. Por exemplo, esse identificador personalizado pode ser um identificador de banco de dados, permitindo que um documento DOCX seja associado a um registro específico do banco de dados.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")

Cabeçalhos e rodapés

Para adicionar um cabe√ßalho ou rodap√© a um documento do Word, voc√™ pode solicitar a aplica√ß√£o de um determinado modelo para o DOCX sendo gerado. Este modelo deve ser saved com anteced√™ncia e especificar√° o conte√ļdo do cabe√ßalho e rodap√©, juntamente com quaisquer vari√°veis ‚Äč‚Äčespeciais. No c√≥digo de exemplo abaixo, o usu√°rio est√° usando um modelo criado por ele chamado "meu modelo".

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")

Converter elemento HTML em DOCX

Se você deseja apenas converter um elemento HTML, como um div ou span, diretamente into Um documento do Word que você pode com a biblioteca Python do GrabzIt. Você deve passar o Seletor CSS do elemento HTML que você deseja converter para o targetElement método de GrabzItDOCXOptions classe.

...
<span id="Article">
<p>This is the content I am interested in.</p>
<img src="myimage.jpg">
</span>
...

Neste exemplo, queremos capturar todo o conte√ļdo no per√≠odo que possui o ID de Article, portanto, passamos isso para a API GrabzIt, como mostrado abaixo.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.targetElement = "#Article"

grabzIt.URLToDOCX("http://www.bbc.co.uk/news", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")