Ferramentas para capturar e converter a Web

Converta URLs e HTML em DOCX

API Python

Adicionando a capacidade de converter HTML ou páginas da web into Documentos do Word para seu aplicativo nunca foram tão fáceis com API Python do GrabzIt. No entanto, antes de começar, lembre-se de que depois de ligar para o URLToDOCX, HTMLToDOCX or FileToDOCX métodos os Save or SaveTo O método deve ser chamado para realmente criar o DOCX.

Opções Básicas

Capturar páginas da Web como DOCX converte a página da Web inteira into Um documento do Word que pode consistir em muitas páginas. Apenas um parâmetro é necessário para converter uma página da web into um documento do Word ou para converter HTML para DOCX como mostrado nos exemplos abaixo.

grabzIt.URLToDOCX("https://www.tesla.com")
# Then call the Save or SaveTo method
grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>")
# Then call the Save or SaveTo method
grabzIt.FileToDOCX("example.html")
# Then call the Save or SaveTo method

Identificador Personalizado

Você pode passar um identificador personalizado para o DOCX Como mostrado abaixo, esse valor é retornado ao seu manipulador GrabzIt Python. Por exemplo, esse identificador personalizado pode ser um identificador de banco de dados, permitindo que um documento DOCX seja associado a um registro específico do banco de dados.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.customId = "123456"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save method
grabzIt.Save("http://www.example.com/handler.py")

Cabeçalhos e rodapés

Para adicionar um cabeçalho ou rodapé a um documento do Word, você pode solicitar a aplicação de um determinado modelo para o DOCX sendo gerado. Este modelo deve ser saved com antecedência e especificará o conteúdo do cabeçalho e rodapé, juntamente com quaisquer variáveis ​​especiais. No código de exemplo abaixo, o usuário está usando um modelo criado por ele chamado "meu modelo".

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.URLToDOCX("https://www.tesla.com", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.HTMLToDOCX("<html><body><h1>Hello World!</h1></body></html>", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")
from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.templateId = "my template"

grabzIt.FileToDOCX("example.html", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")

Converter elemento HTML em DOCX

Se você deseja apenas converter um elemento HTML, como um div ou span, diretamente into Um documento do Word que você pode com a biblioteca Python do GrabzIt. Você deve passar o Seletor CSS do elemento HTML que você deseja converter para o targetElement método de GrabzItDOCXOptions classe.

...
<span id="Article">
<p>This is the content I am interested in.</p>
<img src="myimage.jpg">
</span>
...

Neste exemplo, queremos capturar todo o conteúdo no período que possui o ID de Article, portanto, passamos isso para a API GrabzIt, como mostrado abaixo.

from GrabzIt import GrabzItDOCXOptions
from GrabzIt import GrabzItClient

grabzIt = GrabzItClient.GrabzItClient("Sign in to view your Application Key", "Sign in to view your Application Secret")

options = GrabzItDOCXOptions.GrabzItDOCXOptions()
options.targetElement = "#Article"

grabzIt.URLToDOCX("http://www.bbc.co.uk/news", options)
# Then call the Save or SaveTo method
grabzIt.SaveTo("result.docx")