Creare e convertire da PDF a Docx tramite Open Source Python Library
Libero Python API in grado di creare e convertire PDF documenti in DOCX, Parke e ricreare layout pagina o ricreare paragrafo tramite Python Library.
Ci sono molte librerie Python per la creazione e l'elaborazione di PDF documenti. Un Python è considerato la lingua migliore per la gestione PDF elaborazione perché rende lo sviluppo così facile e veloce. pdf2doc è una così potente libreria Python open source che consente ai programmatori di computer di creare e convertire PDF documenti in formato di file Word DOCX con facilità. La libreria è molto semplice da gestire e ha un semplice UI che consente agli utenti di accedere facilmente e utilizzare varie caratteristiche della libreria.
La libreria pdf2doc ha incluso varie funzioni per la gestione di PDF operazioni come l'accesso a PDF documenti, la conversione di PDF in altri formati di file, la parsing e la ricreazione di pagine di testo
Iniziare con pdf2doc
pdf2doc è molto facile da installare, Il modo preferito è quello di utilizzare pip, si prega di utilizzare il seguente comando per qualsiasi installazione facile.
Installare pdf2doc tramite pip
pip install pdf2docx
È anche possibile installarlo manualmente; scarica i file dell'ultima versione direttamente dal repository GitHub.
Convertire PDF file a Docx via Python API
La libreria open source pdf2doc supporta completamente la conversione di file PDF in formato Docx con solo un paio di righe di codice Python. La biblioteca ha fornito diversi metodi per la gestione di PDF conversione. È possibile convertire tutte le pagine di un documento o selezionare alcune pagine specifiche e convertirle in un file Docx. La libreria supporta anche l'accesso e la conversione di PDF documenti protetti da password all'interno delle applicazioni Python. La libreria supporta anche la multi-elaborazione che funziona solo per PDF pagine continue, specificate solo per inizio e fine.
Convertire tutte le pagine di un PDF via Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Convertire Pagine specificate PDF a Docx tramite Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Tavolo estratto da PDF via Python API
A volte dobbiamo estrarre alcuni dati specifici da un file PDF. La libreria gratuita pdf2doc consente agli utenti di estrarre tabelle da PDF file senza dipendenze esterne. Per raggiungere questo compito è necessario utilizzare la funzione Extract_tables(). I seguenti esempi possono essere utilizzati per estrarre tutte le tabelle da un file PDF.
Estratto PDF Tabella via Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Estrarre tutte le tabelle da PDF via Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)