Készítsen és konvertáljon PDF-Docx-at az Open Source Python könyvtáron keresztül
Ingyenes Python API képes létrehozni és átalakítani PDF dokumentumot DOCX, Parke és újra létrehozni oldal elrendezése vagy újra létrehozni a bekezdést a Python Könyvtáron keresztül.
Sok Python könyvtár van PDF dokumentum létrehozására és feldolgozására. A Python a legjobb nyelvnek tekinthető a PDF feldolgozás kezeléséhez, mert olyan egyszerű és gyors fejlődést eredményez. A pdf2doc egy olyan erős nyílt forráskódú Python könyvtár, amely lehetővé teszi a számítógépes programozók számára, hogy PDF dokumentumot hozhassanak létre a Word DOCX fájlformátumba. A könyvtár nagyon egyszerű kezelni és egy egyszerű UI-vel rendelkezik, amely lehetővé teszi a felhasználók számára, hogy könnyen hozzáférjenek és használhassák a könyvtár különböző jellemzőit.
A pdf2docx könyvtár különféle funkciókat tartalmaz a PDF-műveletek kezelésére, mint például a PDF dokumentumok elérése, a PDF konvertálása más fájlformátumokba, az oldalelrendezés elemzése és újralétrehozása, az oldalmargó-támogatás, a metainformációk kinyerése, a szöveg kinyerése a PDF fájlokból, az elemzés és újra. - bekezdés létrehozása, szöveg beszúrása PDF-be, listastílusok támogatása, kép elemzése és újrakészítése, átlátszó kép, táblázat elemzése és újbóli létrehozása, egyesített cellák, táblázat részben rejtett szegéllyel, beágyazott táblázatok támogatása, oldalak elemzése több funkcióval feldolgozás, és még sok más.
Kezdve a pdf2doc
pdf2doc nagyon könnyen telepíthető, Az előnyben részesített módja annak, hogy használja a pip, kérjük használja a következő parancsot bármilyen egyszerű telepítés.
Telepítse pdf2doc Pip
pip install pdf2docx
Lehetőség van manuális telepítésre is; töltse le a legújabb kiadású fájlokat közvetlenül a GitHub tárhelyről.
PDF fájl átalakítása Docx Python API-en keresztül
A nyílt forráskódú pdf2docx könyvtár teljes mértékben támogatja a PDF fájlok Docx fájlformátumba konvertálását, mindössze néhány sor Python kóddal. A könyvtár számos módszert kínál a PDF-konverzió kezelésére. A dokumentum összes oldalát konvertálhatja, vagy kiválaszthat néhány konkrét oldalt, és átalakíthatja azokat Docx-fájllá. A könyvtár emellett támogatja a jelszóval védett PDF dokumentumok elérését és konvertálását Python alkalmazásokon belül. A könyvtár támogatja a többszörös feldolgozást is, amely csak a folyamatos PDF-oldalakon működik, csak az elején és a végén.
Konvertáljon%PDFegy%PDFPDF%PDFoldalt%PDFPython%PDFAPI-on%PDFkeresztül
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Konvertáljon PDF oldalt Docx-re Pythononon keresztül
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Kivonat táblázat PDF-ből Python API-en keresztül
Néha bizonyos adatokat kell kivonnunk egy PDF fájlból. Az ingyenes pdf2doc könyvtár lehetővé teszi a felhasználók számára, hogy PDF fájlból kivonják az asztalokat külső függőségek nélkül. Ahhoz, hogy elérje ezt a feladatot, a kivonat_tables(%PDF funkciót kell használnia. A következő példák felhasználhatók az összes táblázat kivonására egy PDF fájlból.
Kivonat PDF asztalon keresztül Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Kivonja az összes asztalt PDF-ből Python API-en keresztül
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)