Sukurkite ir konvertuokite PDF į Docx naudodami atvirojo kodo Python biblioteką
Nemokama Python API, galinti kurti ir konvertuoti PDF dokumentus į DOCX, išanalizuoti ir iš naujo sukurti puslapio išdėstymą arba iš naujo sukurti pastraipą per Python biblioteką.
Yra daug Python bibliotekų, skirtų PDF dokumentams kurti ir apdoroti. AS Python laikoma geriausia PDF apdorojimo kalba, nes ji leidžia kurti taip lengvai ir greitai. pdf2docx yra viena iš tokių galingų atvirojo kodo Python bibliotekų, leidžiančių kompiuterių programuotojams lengvai kurti ir konvertuoti PDF dokumentus į Word DOCX failo formatą. Biblioteka yra labai paprasta valdyti ir turi paprastą grafinę sąsają, kuri leidžia vartotojams lengvai pasiekti ir naudoti įvairias bibliotekos funkcijas.
pdf2docx bibliotekoje yra įvairių funkcijų, skirtų PDF operacijoms tvarkyti, pavyzdžiui, pasiekti PDF dokumentus, konvertuoti PDF į kitus failų formatus, analizuoti ir iš naujo sukurti puslapio išdėstymą, puslapio paraštės palaikymą, metainformacijos ištraukimą, teksto ištraukimą iš PDF failų, analizavimą ir iš naujo. - pastraipos kūrimas, teksto įterpimas į PDF, sąrašo stilių palaikymas, išanalizuoti ir iš naujo sukurti vaizdą, skaidrus vaizdas, išanalizuoti ir iš naujo sukurti lentelę, sujungti langeliai, lentelė su iš dalies paslėptomis kraštinėmis, įdėtųjų lentelių palaikymas, puslapių analizavimas naudojant kelis apdorojimas ir daugelis kitų.
Darbo pradžia su pdf2docx
pdf2docx įdiegti labai paprasta. Geriausias būdas tai padaryti yra naudoti pip. Jei norite lengvai įdiegti, naudokite šią komandą.
Įdiekite pdf2docx per pip
pip install pdf2docx
Galima montuoti ir rankiniu būdu; atsisiųskite naujausius leidimo failus tiesiai iš GitHub saugyklos.
Konvertuokite PDF failą į Docx naudodami Python API
Atvirojo kodo pdf2docx biblioteka visiškai palaiko PDF failo konvertavimą į Docx failo formatą, naudojant tik kelias Python kodo eilutes. Biblioteka pateikė kelis PDF konvertavimo būdus. Galite konvertuoti visus dokumento puslapius arba pasirinkti kai kuriuos konkrečius puslapius ir konvertuoti juos į Docx failą. Biblioteka taip pat palaiko prieigą prie slaptažodžiu apsaugotų PDF dokumentų ir jų konvertavimą Python programose. Biblioteka taip pat palaiko daugialypį apdorojimą, kuris veikia tik nuolatiniams PDF puslapiams, nurodytiems tik pradžioje ir pabaigoje.
Konvertuokite visus PDF puslapius naudodami Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Konvertuokite nurodytus PDF puslapius į Docx naudodami Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Ištraukite lentelę iš PDF per Python API
Kartais mums reikia iš PDF failo išgauti kai kuriuos konkrečius duomenis. Nemokama pdf2docx biblioteka leidžia vartotojams išgauti lenteles iš PDF failų be jokių išorinių priklausomybių. Norėdami atlikti šią užduotį, turite naudoti funkciją extract_tables(). Toliau pateikti pavyzdžiai gali būti naudojami norint ištraukti visas lenteles iš PDF failo.
Išskleiskite PDF lentelę per Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Ištraukite visas lenteles iš PDF per Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)