Atvirojo kodo Python biblioteka, skirta PDF failams konvertuoti
Nemokama Python API leidžia kūrėjams eksportuoti, pasukti, sujungti ir sujungti PDF failus, ištraukti duomenis ir elementus iš PDF.
pdfrw yra atvirojo kodo gryna Python biblioteka, leidžianti programinės įrangos kūrėjams skaityti ir rašyti PDF failus neįdiegiant jokios išorinės specialios programinės įrangos. pdfrw programavimo biblioteka yra labai paprastanaudoti, o šaltinio kodas yra gerai dokumentuotas, labai paprastas ir lengvai suprantamas. Bibliotekoje yra tinkamas Unicode palaikymas teksto eilutėms PDF rinkmenose, taip pat greičiausias grynas Python PDF analizatorius.
pdfrw biblioteka palaiko keletą svarbių PDF operacijų, tokių kaip PDF sujungimas, metaduomenų keitimas, kelių PDF sujungimas, vaizdų ištraukimas, PDF spausdinimas, PDF puslapių pasukimas, naujo PDF kūrimas, vandens ženklo PDF vaizdo pridėjimas ir daug daugiau.
.
Darbo su pdfrw pradžia
pdfrw reikia Python 2.6, 2.7, 3.3, 3.4, 3.5 ir 3.6. Galite įdiegti pdfrw naudodami pip. Norėdami ją įdiegti, naudokite šią komandą.
Įdiekite pdfrw per pip
python -m pip install pdfrw
Kurkite PDF dokumentus naudodami Python biblioteką
pdfrw biblioteka suteikia programinės įrangos kūrėjams galimybę kurti PDF dokumentus savo Python programose naudojant tik kelias kodo eilutes. Bibliotekoje taip pat teikiama pagalba norint pasiekti ir keisti esamus PDF failus. Į esamą PDF galite lengvai įterpti naujus puslapius, taip pat grafinius komponentus ar teksto elementus. pdfrw biblioteka teikia palaikymą ieškant puslapių PDF failuose, kuriuos skaitote, ir įrašyti puslapių rinkinį atgal į naują PDF failą.
Kurkite ir keiskite PDF dokumentus naudodami Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Skaityti PDF failus per Python
pdfrw biblioteka leidžia programinės įrangos kūrėjams lengvai pasiekti ir skaityti įvairias PDF dokumentų dalis Python programose. Tai suteikia lengvą prieigą prie viso PDF dokumento. Biblioteka palaiko failo informacijos, dydžio ir kt. gavimą. Jis sukuria specialų atributą pavadinimu puslapiai, kuris leidžia vartotojams išvardyti visus PDF dokumento puslapius. Tai leidžia išgauti dokumento informacijos objektą, kurį galite naudoti norėdami ištraukti tokią informaciją kaip autorius, pavadinimas ir kt.
Pasiekite ir skaitykite PDF failus naudodami Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Metaduomenų pridėjimas arba keitimas
pdfrw leidžia programinės įrangos kūrėjams pridėti arba modifikuoti PDF failų metaduomenis savo Python programose. Galite pakeisti vieną PDF failo metaduomenų elementą, įrašyti rezultatą į naują PDF failą, taip pat įtraukti kelis failus ir juos sujungti po to, kai į išvesties PDF failą įtrauksite kai kurių nesąmonių metaduomenų.
Keiskite PDF metaduomenis naudodami Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Pdf dokumentų skaidymas
pdfrw leidžia programinės įrangos kūrėjams programiškai suskaidyti PDF dokumentų dokumentus savo programose. Vartotojas gali reikalauti išgauti konkrečią PDF knygos dalį arba padalinti ją į kelis PDF failus, o ne saugoti juos viename faile. Tai labai paprasta naudojant pdfrw biblioteką, tereikia nurodyti įvesties PDF failo kelią, puslapių, kuriuos norite išgauti, skaičių ir išvesties kelią.
Padalinkite PDF failą į kelis PDF failus naudodami Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')