Avoimen lähdekoodin Python-kirjasto PDF-tiedostojen muuntamiseen
Ilmainen Python API antaa kehittäjille mahdollisuuden viedä, kiertää, yhdistää ja ketjuttaa PDF-tiedostoja, poimia tietoja ja elementtejä PDF-tiedostoista.
pdfrw on avoimen lähdekoodin puhdas Python-kirjasto, jonka avulla ohjelmistokehittäjät voivat lukea ja kirjoittaa PDF-tiedostoja ilman ulkoisen erikoisohjelmiston asentamista. pdfrw-ohjelmointikirjasto on hyvin yksinkertainen käyttöinen, ja lähdekoodi on hyvin dokumentoitu, erittäin yksinkertainen ja helppo ymmärtää. Kirjastossa on kunnollinen Unicode-tuki PDF-tiedostojen tekstijonoille sekä nopein puhdas Python PDF -jäsennin.
pdfrw-kirjasto sisältää tuen useille tärkeille PDF-toiminnoille, kuten PDF-tiedostojen yhdistämiseen, metatietojen muokkaamiseen, useiden PDF-tiedostojen yhdistämiseen, kuvien purkamiseen, PDF-tulostukseen, PDF-sivujen pyörittämiseen, uuden PDF-tiedoston luomiseen, vesileiman PDF-kuvan lisäämiseen ja moniin muihin.
.
pdfrw:n käytön aloittaminen
pdfrw vaatii Python 2.6, 2.7, 3.3, 3.4, 3.5 ja 3.6. Voit asentaa pdfrw:n pip:llä. Käytä seuraavaa komentoa asentaaksesi sen.
Asenna pdfrw pipin kautta
python -m pip install pdfrw
Luo PDF-dokumentteja Python-kirjaston kautta
pdfrw-kirjasto tarjoaa ohjelmistokehittäjille mahdollisuuden luoda PDF-dokumentteja omissa Python-sovelluksissaan vain muutamalla koodirivillä. Kirjasto tarjoaa myös tukea olemassa olevien PDF-tiedostojen käyttämiseen ja muokkaamiseen. Voit helposti lisätä uusia sivuja sekä grafiikkakomponentteja tai tekstielementtejä olemassa olevaan PDF-tiedostoon. pdfrw-kirjasto tukee luettujen PDF-tiedostojen sivujen löytämistä ja sivujoukon kirjoittamista takaisin uudeksi PDF-tiedostoksi.
Luo ja muokkaa PDF-dokumentteja Pythonin kautta
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
PDF-tiedostojen lukeminen Pythonin kautta
pdfrw-kirjaston avulla ohjelmistokehittäjät voivat helposti käyttää ja lukea PDF-dokumenttien eri osia Python-sovelluksissa. Se tarjoaa helpon pääsyn koko PDF-dokumenttiin. Kirjasto tukee tiedostotietojen, koon ja muiden tietojen hakemista. Se luo erityisen attribuutin nimeltä pages, jonka avulla käyttäjät voivat luetella kaikki PDF-dokumentin sivut. Sen avulla voit poimia asiakirjatietoobjektin, jonka avulla voit vetää esiin tietoja, kuten tekijän, otsikon jne.
Käytä ja lue PDF-tiedostoja Pythonin kautta
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Metatietojen lisääminen tai muokkaaminen
pdfrw:n avulla ohjelmistokehittäjät voivat lisätä tai muokata PDF-tiedostojen metatietoja omissa Python-sovelluksissaan. Voit muuttaa yhtä PDF-tiedoston metatietokohdetta, kirjoittaa tuloksen uuteen PDF-tiedostoon sekä sisällyttää useita tiedostoja ja ketjuttaa ne lisättyäsi järjettömiä metatietoja tulostettavaan PDF-tiedostoon.
Muokkaa PDF-metatietoja Pythonilla
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
PDF-dokumenttien jakaminen
pdfrw:n avulla ohjelmistokehittäjät voivat ohjelmallisesti jakaa PDF-dokumentteja sovelluksissaan. Käyttäjä voi vaatia PDF-kirjan tietyn osan purkamista tai sen jakamista useisiin PDF-tiedostoihin sen sijaan, että tallentaisi ne yhteen tiedostoon. Se on erittäin helppoa pdfrw-kirjaston kanssa, sinun tarvitsee vain antaa syöte-PDF-tiedostopolku, purettavien sivujen määrä ja tulostuspolku.
Jaa PDF-tiedosto useiksi PDF-tiedostoiksi Pythonin kautta
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')