Open Source Python Library för att bearbeta PDF-filer
Gratis Python API tillåter linjärisering av PDF-filer och åtkomst till krypterade PDF-filer. Det stöder att skapa PDF-filer från början, kopiera sidor från en PDF-fil till en annan, dela eller slå samman PDF-filer och många fler.
PikePDF är ett mycket enkelt Python PDF-bibliotek som låter mjukvaruutvecklare arbeta med PDF-filer i Python-applikationer. Det är baserat på QPDF, ett kraftfullt PDF-manipulerings- och reparationsbibliotek. PikePDF är ett bibliotek för transformation av PDF-innehåll och ger tillgång till PDF-filer på låg nivå. Detta innebär att användare behöver kunskap om PDF-interna funktioner och förtrogenhet med PDF-specifikationer. Biblioteket är öppen källkod och är tillgängligt under MIT-licensen för allmänt bruk. Biblioteket är öppen källkod och är tillgängligt under MPL-2.0-licensen.
PikePDF ger stöd för linjärisering av PDF-filer och åtkomst till krypterade PDF-filer. Den har inkluderat en mycket kraftfull uppsättning funktioner relaterad PDF-hantering som att skapa PDF från början, kopiera sidor från en PDF till en annan, dela eller slå samman PDF-filer, bild- eller textextraktion från PDF, ersätta innehåll i PDF, PDF-reparationsstöd, sida inställningsstöd, hantera PDF-metadata, arbeta med lösenordsskyddad, PDF XMP-metadataredigering, omvandling av befintliga PDF-filer och mycket mer.
.
Komma igång med PikePDF
PikePDF kräver Python 3.6 och högre. Du kan installera PikePDF med pip. Använd följande kommando för att installera det.
Installera PikePDF via pip
pip install pikepdf
Kopiera sidor från en PDF-fil till en annan via Python
PikePDF-biblioteket med öppen källkod ger möjligheten som gör det möjligt för mjukvaruutvecklare att kopiera sida från en PDF-fil till en annan med bara ett par rader Python-kod. Att kopiera sidor mellan PDF-objekt kommer att skapa en ytlig kopia av källsidan i mål-PDF-filen och därför kommer ändring av sidorna inte att påverka de ursprungliga PDF-dokumenten. Det är också möjligt att ersätta specifika sidor med anpassat innehåll. Det är också möjligt att kopiera sidor inom en viss PDF.
Öppna och manipulera PDF-dokument via Python
# PDF Documents Manipulation
from pikepdf import Pdf
new_pdf = Pdf.new()
with Pdf.open('sample.pdf') as pdf:
pdf.save('output.pdf')
# Copying pages from other PDFs
pdf = Pdf.open('../tests/resources/fourpages.pdf')
appendix = Pdf.open('../tests/resources/sandwich.pdf')
pdf.pages.extend(appendix.pages)
PDF-delning och sammanslagning via Python
PDF PikePDF-biblioteket ger mjukvaruutvecklare möjlighet att enkelt komma åt befintliga PDF-filer och dela upp dem i flera PDF-filer. När vi delar upp PDF behöver vi bara att de nya PDF-filerna måste innehålla målsidorna. Biblioteket ser också till att överföra data kopplade till varje sida, så att varje sida står för sig själv. Biblioteket inkluderade också stöd för att slå samman eller sammanfoga flera PDF-dokument till ett enda. Det är också möjligt att vända ordningen på PDF-sidorna med bara ett par rader kod.
Dela och slå samman PDF-dokument via Python
# PDF Splitting
pdf = Pdf.open('../tests/resources/fourpages.pdf')
for n, page in enumerate(pdf.pages):
dst = Pdf.new()
dst.pages.append(page)
dst.save(f'{n:02d}.pdf')
# Combine Multiple PDF pages into a single One
from glob import glob
pdf = Pdf.new()
for file in glob('*.pdf'):
src = Pdf.open(file)
pdf.pages.extend(src.pages)
pdf.save('merged.pdf')
Hantera bilder i PDF-dokument via Python
PDF PikePDF-biblioteket gör det enkelt för programutvecklare att hantera bilder i en PDF-fil med Python-kommandon. Biblioteket har inkluderat flera viktiga funktioner relaterade till bildhantering som att kopiera bilder på en PDF-sida, öppna och visa PDF, ändra storlek på bilder, manipulera bilder i en PDF, extrahera bilder från PDF, ersätta bilder, ta bort en bild från PDF och många fler .
Extrahera bild och ersätt den i PDF via Python
# Extract Image & Replace PDF Images
import zlib
rawimage = pdfimage.obj
pillowimage = pdfimage.as_pil_image()
greyscale = pillowimage.convert('L')
greyscale = greyscale.resize((32, 32))
rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
rawimage.ColorSpace = Name("/DeviceGray")
rawimage.Width, rawimage.Height = 32, 32
PDF-metadatahantering via Python
PDF-metadata innehåller mycket användbar information om ett PDF-dokument som författarens namn, datum för skapande och ändring, nyckelord, information om upphovsrätt och så vidare. PDF PikePDF-biblioteket har inkluderat komplett funktionalitet för att komma åt och läsa metadata, extrahera metadata, ta bort metadataposter från PDF-dokument. Följande kodexempel visar hur man extraherar metadata från PDF-dokument.
Hur man extraherar PDF-metadata via Python
# Extract PDF Metadata
import pikepdf
import sys
# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
print(key, ":", value)