Perpustakaan Python Sumber Terbuka untuk Memproses Fail PDF
API Python Percuma membenarkan PDF yang dilinearkan dan mengakses PDF yang disulitkan. Ia menyokong penciptaan PDF dari awal, menyalin halaman daripada satu PDF ke yang lain, memisahkan atau menggabungkan PDF dan banyak lagi.
PikePDF ialah perpustakaan PDF Python yang sangat mudah yang membolehkan pembangun perisian bekerja dengan fail PDF dalam aplikasi Python. Ia berdasarkan QPDF, perpustakaan manipulasi dan pembaikan PDF yang berkuasa. PikePDF ialah perpustakaan transformasi kandungan PDF dan menyediakan akses peringkat rendah kepada fail PDF. Ini bermakna pengguna memerlukan pengetahuan tentang dalaman PDF dan kebiasaan dengan spesifikasi PDF. Perpustakaan adalah sumber terbuka dan boleh didapati di bawah lesen MIT untuk kegunaan awam. Perpustakaan ini adalah sumber terbuka dan boleh didapati di bawah Lesen MPL-2.0.
PikePDF menyediakan sokongan untuk membuat linearisasi PDF dan akses kepada PDF yang disulitkan. Ia telah memasukkan satu set ciri yang sangat berkuasa berkaitan pengurusan PDF seperti penciptaan PDF dari awal, menyalin halaman daripada satu PDF kepada yang lain, memisahkan atau menggabungkan PDF, pengekstrakan imej atau teks daripada PDF, menggantikan kandungan dalam PDF, sokongan pembaikan PDF, halaman sokongan tetapan, mengurus metadata PDF, bekerja dengan dilindungi kata laluan, penyuntingan metadata PDF XMP, transformasi PDF sedia ada dan banyak lagi.
.
Bermula dengan PikePDF
PikePDF memerlukan Python 3.6 dan lebih tinggi. Anda boleh memasang PikePDF menggunakan pip. Sila gunakan arahan berikut untuk memasangnya.
Pasang PikePDF melalui pip
pip install pikepdf
Salin Halaman dari Satu PDF ke Lain melalui Python
Pustaka PikePDF sumber terbuka menyediakan keupayaan yang membolehkan pembangun perisian membayar bersama halaman dari satu PDF ke yang lain dengan hanya beberapa baris kod Python. Menyalin halaman antara objek PDF akan membuat salinan cetek halaman sumber dalam fail PDF sasaran dan oleh itu mengubah suai halaman tidak akan menjejaskan dokumen PDF asal. Ia juga mungkin untuk menggantikan halaman tertentu dengan kandungan tersuai. Ia juga mungkin untuk menyalin halaman dalam PDF tertentu.
Buka & Manipulasi Dokumen PDF melalui Python
# PDF Documents Manipulation
from pikepdf import Pdf
new_pdf = Pdf.new()
with Pdf.open('sample.pdf') as pdf:
pdf.save('output.pdf')
# Copying pages from other PDFs
pdf = Pdf.open('../tests/resources/fourpages.pdf')
appendix = Pdf.open('../tests/resources/sandwich.pdf')
pdf.pages.extend(appendix.pages)
Pemisahan & Penggabungan PDF melalui Python
Pustaka PDF PikePDF memberikan pembangun perisian kuasa untuk mengakses fail PDF sedia ada dan membahagikannya kepada berbilang fail PDF dengan mudah. Semasa membahagikan PDF, yang kami perlukan ialah PDF baharu mesti menyimpan halaman destinasi. Perpustakaan juga memastikan untuk memindahkan data yang dikaitkan dengan setiap halaman, supaya setiap halaman berdiri sendiri. Perpustakaan juga termasuk sokongan untuk menggabungkan atau menggabungkan beberapa dokumen PDF menjadi satu. Ia juga mungkin untuk membalikkan susunan halaman PDF dengan hanya beberapa baris kod.
Pisahkan & Gabungkan Dokumen PDF melalui Python
# PDF Splitting
pdf = Pdf.open('../tests/resources/fourpages.pdf')
for n, page in enumerate(pdf.pages):
dst = Pdf.new()
dst.pages.append(page)
dst.save(f'{n:02d}.pdf')
# Combine Multiple PDF pages into a single One
from glob import glob
pdf = Pdf.new()
for file in glob('*.pdf'):
src = Pdf.open(file)
pdf.pages.extend(src.pages)
pdf.save('merged.pdf')
Urus Imej di dalam Dokumen PDF melalui Python
Pustaka PDF PikePDF memudahkan pembangun perisian mengendalikan imej di dalam fail PDF menggunakan arahan Python. Perpustakaan ini telah memasukkan beberapa fungsi penting yang berkaitan dengan pengendalian imej seperti menyalin imej dalam halaman PDF, membuka dan melihat PDF, mengubah saiz imej, memanipulasi imej dalam PDF, mengekstrak imej daripada PDF, menggantikan imej, memadam imej daripada PDF dan banyak lagi. .
Ekstrak Imej & Gantikannya dalam PDF melalui Python
# Extract Image & Replace PDF Images
import zlib
rawimage = pdfimage.obj
pillowimage = pdfimage.as_pil_image()
greyscale = pillowimage.convert('L')
greyscale = greyscale.resize((32, 32))
rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
rawimage.ColorSpace = Name("/DeviceGray")
rawimage.Width, rawimage.Height = 32, 32
Pengendalian Metadata PDF melalui Python
Metadata PDF termasuk maklumat yang sangat berguna tentang dokumen PDF seperti nama pengarang, tarikh penciptaan & pengubahsuaian, kata kunci, maklumat hak cipta dan sebagainya. Pustaka PDF PikePDF telah menyertakan fungsi lengkap untuk mengakses & membaca metadata, mengekstrak metadata, memadamkan entri metadata daripada dokumen PDF. Contoh kod berikut menunjukkan cara mengekstrak metadata daripada dokumen PDF.
Cara Mengekstrak Metadata PDF melalui Python
# Extract PDF Metadata
import pikepdf
import sys
# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
print(key, ":", value)