Open Source Python Library untuk Memproses File PDF
API Python gratis memungkinkan linearisasi PDF dan mengakses PDF terenkripsi. Ini mendukung pembuatan PDF dari awal, menyalin halaman dari satu PDF ke PDF lainnya, membagi atau menggabungkan PDF, dan banyak lagi.
PikePDF adalah pustaka Python PDF yang sangat sederhana yang memungkinkan pengembang perangkat lunak untuk bekerja dengan file PDF di dalam aplikasi Python. Ini didasarkan pada QPDF, perpustakaan manipulasi dan perbaikan PDF yang kuat. PikePDF adalah perpustakaan transformasi konten PDF dan menyediakan akses tingkat rendah ke file PDF. Ini berarti pengguna membutuhkan pengetahuan tentang internal PDF dan keakraban dengan spesifikasi PDF. Perpustakaan adalah open source dan tersedia di bawah lisensi MIT untuk penggunaan umum. Perpustakaan adalah open source dan tersedia di bawah Lisensi MPL-2.0.
PikePDF menyediakan dukungan untuk linearisasi PDF dan akses ke PDF terenkripsi. Ini telah menyertakan serangkaian fitur yang sangat kuat terkait manajemen PDF seperti pembuatan PDF dari awal, menyalin halaman dari satu PDF ke PDF lainnya, membagi atau menggabungkan PDF, ekstraksi gambar atau teks dari PDF, mengganti konten dalam PDF, dukungan perbaikan PDF, halaman dukungan pengaturan, mengelola metadata PDF, bekerja dengan perlindungan kata sandi, pengeditan metadata XMP PDF, transformasi PDF yang ada, dan banyak lagi.
.
Memulai dengan PikePDF
PikePDF membutuhkan Python 3.6 dan lebih tinggi. Anda dapat menginstal PikePDF menggunakan pip. Silakan gunakan perintah berikut untuk menginstalnya.
Instal PikePDF melalui pip
pip install pikepdf
Salin Halaman dari Satu PDF ke Lainnya melalui Python
Pustaka PikePDF open source menyediakan kemampuan yang memungkinkan pengembang perangkat lunak untuk melakukan copay halaman dari satu PDF ke PDF lainnya hanya dengan beberapa baris kode Python. Menyalin halaman di antara objek PDF akan membuat salinan dangkal dari halaman sumber dalam file PDF target dan oleh karena itu memodifikasi halaman tidak akan memengaruhi dokumen PDF asli. Dimungkinkan juga untuk mengganti halaman tertentu dengan konten khusus. Dimungkinkan juga untuk menyalin halaman dalam PDF tertentu.
Buka & Manipulasi Dokumen PDF melalui Python
# PDF Documents Manipulation
from pikepdf import Pdf
new_pdf = Pdf.new()
with Pdf.open('sample.pdf') as pdf:
pdf.save('output.pdf')
# Copying pages from other PDFs
pdf = Pdf.open('../tests/resources/fourpages.pdf')
appendix = Pdf.open('../tests/resources/sandwich.pdf')
pdf.pages.extend(appendix.pages)
Pemisahan & Penggabungan PDF melalui Python
Pustaka PDF PikePDF memberi pengembang perangkat lunak kekuatan untuk mengakses file PDF yang ada dan membaginya menjadi beberapa file PDF dengan mudah. Saat memisahkan PDF, yang kami butuhkan hanyalah PDF baru harus menampung halaman tujuan. Pustaka juga memastikan untuk mentransfer data yang terkait dengan setiap halaman, sehingga setiap halaman berdiri sendiri. Pustaka juga menyertakan dukungan untuk menggabungkan atau menggabungkan beberapa dokumen PDF menjadi satu. Anda juga dapat membalik urutan halaman PDF hanya dengan beberapa baris kode.
Pisahkan & Gabungkan Dokumen PDF melalui Python
# PDF Splitting
pdf = Pdf.open('../tests/resources/fourpages.pdf')
for n, page in enumerate(pdf.pages):
dst = Pdf.new()
dst.pages.append(page)
dst.save(f'{n:02d}.pdf')
# Combine Multiple PDF pages into a single One
from glob import glob
pdf = Pdf.new()
for file in glob('*.pdf'):
src = Pdf.open(file)
pdf.pages.extend(src.pages)
pdf.save('merged.pdf')
Kelola Gambar di dalam Dokumen PDF melalui Python
Pustaka PDF PikePDF memudahkan pengembang perangkat lunak untuk menangani gambar di dalam file PDF menggunakan perintah Python. Pustaka telah menyertakan beberapa fungsi penting yang terkait dengan penanganan gambar seperti menyalin gambar dalam halaman PDF, membuka dan melihat PDF, mengubah ukuran gambar, memanipulasi gambar dalam PDF, mengekstrak gambar dari PDF, mengganti gambar, menghapus gambar dari PDF, dan banyak lagi. .
Ekstrak Gambar & Ganti dalam PDF melalui Python
# Extract Image & Replace PDF Images
import zlib
rawimage = pdfimage.obj
pillowimage = pdfimage.as_pil_image()
greyscale = pillowimage.convert('L')
greyscale = greyscale.resize((32, 32))
rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
rawimage.ColorSpace = Name("/DeviceGray")
rawimage.Width, rawimage.Height = 32, 32
Penanganan Metadata PDF melalui Python
Metadata PDF mencakup informasi yang sangat berguna tentang dokumen PDF seperti nama penulis, tanggal pembuatan & modifikasi, kata kunci, informasi hak cipta, dan sebagainya. Pustaka PDF PikePDF telah menyertakan fungsionalitas lengkap untuk mengakses & membaca metadata, mengekstrak metadata, menghapus entri metadata dari dokumen PDF. Contoh kode berikut menunjukkan cara mengekstrak metadata dari dokumen PDF.
Cara Mengekstrak Metadata PDF melalui Python
# Extract PDF Metadata
import pikepdf
import sys
# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
print(key, ":", value)