Pustaka Python Sumber Terbuka untuk Mengonversi File PDF
API Python Gratis memungkinkan Pengembang untuk Mengekspor, Memutar, Menggabungkan, dan Menggabungkan File PDF, Mengekstrak Data & Elemen dari PDF.
pdfrw adalah pustaka Python murni sumber terbuka yang memberi pengembang perangkat lunak untuk membaca dan menulis file PDF tanpa menginstal perangkat lunak khusus eksternal apa pun. Pustaka pemrograman pdfrw sangat sederhana untuk digunakan dan kode sumber didokumentasikan dengan baik, sangat sederhana, dan mudah dimengerti. Pustaka telah menyertakan dukungan Unicode yang tepat untuk string teks dalam PDF serta parser PDF Python murni tercepat.
Pustaka pdfrw mencakup dukungan untuk beberapa operasi PDF penting seperti menggabungkan PDF, memodifikasi metadata, menggabungkan beberapa PDF bersama-sama, mengekstraksi gambar, mencetak PDF, Memutar halaman PDF, Membuat PDF baru, Menambahkan gambar PDF watermark, dan banyak lagi.
.
Memulai dengan pdfrw
pdfrw membutuhkan Python 2.6, 2.7, 3.3, 3.4, 3.5, dan 3.6. Anda dapat menginstal pdfrw menggunakan pip. Silakan gunakan perintah berikut untuk menginstalnya.
Instal pdfrw melalui pip
python -m pip install pdfrw
Buat Dokumen PDF melalui Perpustakaan Python
Pustaka pdfrw memberi pengembang perangkat lunak kemampuan untuk membuat Buat Dokumen PDF di dalam aplikasi Python mereka sendiri hanya dengan beberapa baris kode. Pustaka juga menyediakan dukungan untuk mengakses dan memodifikasi file PDF yang ada. Anda dapat dengan mudah menyisipkan halaman baru serta komponen grafis atau elemen teks ke dalam PDF yang ada. Pustaka pdfrw menyediakan dukungan untuk menemukan halaman dalam file PDF yang Anda baca, dan untuk menulis satu set halaman kembali ke file PDF baru.
Buat & Ubah Dokumen PDF melalui Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Membaca File PDF melalui Python
Pustaka pdfrw memberi pengembang perangkat lunak untuk dengan mudah mengakses dan membaca berbagai bagian dokumen PDF di dalam aplikasi Python. Ini memberikan akses mudah ke seluruh dokumen PDF. Pustaka mendukung pengambilan informasi file, ukuran, dan lainnya. Ini menciptakan atribut khusus bernama halaman, yang memungkinkan pengguna untuk membuat daftar semua halaman dokumen PDF. Ini memungkinkan Anda mengekstrak objek informasi dokumen yang dapat Anda gunakan untuk mengeluarkan informasi seperti penulis, judul, dll.
Akses & Baca File PDF melalui Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Menambah atau Memodifikasi Metadata
pdfrw memungkinkan pengembang perangkat lunak untuk menambahkan atau memodifikasi metadata file PDF di dalam aplikasi Python mereka sendiri. Anda dapat mengubah satu item metadata dalam PDF, menulis hasilnya ke PDF baru serta dapat menyertakan banyak file, dan menggabungkannya setelah menambahkan beberapa metadata yang tidak masuk akal ke file PDF keluaran.
Ubah Metadata PDF melalui Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Memisahkan Dokumen PDF
pdfrw memungkinkan pengembang perangkat lunak untuk secara terprogram Membagi dokumen Dokumen PDF di dalam aplikasi mereka. Seorang pengguna mungkin perlu mengekstrak bagian tertentu dari buku PDF atau membaginya menjadi beberapa PDF alih-alih menyimpannya dalam satu file. Sangat mudah dengan pdfrw library, Anda hanya perlu memberikan input path file PDF, jumlah halaman yang ingin di extract, dan path outputnya.
Pisahkan File PDF ke Beberapa PDF melalui Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')