Pustaka Python Sumber Terbuka untuk Menukar Fail PDF
API Python Percuma membolehkan Pembangun Mengeksport, Memutar, Menggabung dan Menggabungkan Fail PDF, Mengekstrak Data & Elemen daripada PDF.
pdfrw ialah perpustakaan Python tulen sumber terbuka yang memberikan pembangun perisian membaca dan menulis fail PDF tanpa memasang sebarang perisian khas luaran. Pustaka pengaturcaraan pdfrw sangat mudahuntuk digunakan dan kod sumber didokumentasikan dengan baik, sangat mudah dan mudah difahami. Perpustakaan ini telah menyertakan sokongan Unicode yang betul untuk rentetan teks dalam PDF serta penghurai PDF Python tulen terpantas.
Perpustakaan pdfrw termasuk sokongan untuk beberapa operasi PDF yang penting seperti menggabungkan PDF, mengubah suai metadata, menggabungkan berbilang PDF bersama, mengekstrak imej, percetakan PDF, Memusing halaman PDF, Mencipta PDF baharu, Menambah imej PDF tera air dan banyak lagi.
.
Bermula dengan pdfrw
pdfrw memerlukan Python 2.6, 2.7, 3.3, 3.4, 3.5, dan 3.6. Anda boleh memasang pdfrw menggunakan pip. Sila gunakan arahan berikut untuk memasangnya.
Pasang pdfrw melalui pip
python -m pip install pdfrw
Cipta Dokumen PDF melalui Perpustakaan Python
Perpustakaan pdfrw menyediakan pembangun perisian keupayaan untuk mencipta Buat Dokumen PDF di dalam aplikasi Python mereka sendiri dengan hanya beberapa baris kod. Perpustakaan juga menyediakan sokongan untuk mengakses dan mengubah suai fail PDF sedia ada. Anda boleh dengan mudah memasukkan halaman baharu serta komponen grafik atau elemen teks ke dalam PDF sedia ada. Perpustakaan pdfrw menyediakan sokongan untuk mencari halaman dalam fail PDF yang anda baca, dan untuk menulis satu set halaman kembali ke fail PDF baharu.
Cipta & Ubah Dokumen PDF melalui Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Membaca Fail PDF melalui Python
Perpustakaan pdfrw memberikan pembangun perisian untuk mengakses dan membaca bahagian dokumen PDF yang berlainan di dalam aplikasi Python dengan mudah. Ia memberikan akses mudah kepada keseluruhan dokumen PDF. Pustaka menyokong mendapatkan semula maklumat fail, saiz dan banyak lagi. Ia mencipta atribut khas bernama halaman, yang membolehkan pengguna menyenaraikan semua halaman dokumen PDF. Ia membolehkan anda mengekstrak objek maklumat dokumen yang boleh anda gunakan untuk mengeluarkan maklumat seperti pengarang, tajuk, dsb.
Akses & Baca Fail PDF melalui Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
Menambah atau Mengubah Metadata
pdfrw membenarkan pembangun perisian menambah atau mengubah suai metadata fail PDF di dalam aplikasi Python mereka sendiri. Anda boleh mengubah satu item metadata dalam PDF, menulis hasilnya ke PDF baharu serta boleh memasukkan berbilang fail dan menggabungkannya selepas menambah beberapa metadata yang tidak masuk akal pada fail PDF output.
Ubah suai Metadata PDF melalui Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
Membahagikan Dokumen PDF
pdfrw membenarkan pembangun perisian untuk Membahagikan dokumen Dokumen PDF secara pemrograman di dalam aplikasi mereka. Pengguna mungkin memerlukan mengekstrak bahagian tertentu buku PDF atau membahagikannya kepada berbilang PDF dan bukannya menyimpannya dalam satu fail. Ia sangat mudah dengan perpustakaan pdfrw, anda hanya perlu menyediakan laluan fail PDF input, bilangan halaman yang anda ingin ekstrak, dan laluan output.
Pisahkan Fail PDF kepada Berbilang PDF melalui Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')