Open Source Python Library สำหรับแปลงไฟล์ PDF
Python API ฟรีช่วยให้นักพัฒนาส่งออก หมุน ผสานและเชื่อมไฟล์ PDF แยกข้อมูลและองค์ประกอบจาก PDF
pdfrw เป็นไลบรารี Python แบบโอเพนซอร์สที่ให้นักพัฒนาซอฟต์แวร์สามารถอ่านและเขียนไฟล์ PDF โดยไม่ต้องติดตั้งซอฟต์แวร์พิเศษภายนอกใดๆ ไลบรารีการเขียนโปรแกรม pdfrw นั้นถึง ใช้ง่ายมาก และซอร์สโค้ดได้รับการจัดทำเป็นเอกสารอย่างดี เรียบง่าย และเข้าใจง่าย ไลบรารีได้รวมการสนับสนุน Unicode ที่เหมาะสมสำหรับสตริงข้อความใน PDF รวมถึงตัวแยกวิเคราะห์ Python PDF ที่เร็วที่สุด
ไลบรารี pdfrw รองรับการทำงาน PDF ที่สำคัญหลายอย่าง เช่น การรวม PDF การแก้ไขข้อมูลเมตา การรวมไฟล์ PDF หลายไฟล์เข้าด้วยกัน การแยกรูปภาพ การพิมพ์ PDF การหมุนหน้า PDF การสร้าง PDF ใหม่ การเพิ่มภาพ PDF ลายน้ำ และอื่นๆ อีกมากมาย
.
เริ่มต้นใช้งาน pdfrw
pdfrw ต้องใช้ Python 2.6, 2.7, 3.3, 3.4, 3.5 และ 3.6 คุณสามารถติดตั้ง pdfrw โดยใช้ pip โปรดใช้คำสั่งต่อไปนี้เพื่อติดตั้ง
ติดตั้ง pdfrw ผ่าน pip
python -m pip install pdfrw
สร้างเอกสาร PDF ผ่าน Python Library
ไลบรารี pdfrw ช่วยให้นักพัฒนาซอฟต์แวร์สามารถสร้างเอกสาร PDF ภายในแอปพลิเคชัน Python ของตนเองได้โดยใช้โค้ดเพียงไม่กี่บรรทัด ห้องสมุดยังให้การสนับสนุนการเข้าถึงและแก้ไขไฟล์ PDF ที่มีอยู่ คุณสามารถแทรกหน้าใหม่รวมถึงส่วนประกอบกราฟิกหรือองค์ประกอบข้อความลงใน PDF ที่มีอยู่ได้อย่างง่ายดาย ไลบรารี pdfrw ให้การสนับสนุนในการค้นหาหน้าในไฟล์ PDF ที่คุณอ่าน และเพื่อเขียนชุดของหน้ากลับไปยังไฟล์ PDF ใหม่
สร้างและแก้ไขเอกสาร PDF ผ่าน Python
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
การอ่านไฟล์ PDF ผ่าน Python
ไลบรารี pdfrw ช่วยให้นักพัฒนาซอฟต์แวร์สามารถเข้าถึงและอ่านส่วนต่างๆ ของเอกสาร PDF ภายในแอปพลิเคชัน Python ได้อย่างง่ายดาย ช่วยให้เข้าถึงเอกสาร PDF ทั้งหมดได้ง่าย ไลบรารีรองรับการดึงข้อมูลไฟล์ ขนาด และอื่นๆ มันสร้างหน้าชื่อแอตทริบิวต์พิเศษ ซึ่งช่วยให้ผู้ใช้สามารถแสดงรายการหน้าทั้งหมดของเอกสาร PDF ช่วยให้คุณสามารถแยกออบเจ็กต์ข้อมูลเอกสารที่คุณสามารถใช้เพื่อดึงข้อมูล เช่น ผู้แต่ง ชื่อเรื่อง ฯลฯ
เข้าถึงและอ่านไฟล์ PDF ผ่าน Python
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
การเพิ่มหรือแก้ไขข้อมูลเมตา
pdfrw ช่วยให้นักพัฒนาซอฟต์แวร์สามารถเพิ่มหรือแก้ไขข้อมูลเมตาของไฟล์ PDF ภายในแอปพลิเคชัน Python ของตนเองได้ คุณสามารถเปลี่ยนรายการข้อมูลเมตารายการเดียวใน PDF เขียนผลลัพธ์ลงใน PDF ใหม่ รวมทั้งรวมไฟล์หลายไฟล์ และต่อไฟล์เหล่านั้นหลังจากเพิ่มข้อมูลเมตาที่ไร้สาระลงในไฟล์ PDF ที่ส่งออก
แก้ไขข้อมูลเมตา PDF ผ่าน Python
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
การแยกเอกสาร PDF
pdfrw ช่วยให้นักพัฒนาซอฟต์แวร์สามารถแยกเอกสาร PDF Documents โดยทางโปรแกรมภายในแอปพลิเคชันของตน ผู้ใช้อาจต้องการแยกส่วนเฉพาะของหนังสือ PDF หรือแบ่งเป็น PDF หลายไฟล์แทนที่จะเก็บไว้ในไฟล์เดียว มันง่ายมากด้วยไลบรารี่ pdfrw คุณเพียงแค่ระบุพาธไฟล์ PDF อินพุต จำนวนหน้าที่คุณต้องการแยก และพาธเอาต์พุต
แยกไฟล์ PDF เป็นไฟล์ PDF หลายไฟล์ผ่าน Python
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')