Open Source Python Library เพื่อประมวลผลไฟล์ PDF
Python API ฟรีช่วยให้ PDF เป็นแบบเส้นตรงและเข้าถึง PDF ที่เข้ารหัสได้ รองรับการสร้าง PDF ตั้งแต่เริ่มต้น การคัดลอกหน้าจาก PDF หนึ่งไปยังอีกไฟล์หนึ่ง แยกหรือรวม PDF และอื่นๆ อีกมากมาย
PikePDF เป็นไลบรารี Python PDF ที่เรียบง่ายมาก ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สามารถทำงานกับไฟล์ PDF ภายในแอปพลิเคชัน Python มันขึ้นอยู่กับ QPDF ซึ่งเป็นไลบรารีจัดการและซ่อมแซม PDF ที่ทรงพลัง PikePDF เป็นไลบรารีการแปลงเนื้อหา PDF และให้การเข้าถึงไฟล์ PDF ในระดับต่ำ ซึ่งหมายความว่าผู้ใช้ต้องการความรู้เกี่ยวกับ PDF ภายในและความคุ้นเคยกับข้อกำหนด PDF ห้องสมุดเป็นโอเพ่นซอร์สและอยู่ภายใต้ใบอนุญาต MIT สำหรับการใช้งานสาธารณะ ไลบรารีเป็นโอเพ่นซอร์สและอยู่ภายใต้ลิขสิทธิ์ MPL-2.0
PikePDF ให้การสนับสนุนสำหรับการทำให้ PDF เป็นเส้นตรงและการเข้าถึง PDF ที่เข้ารหัส ได้รวมชุดคุณสมบัติที่มีประสิทธิภาพมากซึ่งเกี่ยวข้องกับการจัดการ PDF เช่น การสร้าง PDF ตั้งแต่เริ่มต้น คัดลอกหน้าจาก PDF หนึ่งไปยังอีกไฟล์หนึ่ง แยกหรือรวมไฟล์ PDF การดึงรูปภาพหรือข้อความจาก PDF แทนที่เนื้อหาใน PDF การสนับสนุนการซ่อมแซม PDF หน้า รองรับการตั้งค่า, จัดการข้อมูลเมตา PDF, ทำงานกับการป้องกันด้วยรหัสผ่าน, การแก้ไขข้อมูลเมตา PDF XMP, การแปลงไฟล์ PDF ที่มีอยู่และอื่น ๆ อีกมากมาย
.
เริ่มต้นใช้งาน PikePDF
PikePDF ต้องใช้ Python 3.6 ขึ้นไป คุณสามารถติดตั้ง PikePDF โดยใช้ pip โปรดใช้คำสั่งต่อไปนี้เพื่อติดตั้ง
ติดตั้ง PikePDF ผ่าน pip
pip install pikepdf
คัดลอกหน้าจาก PDF หนึ่งไปยังอีกอันผ่าน Python
ไลบรารี PikePDF แบบโอเพ่นซอร์สมอบความสามารถที่ช่วยให้นักพัฒนาซอฟต์แวร์สามารถชำระเงินหน้าจาก PDF หนึ่งไปยังอีกไฟล์หนึ่งโดยใช้โค้ด Python เพียงไม่กี่บรรทัด การคัดลอกหน้าระหว่างออบเจ็กต์ PDF จะสร้างสำเนาหน้าต้นฉบับแบบตื้นภายในไฟล์ PDF เป้าหมาย ดังนั้นการแก้ไขหน้าจะไม่ส่งผลต่อเอกสาร PDF ต้นฉบับ นอกจากนี้ยังสามารถแทนที่หน้าเฉพาะด้วยเนื้อหาที่กำหนดเองได้ นอกจากนี้ยังสามารถคัดลอกหน้าใน PDF เฉพาะได้อีกด้วย
เปิดและจัดการเอกสาร PDF ผ่าน Python
# PDF Documents Manipulation
from pikepdf import Pdf
new_pdf = Pdf.new()
with Pdf.open('sample.pdf') as pdf:
pdf.save('output.pdf')
# Copying pages from other PDFs
pdf = Pdf.open('../tests/resources/fourpages.pdf')
appendix = Pdf.open('../tests/resources/sandwich.pdf')
pdf.pages.extend(appendix.pages)
การแยกและการรวม PDF ผ่าน Python
ไลบรารี PDF PikePDF ช่วยให้นักพัฒนาซอฟต์แวร์สามารถเข้าถึงไฟล์ PDF ที่มีอยู่และแบ่งออกเป็นไฟล์ PDF หลายไฟล์ได้อย่างง่ายดาย ในขณะที่แยก PDF สิ่งที่เราต้องการก็คือ PDF ใหม่ต้องมีหน้าปลายทาง ไลบรารียังทำให้แน่ใจว่าได้ถ่ายโอนข้อมูลที่เกี่ยวข้องกับแต่ละหน้า เพื่อให้ทุกหน้ามีอิสระ ห้องสมุดยังรองรับการรวมหรือเชื่อมเอกสาร PDF หลายฉบับเป็นไฟล์เดียว นอกจากนี้ยังสามารถย้อนกลับลำดับของหน้า PDF ได้ด้วยโค้ดเพียงไม่กี่บรรทัด
แยกและรวมเอกสาร PDF ผ่าน Python
# PDF Splitting
pdf = Pdf.open('../tests/resources/fourpages.pdf')
for n, page in enumerate(pdf.pages):
dst = Pdf.new()
dst.pages.append(page)
dst.save(f'{n:02d}.pdf')
# Combine Multiple PDF pages into a single One
from glob import glob
pdf = Pdf.new()
for file in glob('*.pdf'):
src = Pdf.open(file)
pdf.pages.extend(src.pages)
pdf.save('merged.pdf')
จัดการรูปภาพภายในเอกสาร PDF ผ่าน Python
ไลบรารี PDF PikePDF ทำให้นักพัฒนาซอฟต์แวร์จัดการรูปภาพภายในไฟล์ PDF ได้อย่างง่ายดายโดยใช้คำสั่ง Python ไลบรารีได้รวมฟังก์ชันสำคัญหลายอย่างที่เกี่ยวข้องกับการจัดการรูปภาพ เช่น การคัดลอกรูปภาพภายในหน้า PDF, เปิดและดู PDF, ปรับขนาดรูปภาพ, จัดการรูปภาพใน PDF, ดึงรูปภาพออกจาก PDF, แทนที่รูปภาพ, ลบรูปภาพจาก PDF และอื่นๆ อีกมากมาย .
แยกรูปภาพและแทนที่เป็น PDF ผ่าน Python
# Extract Image & Replace PDF Images
import zlib
rawimage = pdfimage.obj
pillowimage = pdfimage.as_pil_image()
greyscale = pillowimage.convert('L')
greyscale = greyscale.resize((32, 32))
rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
rawimage.ColorSpace = Name("/DeviceGray")
rawimage.Width, rawimage.Height = 32, 32
การจัดการข้อมูลเมตา PDF ผ่าน Python
ข้อมูลเมตา PDF ประกอบด้วยข้อมูลที่เป็นประโยชน์อย่างมากเกี่ยวกับเอกสาร PDF เช่น ชื่อผู้เขียน วันที่สร้างและแก้ไข คำหลัก ข้อมูลลิขสิทธิ์ และอื่นๆ ไลบรารี PDF PikePDF ได้รวมฟังก์ชันการทำงานที่สมบูรณ์สำหรับการเข้าถึงและการอ่านข้อมูลเมตา การแยกข้อมูลเมตา ลบรายการข้อมูลเมตาจากเอกสาร PDF ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการดึงข้อมูลเมตาจากเอกสาร PDF
วิธีแยกข้อมูลเมตา PDF ผ่าน Python
# Extract PDF Metadata
import pikepdf
import sys
# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
print(key, ":", value)