Open Source Python Library เพื่อประมวลผลไฟล์ PDF

Python API ฟรีช่วยให้ PDF เป็นแบบเส้นตรงและเข้าถึง PDF ที่เข้ารหัสได้ รองรับการสร้าง PDF ตั้งแต่เริ่มต้น การคัดลอกหน้าจาก PDF หนึ่งไปยังอีกไฟล์หนึ่ง แยกหรือรวม PDF และอื่นๆ อีกมากมาย

PikePDF เป็นไลบรารี Python PDF ที่เรียบง่ายมาก ซึ่งช่วยให้นักพัฒนาซอฟต์แวร์สามารถทำงานกับไฟล์ PDF ภายในแอปพลิเคชัน Python มันขึ้นอยู่กับ QPDF ซึ่งเป็นไลบรารีจัดการและซ่อมแซม PDF ที่ทรงพลัง PikePDF เป็นไลบรารีการแปลงเนื้อหา PDF และให้การเข้าถึงไฟล์ PDF ในระดับต่ำ ซึ่งหมายความว่าผู้ใช้ต้องการความรู้เกี่ยวกับ PDF ภายในและความคุ้นเคยกับข้อกำหนด PDF ห้องสมุดเป็นโอเพ่นซอร์สและอยู่ภายใต้ใบอนุญาต MIT สำหรับการใช้งานสาธารณะ ไลบรารีเป็นโอเพ่นซอร์สและอยู่ภายใต้ลิขสิทธิ์ MPL-2.0

PikePDF ให้การสนับสนุนสำหรับการทำให้ PDF เป็นเส้นตรงและการเข้าถึง PDF ที่เข้ารหัส ได้รวมชุดคุณสมบัติที่มีประสิทธิภาพมากซึ่งเกี่ยวข้องกับการจัดการ PDF เช่น การสร้าง PDF ตั้งแต่เริ่มต้น คัดลอกหน้าจาก PDF หนึ่งไปยังอีกไฟล์หนึ่ง แยกหรือรวมไฟล์ PDF การดึงรูปภาพหรือข้อความจาก PDF แทนที่เนื้อหาใน PDF การสนับสนุนการซ่อมแซม PDF หน้า รองรับการตั้งค่า, จัดการข้อมูลเมตา PDF, ทำงานกับการป้องกันด้วยรหัสผ่าน, การแก้ไขข้อมูลเมตา PDF XMP, การแปลงไฟล์ PDF ที่มีอยู่และอื่น ๆ อีกมากมาย

.

Previous Next

เริ่มต้นใช้งาน PikePDF

PikePDF ต้องใช้ Python 3.6 ขึ้นไป คุณสามารถติดตั้ง PikePDF โดยใช้ pip โปรดใช้คำสั่งต่อไปนี้เพื่อติดตั้ง

ติดตั้ง PikePDF ผ่าน pip

 pip install pikepdf

คัดลอกหน้าจาก PDF หนึ่งไปยังอีกอันผ่าน Python

ไลบรารี PikePDF แบบโอเพ่นซอร์สมอบความสามารถที่ช่วยให้นักพัฒนาซอฟต์แวร์สามารถชำระเงินหน้าจาก PDF หนึ่งไปยังอีกไฟล์หนึ่งโดยใช้โค้ด Python เพียงไม่กี่บรรทัด การคัดลอกหน้าระหว่างออบเจ็กต์ PDF จะสร้างสำเนาหน้าต้นฉบับแบบตื้นภายในไฟล์ PDF เป้าหมาย ดังนั้นการแก้ไขหน้าจะไม่ส่งผลต่อเอกสาร PDF ต้นฉบับ นอกจากนี้ยังสามารถแทนที่หน้าเฉพาะด้วยเนื้อหาที่กำหนดเองได้ นอกจากนี้ยังสามารถคัดลอกหน้าใน PDF เฉพาะได้อีกด้วย

เปิดและจัดการเอกสาร PDF ผ่าน Python

 # PDF Documents Manipulation 
  from pikepdf import Pdf
  new_pdf = Pdf.new()
  with Pdf.open('sample.pdf') as pdf:
    pdf.save('output.pdf') 
   # Copying pages from other PDFs
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  appendix = Pdf.open('../tests/resources/sandwich.pdf')
  pdf.pages.extend(appendix.pages)

การแยกและการรวม PDF ผ่าน Python

ไลบรารี PDF PikePDF ช่วยให้นักพัฒนาซอฟต์แวร์สามารถเข้าถึงไฟล์ PDF ที่มีอยู่และแบ่งออกเป็นไฟล์ PDF หลายไฟล์ได้อย่างง่ายดาย ในขณะที่แยก PDF สิ่งที่เราต้องการก็คือ PDF ใหม่ต้องมีหน้าปลายทาง ไลบรารียังทำให้แน่ใจว่าได้ถ่ายโอนข้อมูลที่เกี่ยวข้องกับแต่ละหน้า เพื่อให้ทุกหน้ามีอิสระ ห้องสมุดยังรองรับการรวมหรือเชื่อมเอกสาร PDF หลายฉบับเป็นไฟล์เดียว นอกจากนี้ยังสามารถย้อนกลับลำดับของหน้า PDF ได้ด้วยโค้ดเพียงไม่กี่บรรทัด

แยกและรวมเอกสาร PDF ผ่าน Python

 # PDF Splitting
  pdf = Pdf.open('../tests/resources/fourpages.pdf')
  for n, page in enumerate(pdf.pages):
  dst = Pdf.new()
  dst.pages.append(page)
  dst.save(f'{n:02d}.pdf')
  # Combine Multiple PDF pages into a single One
  from glob import glob
  pdf = Pdf.new()
  for file in glob('*.pdf'):
  src = Pdf.open(file)
  pdf.pages.extend(src.pages)
  pdf.save('merged.pdf')

จัดการรูปภาพภายในเอกสาร PDF ผ่าน Python

ไลบรารี PDF PikePDF ทำให้นักพัฒนาซอฟต์แวร์จัดการรูปภาพภายในไฟล์ PDF ได้อย่างง่ายดายโดยใช้คำสั่ง Python ไลบรารีได้รวมฟังก์ชันสำคัญหลายอย่างที่เกี่ยวข้องกับการจัดการรูปภาพ เช่น การคัดลอกรูปภาพภายในหน้า PDF, เปิดและดู PDF, ปรับขนาดรูปภาพ, จัดการรูปภาพใน PDF, ดึงรูปภาพออกจาก PDF, แทนที่รูปภาพ, ลบรูปภาพจาก PDF และอื่นๆ อีกมากมาย .

แยกรูปภาพและแทนที่เป็น PDF ผ่าน Python

 # Extract Image & Replace PDF Images
  import zlib
  rawimage = pdfimage.obj
  pillowimage = pdfimage.as_pil_image()
  greyscale = pillowimage.convert('L')
  greyscale = greyscale.resize((32, 32))
  rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
  rawimage.ColorSpace = Name("/DeviceGray")
  rawimage.Width, rawimage.Height = 32, 32

การจัดการข้อมูลเมตา PDF ผ่าน Python

ข้อมูลเมตา PDF ประกอบด้วยข้อมูลที่เป็นประโยชน์อย่างมากเกี่ยวกับเอกสาร PDF เช่น ชื่อผู้เขียน วันที่สร้างและแก้ไข คำหลัก ข้อมูลลิขสิทธิ์ และอื่นๆ ไลบรารี PDF PikePDF ได้รวมฟังก์ชันการทำงานที่สมบูรณ์สำหรับการเข้าถึงและการอ่านข้อมูลเมตา การแยกข้อมูลเมตา ลบรายการข้อมูลเมตาจากเอกสาร PDF ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการดึงข้อมูลเมตาจากเอกสาร PDF

วิธีแยกข้อมูลเมตา PDF ผ่าน Python

 # Extract PDF Metadata
  import pikepdf
  import sys
  # get the target pdf file from the command-line arguments
  pdf_filename = sys.argv[1]
  # read the pdf file
  pdf = pikepdf.Pdf.open(pdf_filename)
  docinfo = pdf.docinfo
  for key, value in docinfo.items():
    print(key, ":", value)
 ไทย