पीडीएफ फाइलों को प्रोसेस करने के लिए ओपन सोर्स पायथन लाइब्रेरी
फ्री पायथन एपीआई पीडीएफ को रैखिक बनाने और एन्क्रिप्टेड पीडीएफ तक पहुंचने की अनुमति देता है। यह शुरू से ही पीडीएफ निर्माण का समर्थन करता है, पृष्ठों को एक पीडीएफ से दूसरे में कॉपी करता है, पीडीएफ को विभाजित या मर्ज करता है और बहुत कुछ।
पाइकपीडीएफ एक बहुत ही सरल पायथन पीडीएफ पुस्तकालय है जो सॉफ्टवेयर डेवलपर्स को पायथन अनुप्रयोगों के अंदर पीडीएफ फाइलों के साथ काम करने की अनुमति देता है। यह QPDF पर आधारित है, जो एक शक्तिशाली पीडीएफ हेरफेर और मरम्मत पुस्तकालय है। पाइकपीडीएफ एक पीडीएफ सामग्री परिवर्तन पुस्तकालय है और पीडीएफ फाइलों तक निम्न-स्तरीय पहुंच प्रदान करता है। इसका मतलब है कि उपयोगकर्ताओं को पीडीएफ आंतरिक के ज्ञान और पीडीएफ विनिर्देशों के साथ परिचित होना चाहिए। पुस्तकालय खुला स्रोत है और सार्वजनिक उपयोग के लिए एमआईटी लाइसेंस के तहत उपलब्ध है। पुस्तकालय खुला स्रोत है और एमपीएल-2.0 लाइसेंस के तहत उपलब्ध है।
पाइकपीडीएफ पीडीएफ को रैखिक बनाने और एन्क्रिप्टेड पीडीएफ तक पहुंच के लिए समर्थन प्रदान करता है। इसमें पीडीएफ प्रबंधन से संबंधित सुविधाओं का एक बहुत शक्तिशाली सेट शामिल है जैसे कि स्क्रैच से पीडीएफ निर्माण, एक पीडीएफ से दूसरे में पेज कॉपी करना, पीडीएफ को विभाजित या मर्ज करना, पीडीएफ से इमेज या टेक्स्ट एक्सट्रैक्शन, पीडीएफ में कंटेंट को बदलना, पीडीएफ रिपेयरिंग सपोर्ट, पेज सेटिंग्स का समर्थन, पीडीएफ मेटाडेटा का प्रबंधन, पासवर्ड से सुरक्षित, पीडीएफ एक्सएमपी मेटाडेटा संपादन, मौजूदा पीडीएफ के परिवर्तन और अन्य लोगों के साथ काम करें।
.
पाइकपीडीएफ के साथ शुरुआत करना
पाइकपीडीएफ को पायथन 3.6 और उच्चतर की आवश्यकता है। आप पाइप का उपयोग करके पाइकपीडीएफ स्थापित कर सकते हैं। कृपया इसे स्थापित करने के लिए निम्न आदेश का उपयोग करें।
पाइप के माध्यम से पाइकपीडीएफ स्थापित करें
pip install pikepdf
पायथन के माध्यम से एक पीडीएफ से दूसरे में पेज कॉपी करें
ओपन सोर्स पाइकपीडीएफ लाइब्रेरी वह क्षमता प्रदान करती है जो सॉफ्टवेयर डेवलपर्स को एक पीडीएफ से दूसरे में पेज को कॉपी करने में सक्षम बनाती है, जिसमें केवल कुछ पंक्तियों में पायथन कोड होता है। PDF ऑब्जेक्ट के बीच पृष्ठों की प्रतिलिपि बनाना लक्ष्य PDF फ़ाइल के भीतर स्रोत पृष्ठ की एक उथली प्रतिलिपि बनाएगा और इसलिए पृष्ठों को संशोधित करने से मूल PDF दस्तावेज़ प्रभावित नहीं होंगे। विशिष्ट पृष्ठों को कस्टम सामग्री से बदलना भी संभव है। किसी विशेष PDF में पृष्ठों को कॉपी करना भी संभव है।
पायथन के माध्यम से पीडीएफ दस्तावेज़ खोलें और हेरफेर करें
# PDF Documents Manipulation
from pikepdf import Pdf
new_pdf = Pdf.new()
with Pdf.open('sample.pdf') as pdf:
pdf.save('output.pdf')
# Copying pages from other PDFs
pdf = Pdf.open('../tests/resources/fourpages.pdf')
appendix = Pdf.open('../tests/resources/sandwich.pdf')
pdf.pages.extend(appendix.pages)
पीडीएफ विभाजन और पायथन के माध्यम से विलय
पीडीएफ पाइकपीडीएफ लाइब्रेरी सॉफ्टवेयर डेवलपर्स को मौजूदा पीडीएफ फाइलों तक पहुंचने और इसे आसानी से कई पीडीएफ फाइलों में विभाजित करने की शक्ति देती है। पीडीएफ को विभाजित करते समय हमें केवल यह चाहिए कि नए पीडीएफ में गंतव्य पृष्ठ होने चाहिए। पुस्तकालय प्रत्येक पृष्ठ से जुड़े डेटा को स्थानांतरित करना भी सुनिश्चित करता है, ताकि प्रत्येक पृष्ठ अपने आप खड़ा हो सके। पुस्तकालय में कई पीडीएफ दस्तावेजों को एक में विलय या संयोजित करने के लिए समर्थन भी शामिल था। कोड की कुछ पंक्तियों के साथ पीडीएफ पृष्ठों के क्रम को उलटना भी संभव है।
Python के माध्यम से PDF दस्तावेज़ों को विभाजित और मर्ज करें
# PDF Splitting
pdf = Pdf.open('../tests/resources/fourpages.pdf')
for n, page in enumerate(pdf.pages):
dst = Pdf.new()
dst.pages.append(page)
dst.save(f'{n:02d}.pdf')
# Combine Multiple PDF pages into a single One
from glob import glob
pdf = Pdf.new()
for file in glob('*.pdf'):
src = Pdf.open(file)
pdf.pages.extend(src.pages)
pdf.save('merged.pdf')
पायथन के माध्यम से पीडीएफ दस्तावेज़ के अंदर छवियों को प्रबंधित करें
पीडीएफ पाइकपीडीएफ पुस्तकालय सॉफ्टवेयर डेवलपर्स के लिए पायथन कमांड का उपयोग करके पीडीएफ फाइल के अंदर छवियों को संभालना आसान बनाता है। पुस्तकालय में इमेज हैंडलिंग से संबंधित कई महत्वपूर्ण कार्य शामिल हैं जैसे पीडीएफ पेज के भीतर छवियों की प्रतिलिपि बनाना, पीडीएफ खोलना और देखना, छवियों का आकार बदलना, पीडीएफ में छवियों में हेरफेर करना, पीडीएफ से छवियों को निकालना, छवियों को बदलना, पीडीएफ से एक छवि हटाना, और बहुत कुछ .
छवि निकालें और इसे पायथन के माध्यम से पीडीएफ में बदलें
# Extract Image & Replace PDF Images
import zlib
rawimage = pdfimage.obj
pillowimage = pdfimage.as_pil_image()
greyscale = pillowimage.convert('L')
greyscale = greyscale.resize((32, 32))
rawimage.write(zlib.compress(greyscale.tobytes()), filter=Name("/FlateDecode"))
rawimage.ColorSpace = Name("/DeviceGray")
rawimage.Width, rawimage.Height = 32, 32
पायथन के माध्यम से पीडीएफ मेटाडेटा हैंडलिंग
पीडीएफ मेटाडेटा में पीडीएफ दस्तावेज़ के बारे में बहुत उपयोगी जानकारी शामिल है जैसे लेखक का नाम, निर्माण और संशोधन की तारीख, कीवर्ड, कॉपीराइट जानकारी, और इसी तरह। पीडीएफ पाइकपीडीएफ लाइब्रेरी में मेटाडेटा तक पहुंचने और पढ़ने, मेटाडेटा निकालने, पीडीएफ दस्तावेजों से मेटाडेटा प्रविष्टियों को हटाने के लिए पूर्ण कार्यक्षमता शामिल है। निम्न कोड उदाहरण दिखाता है कि PDF दस्तावेज़ों से मेटाडेटा कैसे निकाला जाए।
पायथन के माध्यम से पीडीएफ मेटाडेटा कैसे निकालें
# Extract PDF Metadata
import pikepdf
import sys
# get the target pdf file from the command-line arguments
pdf_filename = sys.argv[1]
# read the pdf file
pdf = pikepdf.Pdf.open(pdf_filename)
docinfo = pdf.docinfo
for key, value in docinfo.items():
print(key, ":", value)