पीडीएफ फाइलों को बदलने के लिए ओपन सोर्स पायथन लाइब्रेरी
फ्री पायथन एपीआई डेवलपर्स को पीडीएफ फाइलों को निर्यात, घुमाने, मर्ज करने और पीडीएफ फाइलों से डेटा और तत्वों को निकालने की अनुमति देता है।
pdfrw एक खुला स्रोत शुद्ध पायथन पुस्तकालय है जो सॉफ्टवेयर डेवलपर्स को बिना किसी बाहरी विशेष सॉफ्टवेयर को स्थापित किए पीडीएफ फाइलों को पढ़ने और लिखने की सुविधा देता है। pdfrw प्रोग्रामिंग लाइब्रेरी का उपयोग करना बहुत आसान से है और स्रोत कोड अच्छी तरह से प्रलेखित, बहुत सरल और समझने में आसान है। पुस्तकालय में पीडीएफ में टेक्स्ट स्ट्रिंग्स के साथ-साथ सबसे तेज़ शुद्ध पायथन पीडीएफ पार्सर के लिए उचित यूनिकोड समर्थन शामिल है।
pdfrw लाइब्रेरी में कई महत्वपूर्ण पीडीएफ संचालन के लिए समर्थन शामिल है जैसे कि पीडीएफ को मर्ज करना, मेटाडेटा को संशोधित करना, कई पीडीएफ को एक साथ जोड़ना, छवियों को निकालना, पीडीएफ प्रिंटिंग, पीडीएफ पेजों को घुमाना, एक नया पीडीएफ बनाना, वॉटरमार्क पीडीएफ इमेज जोड़ना, और बहुत कुछ।
.
pdfrw के साथ शुरुआत करना
pdfrw को Python 2.6, 2.7, 3.3, 3.4, 3.5, और 3.6 की आवश्यकता है। आप pip का उपयोग करके pdfrw इंस्टॉल कर सकते हैं। कृपया इसे स्थापित करने के लिए निम्न आदेश का उपयोग करें।
pdfrw को pip . के माध्यम से स्थापित करें
python -m pip install pdfrw
पायथन लाइब्रेरी के माध्यम से पीडीएफ दस्तावेज़ बनाएं
pdfrw लाइब्रेरी सॉफ्टवेयर डेवलपर्स को कोड की कुछ पंक्तियों के साथ अपने स्वयं के पायथन अनुप्रयोगों के अंदर पीडीएफ दस्तावेज़ बनाने की क्षमता प्रदान करती है। पुस्तकालय मौजूदा पीडीएफ फाइलों तक पहुंचने और संशोधित करने के लिए भी सहायता प्रदान करता है। आप मौजूदा PDF में आसानी से नए पृष्ठों के साथ-साथ ग्राफ़िक्स घटकों या टेक्स्ट तत्वों को सम्मिलित कर सकते हैं। pdfrw लाइब्रेरी आपके द्वारा पढ़ी गई पीडीएफ फाइलों में पृष्ठों को खोजने और एक नई पीडीएफ फाइल में पृष्ठों के एक सेट को वापस लिखने के लिए सहायता प्रदान करती है।
पायथन के माध्यम से पीडीएफ दस्तावेज़ बनाएं और बदलें
// PDF Documents Creation
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
पायथन के माध्यम से पीडीएफ फाइलों को पढ़ना
पीडीएफआरडब्ल्यू लाइब्रेरी सॉफ्टवेयर डेवलपर्स को पायथन एप्लिकेशन के अंदर पीडीएफ दस्तावेजों के विभिन्न हिस्सों को आसानी से एक्सेस करने और पढ़ने की सुविधा देती है। यह संपूर्ण PDF दस्तावेज़ तक आसान पहुँच प्रदान करता है। पुस्तकालय फ़ाइल जानकारी, आकार, और बहुत कुछ पुनर्प्राप्त करने का समर्थन करता है। यह पृष्ठों नामक एक विशेष विशेषता बनाता है, जो उपयोगकर्ताओं को एक पीडीएफ दस्तावेज़ के सभी पृष्ठों को सूचीबद्ध करने की अनुमति देता है। यह आपको एक दस्तावेज़ जानकारी ऑब्जेक्ट निकालने देता है जिसका उपयोग आप लेखक, शीर्षक इत्यादि जैसी जानकारी निकालने के लिए कर सकते हैं।
पायथन के माध्यम से पीडीएफ फाइलों तक पहुंचें और पढ़ें
// Reading PDF Files
from pdfrw import pdfreader
def get_pdf_info(path):
pdf = pdfreader(path)
print(pdf.keys())
print(pdf.info)
print(pdf.root.keys())
print('pdf has {} pages'.format(len(pdf.pages)))
if __name__ == '__main__':
get_pdf_info('w9.pdf')
मेटाडेटा जोड़ना या संशोधित करना
पीडीएफआरडब्ल्यू सॉफ्टवेयर डेवलपर्स को अपने स्वयं के पायथन अनुप्रयोगों के अंदर पीडीएफ फाइलों के मेटाडेटा को जोड़ने या संशोधित करने की अनुमति देता है। आप एक पीडीएफ में एक मेटाडेटा आइटम को बदल सकते हैं, एक नए पीडीएफ में परिणाम लिख सकते हैं और साथ ही कई फाइलें शामिल कर सकते हैं, और आउटपुट पीडीएफ फाइल में कुछ निरर्थक मेटाडेटा जोड़ने के बाद उन्हें जोड़ सकते हैं।
पायथन के माध्यम से पीडीएफ मेटाडेटा को संशोधित करें
// Modifying PDF Metadata
import sys
import os
from pdfrw import PdfReader, PdfWriter
inpfn, = sys.argv[1:]
outfn = 'alter.' + os.path.basename(inpfn)
trailer = PdfReader(inpfn)
trailer.Info.Title = 'My New Title Goes Here'
PdfWriter(outfn, trailer=trailer).write()
PDF दस्तावेज़ों को विभाजित करना
pdfrw सॉफ्टवेयर डेवलपर्स को प्रोग्रामेटिक रूप से पीडीएफ दस्तावेज़ दस्तावेज़ों को उनके अनुप्रयोगों के अंदर विभाजित करने की अनुमति देता है। एक उपयोगकर्ता को एक पीडीएफ पुस्तक के एक विशिष्ट भाग को निकालने या उसे एक फाइल में संग्रहीत करने के बजाय कई पीडीएफ में विभाजित करने की आवश्यकता हो सकती है। पीडीएफआरडब्ल्यू लाइब्रेरी के साथ यह बहुत आसान है, आपको बस एक इनपुट पीडीएफ फाइल पथ, उन पृष्ठों की संख्या, जिन्हें आप निकालना चाहते हैं, और आउटपुट पथ प्रदान करने की आवश्यकता है।
पायथन के माध्यम से पीडीएफ फाइल को कई पीडीएफ में विभाजित करें
// Splitting PDF file into multiple pdfs
from pdfrw import pdfreader, pdfwriter
def split(path, number_of_pages, output):
pdf_obj = pdfreader(path)
total_pages = len(pdf_obj.pages)
writer = pdfwriter()
for page in range(number_of_pages):
if page <= total_pages:
writer.addpage(pdf_obj.pages[page])
writer.write(output)
if __name__ == '__main__':
split('reportlab-sample.pdf', 10, 'subset.pdf')