Python लाइब्रेरी के माध्यम से PDF के साथ काम करने के लिए ऐप्स विकसित करें

ओपन सोर्स पायथन एपीआई पीडीएफ फाइलों के पृष्ठों को विभाजित करने, मर्ज करने, क्रॉप करने और बदलने में सक्षम है, पीडीएफ में कस्टम डेटा और पासवर्ड जोड़ें।

PyPDF2 एक खुला स्रोत शुद्ध पायथन पुस्तकालय है जो बिना किसी बाहरी निर्भरता के पायथन अनुप्रयोगों के अंदर पीडीएफ फाइलों के साथ काम करने की क्षमता प्रदान करता है। पुस्तकालय में कई महत्वपूर्ण पीडीएफ सुविधाओं के लिए समर्थन शामिल है जैसे कि कई पीडीएफ फाइलों को मर्ज करना, पीडीएफ फाइल की सामग्री को निकालना, पीडीएफ फाइल के पन्नों को एक कोण से घुमाना, पीडीएफ पेजों को स्केल करना, पीडीएफ फाइलों के पन्नों को बदलना, पीडीएफ पेजों से छवियों को निकालना और बहुत अधिक।

ओपन सोर्स प्रोग्रामिंग लाइब्रेरी PyPDF2 का उपयोग करना बहुत आसान है और सोर्स कोड अच्छी तरह से प्रलेखित और समझने में आसान है। पुस्तकालय डेवलपर्स को पीडीएफ फाइलों के मेटाडेटा को पढ़ने और निकालने में सक्षम बनाता है जैसे कि पृष्ठों की संख्या, लेखक, निर्माता, निर्मित और अंतिम अद्यतन समय, आदि। पुस्तकालय भी पाइथन कोड की कुछ पंक्तियों के साथ पीडीएफ फाइलों को एन्क्रिप्ट और डिक्रिप्ट करने का समर्थन करता है।

.

Previous Next

PyPDF2 के साथ शुरुआत करना

PyPDF2 पायथन मानक पुस्तकालय के हिस्से के रूप में नहीं आता है, इसलिए आपको इसे स्वयं स्थापित करना होगा। ऐसा करने का पसंदीदा तरीका पाइप का उपयोग करना है।

पाइप के माध्यम से PyPDF2 स्थापित करें

 python -m pip install pypdf2  

पायथन के माध्यम से पीडीएफ से टेक्स्ट निकालें

PyPDF2 लाइब्रेरी पायथन के माध्यम से पीडीएफ फाइलों से प्रोग्रामेटिक रूप से टेक्स्ट निकालने की क्षमता प्रदान करती है। एक पीडीएफ फाइल से डेटा पुनर्प्राप्त करना आसान नहीं है क्योंकि जिस तरह से पीडीएफ जानकारी संग्रहीत करता है, उसे हासिल करना मुश्किल हो जाता है। PyPDF2 डेवलपर्स को जानकारी प्राप्त करने के लिए अंतर्निहित कार्यों का उपयोग करने में आसान प्रदान करके उनके काम को आसान बनाता है। वे पेज की टेक्स्ट सामग्री प्राप्त करने के लिए पेज ऑब्जेक्ट पर एक्स्ट्रेक्टटेक्स्ट () विधि का उपयोग कर सकते हैं।

पायथन के माध्यम से पीडीएफ से टेक्स्ट निकालें

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

पायथन के माध्यम से पीडीएफ फाइलों को पढ़ना

PyPDF2 लाइब्रेरी पायथन के माध्यम से पीडीएफ फाइलों से प्रोग्रामेटिक रूप से टेक्स्ट निकालने की क्षमता प्रदान करती है। एक पीडीएफ फाइल से डेटा पुनर्प्राप्त करना आसान नहीं है क्योंकि जिस तरह से पीडीएफ जानकारी संग्रहीत करता है, उसे हासिल करना मुश्किल हो जाता है। PyPDF2 सूचना प्राप्त करने के लिए अंतर्निहित कार्यों का उपयोग करने में आसान प्रदान करके डेवलपर्स के काम को आसान बनाता है। वे पेज की टेक्स्ट सामग्री प्राप्त करने के लिए पेज ऑब्जेक्ट पर एक्स्ट्रेक्टटेक्स्ट () विधि का उपयोग कर सकते हैं।

पायथन के माध्यम से पीडीएफ फाइल पढ़ना

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

PDF दस्तावेज़ों को मर्ज या विभाजित करें

क्या आप कभी ऐसी स्थिति में हैं जहां आपको दो या दो से अधिक पीडीएफ फाइलों को एक दस्तावेज़ में मर्ज करने की आवश्यकता है? संगठन को अक्सर एक ही दस्तावेज़ में एकाधिक PDF फ़ाइलों को मर्ज करने की आवश्यकता होती है। PyPDF2 पुस्तकालय पीडीएफ फाइलों को पायथन कोड की सिर्फ एक-दो पंक्तियों के साथ संयोजित करने की क्षमता प्रदान करता है। डेवलपर्स बड़े PDF दस्तावेज़ों को अपनी ज़रूरतों के अनुसार आसानी से छोटे दस्तावेज़ों में विभाजित कर सकते हैं। डेवलपर आसानी से किसी PDF पुस्तक के विशिष्ट भाग को निकाल सकते हैं या उसे अनेक PDF में विभाजित कर सकते हैं

पायथन के माध्यम से पीडीएफ फाइलों को मर्ज करें

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

पीडीएफ फाइलों से मेटाडेटा निकालें

PyPDF2 लाइब्रेरी में कुछ पायथन कमांड का उपयोग करके पीडीएफ दस्तावेज़ों से मेटाडेटा निकालने की कार्यक्षमता शामिल है। आप आसानी से लेखक, निर्माता ऐप, पृष्ठों की संख्या, दस्तावेज़ शीर्षक, और निर्माण तिथियों आदि के बारे में जानकारी प्राप्त कर सकते हैं। आप आसानी से पीडीएफ दस्तावेज़ों के मेटाडेटा को निकाल सकते हैं और अपनी आवश्यकताओं के अनुसार इसका उपयोग कर सकते हैं।

 

पायथन के माध्यम से पीडीएफ से मेटाडेटा निकालें

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 हिन्दी