Python लाइब्रेरी के माध्यम से PDF के साथ काम करने के लिए ऐप्स विकसित करें
ओपन सोर्स पायथन एपीआई पीडीएफ फाइलों के पृष्ठों को विभाजित करने, मर्ज करने, क्रॉप करने और बदलने में सक्षम है, पीडीएफ में कस्टम डेटा और पासवर्ड जोड़ें।
PyPDF2 एक खुला स्रोत शुद्ध पायथन पुस्तकालय है जो बिना किसी बाहरी निर्भरता के पायथन अनुप्रयोगों के अंदर पीडीएफ फाइलों के साथ काम करने की क्षमता प्रदान करता है। पुस्तकालय में कई महत्वपूर्ण पीडीएफ सुविधाओं के लिए समर्थन शामिल है जैसे कि कई पीडीएफ फाइलों को मर्ज करना, पीडीएफ फाइल की सामग्री को निकालना, पीडीएफ फाइल के पन्नों को एक कोण से घुमाना, पीडीएफ पेजों को स्केल करना, पीडीएफ फाइलों के पन्नों को बदलना, पीडीएफ पेजों से छवियों को निकालना और बहुत अधिक।
ओपन सोर्स प्रोग्रामिंग लाइब्रेरी PyPDF2 का उपयोग करना बहुत आसान है और सोर्स कोड अच्छी तरह से प्रलेखित और समझने में आसान है। पुस्तकालय डेवलपर्स को पीडीएफ फाइलों के मेटाडेटा को पढ़ने और निकालने में सक्षम बनाता है जैसे कि पृष्ठों की संख्या, लेखक, निर्माता, निर्मित और अंतिम अद्यतन समय, आदि। पुस्तकालय भी पाइथन कोड की कुछ पंक्तियों के साथ पीडीएफ फाइलों को एन्क्रिप्ट और डिक्रिप्ट करने का समर्थन करता है।
.
PyPDF2 के साथ शुरुआत करना
PyPDF2 पायथन मानक पुस्तकालय के हिस्से के रूप में नहीं आता है, इसलिए आपको इसे स्वयं स्थापित करना होगा। ऐसा करने का पसंदीदा तरीका पाइप का उपयोग करना है।
पाइप के माध्यम से PyPDF2 स्थापित करें
python -m pip install pypdf2
पायथन के माध्यम से पीडीएफ से टेक्स्ट निकालें
PyPDF2 लाइब्रेरी पायथन के माध्यम से पीडीएफ फाइलों से प्रोग्रामेटिक रूप से टेक्स्ट निकालने की क्षमता प्रदान करती है। एक पीडीएफ फाइल से डेटा पुनर्प्राप्त करना आसान नहीं है क्योंकि जिस तरह से पीडीएफ जानकारी संग्रहीत करता है, उसे हासिल करना मुश्किल हो जाता है। PyPDF2 डेवलपर्स को जानकारी प्राप्त करने के लिए अंतर्निहित कार्यों का उपयोग करने में आसान प्रदान करके उनके काम को आसान बनाता है। वे पेज की टेक्स्ट सामग्री प्राप्त करने के लिए पेज ऑब्जेक्ट पर एक्स्ट्रेक्टटेक्स्ट () विधि का उपयोग कर सकते हैं।
पायथन के माध्यम से पीडीएफ से टेक्स्ट निकालें
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
पायथन के माध्यम से पीडीएफ फाइलों को पढ़ना
PyPDF2 लाइब्रेरी पायथन के माध्यम से पीडीएफ फाइलों से प्रोग्रामेटिक रूप से टेक्स्ट निकालने की क्षमता प्रदान करती है। एक पीडीएफ फाइल से डेटा पुनर्प्राप्त करना आसान नहीं है क्योंकि जिस तरह से पीडीएफ जानकारी संग्रहीत करता है, उसे हासिल करना मुश्किल हो जाता है। PyPDF2 सूचना प्राप्त करने के लिए अंतर्निहित कार्यों का उपयोग करने में आसान प्रदान करके डेवलपर्स के काम को आसान बनाता है। वे पेज की टेक्स्ट सामग्री प्राप्त करने के लिए पेज ऑब्जेक्ट पर एक्स्ट्रेक्टटेक्स्ट () विधि का उपयोग कर सकते हैं।
पायथन के माध्यम से पीडीएफ फाइल पढ़ना
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
PDF दस्तावेज़ों को मर्ज या विभाजित करें
क्या आप कभी ऐसी स्थिति में हैं जहां आपको दो या दो से अधिक पीडीएफ फाइलों को एक दस्तावेज़ में मर्ज करने की आवश्यकता है? संगठन को अक्सर एक ही दस्तावेज़ में एकाधिक PDF फ़ाइलों को मर्ज करने की आवश्यकता होती है। PyPDF2 पुस्तकालय पीडीएफ फाइलों को पायथन कोड की सिर्फ एक-दो पंक्तियों के साथ संयोजित करने की क्षमता प्रदान करता है। डेवलपर्स बड़े PDF दस्तावेज़ों को अपनी ज़रूरतों के अनुसार आसानी से छोटे दस्तावेज़ों में विभाजित कर सकते हैं। डेवलपर आसानी से किसी PDF पुस्तक के विशिष्ट भाग को निकाल सकते हैं या उसे अनेक PDF में विभाजित कर सकते हैं
पायथन के माध्यम से पीडीएफ फाइलों को मर्ज करें
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
पीडीएफ फाइलों से मेटाडेटा निकालें
PyPDF2 लाइब्रेरी में कुछ पायथन कमांड का उपयोग करके पीडीएफ दस्तावेज़ों से मेटाडेटा निकालने की कार्यक्षमता शामिल है। आप आसानी से लेखक, निर्माता ऐप, पृष्ठों की संख्या, दस्तावेज़ शीर्षक, और निर्माण तिथियों आदि के बारे में जानकारी प्राप्त कर सकते हैं। आप आसानी से पीडीएफ दस्तावेज़ों के मेटाडेटा को निकाल सकते हैं और अपनी आवश्यकताओं के अनुसार इसका उपयोग कर सकते हैं।
पायथन के माध्यम से पीडीएफ से मेटाडेटा निकालें
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)