ओपन सोर्स पाइथन लाइब्रेरी के माध्यम से PDF से Docx में कनवर्ट करें
फ्री पायथन API PDF दस्तावेजों को DOCX, पार्क और फिर से निर्मित पृष्ठ लेआउट या फिर पायथन लाइब्रेरी के माध्यम से पैराग्राफ बनाने और परिवर्तित करने में सक्षम है।
पीडीएफ दस्तावेज़ निर्माण और प्रसंस्करण के लिए कई पायथन पुस्तकालय हैं। पीडीएफ प्रोसेसिंग को संभालने के लिए एएस पायथन को सबसे अच्छी भाषा माना जाता है क्योंकि यह विकास को इतना आसान और तेज बनाता है। pdf2docx एक ऐसा शक्तिशाली ओपन सोर्स पायथन लाइब्रेरी है जो कंप्यूटर प्रोग्रामर को आसानी से PDF दस्तावेज़ों को Word DOCX फ़ाइल स्वरूप में बनाने और परिवर्तित करने में सक्षम बनाता है। पुस्तकालय को संभालना बहुत सरल है और इसमें एक सरल जीयूआई है जो उपयोगकर्ताओं को पुस्तकालय की विभिन्न विशेषताओं तक आसानी से पहुंचने और उपयोग करने में सक्षम बनाता है।
pdf2doc पुस्तकालय में PDF कार्यों को संभालने के लिए विभिन्न विशेषताएं शामिल हैं जैसे कि PDF दस्तावेजों तक पहुंचना, PDF को अन्य फ़ाइल प्रारूपों में परिवर्तित करना, पेज लेआउट को पार करना और फिर से बनाना, पृष्ठ मार्जिन समर्थन, मेटा-सूचना निकालना, PDF फ़ाइलों से पाठ निकालना, पार्सिंग और फिर से बनाना पैराग्राफ, PDF सूची शैलियों का समर्थन करना, पार्क करना और फिर से बनाना छवि, पारदर्शी छवि, पार्क और फिर से बनाना टेबल, विलय कक्ष, आंशिक रूप से छिपा सीमाओं के साथ तालिका, घोंसला टेबल समर्थन, बहु प्रसंस्करण के साथ पृष्ठों को पास करना, और कई और अधिक।
pdf2doc के साथ शुरू हो रहा है
pdf2doc स्थापित करने के लिए बहुत आसान है, ऐसा करने का पसंदीदा तरीका पिप का उपयोग करना है, कृपया किसी भी आसान स्थापना के लिए निम्नलिखित आदेश का उपयोग करें।
pdf2doc स्थापित करें पिप्स
pip install pdf2docx
इसे मैन्युअल रूप से इंस्टॉल करना भी संभव है; नवीनतम रिलीज़ फ़ाइलें सीधे GitHub रिपॉजिटरी से डाउनलोड करें।
पायथन एपीआई के माध्यम से पीडीएफ फाइल को डॉक्स में बदलें
ओपन सोर्स pdf2docx लाइब्रेरी पूरी तरह से Python कोड की कुछ पंक्तियों के साथ Docx फ़ाइल स्वरूप में PDF फ़ाइल रूपांतरण का समर्थन करती है। पुस्तकालय ने पीडीएफ रूपांतरण को संभालने के लिए कई तरीके प्रदान किए हैं। आप दस्तावेज़ के सभी पृष्ठों को परिवर्तित कर सकते हैं या कुछ विशिष्ट पृष्ठों का चयन कर सकते हैं और उन्हें एक डॉक्स फ़ाइल में परिवर्तित कर सकते हैं। लाइब्रेरी पायथन एप्लिकेशन के अंदर पासवर्ड से सुरक्षित पीडीएफ दस्तावेज़ों तक पहुँचने और परिवर्तित करने का भी समर्थन करती है। पुस्तकालय बहु-प्रसंस्करण का भी समर्थन करता है जो केवल प्रारंभ और अंत द्वारा निर्दिष्ट निरंतर पीडीएफ पृष्ठों के लिए काम करता है।
पायथन API के माध्यम से PDF के सभी पृष्ठों को कनवर्ट करें
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
पाइथन के माध्यम से निर्दिष्ट PDF पृष्ठों को Docx में कनवर्ट करें
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
पायथन API के माध्यम से PDF से टेबल निकालें
कभी-कभी हमें एक PDF फ़ाइल से कुछ विशिष्ट डेटा निकालने की आवश्यकता होती है। मुफ्त pdf2doc पुस्तकालय उपयोगकर्ताओं को बिना किसी बाहरी निर्भरता के PDF फ़ाइलों से टेबल निकालने की अनुमति देता है। इस कार्य को प्राप्त करने के लिए आपको extract_tables() फ़ंक्शन का उपयोग करना होगा। निम्नलिखित उदाहरणों का उपयोग PDF फ़ाइल से सभी तालिकाओं को निकालने के लिए किया जा सकता है।
पायथन API के माध्यम से PDF टेबल निकालें
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
PDF से पायथन API के माध्यम से सभी तालिकाओं को निकालें
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)