ওপেন সোর্স পাইথন লাইব্রেরির মাধ্যমে ডকক্সে পিডিএফ তৈরি করুন এবং রূপান্তর করুন

ফ্রি পাইথন এপিআই পিডিএফ ডকুমেন্টগুলিকে DOCX-এ তৈরি এবং রূপান্তর করতে, পৃষ্ঠা লেআউটকে পার্স করতে এবং পুনরায় তৈরি করতে বা পাইথন লাইব্রেরির মাধ্যমে অনুচ্ছেদ পুনরায় তৈরি করতে সক্ষম।

পিডিএফ ডকুমেন্ট তৈরি এবং প্রক্রিয়াকরণের জন্য অনেক পাইথন লাইব্রেরি রয়েছে। পিডিএফ প্রসেসিং পরিচালনার জন্য AS পাইথনকে সেরা ভাষা হিসাবে বিবেচনা করা হয় কারণ এটি বিকাশকে এত সহজ এবং দ্রুত করে তোলে। pdf2docx হল এমনই একটি শক্তিশালী ওপেন সোর্স পাইথন লাইব্রেরি যা কম্পিউটার প্রোগ্রামারদের পিডিএফ ডকুমেন্ট তৈরি করতে এবং সহজেই Word DOCX ফাইল ফরম্যাটে রূপান্তর করতে সক্ষম করে। লাইব্রেরিটি পরিচালনা করা খুব সহজ এবং একটি সাধারণ GUI রয়েছে যা ব্যবহারকারীদের সহজেই লাইব্রেরির বিভিন্ন বৈশিষ্ট্য অ্যাক্সেস করতে এবং ব্যবহার করতে সক্ষম করে।

pdf2docx লাইব্রেরিতে পিডিএফ ক্রিয়াকলাপ পরিচালনার জন্য বিভিন্ন বৈশিষ্ট্য অন্তর্ভুক্ত করা হয়েছে যেমন পিডিএফ ডকুমেন্ট অ্যাক্সেস করা, পিডিএফকে অন্য ফাইল ফরম্যাটে রূপান্তর করা, পেজ লেআউট পার্স করা এবং পুনরায় তৈরি করা, পৃষ্ঠা মার্জিন সমর্থন, মেটা-তথ্য বের করা, পিডিএফ ফাইল থেকে পাঠ্য বের করা, পার্সিং এবং পুনরায় তৈরি করা। -অনুচ্ছেদ তৈরি করা, পিডিএফ-এ পাঠ্য সন্নিবেশ করানো, তালিকা শৈলী সমর্থন, চিত্রটি পার্স এবং পুনরায় তৈরি করা, স্বচ্ছ চিত্র, টেবিলটি পার্স এবং পুনরায় তৈরি করা, একত্রিত ঘর, আংশিকভাবে লুকানো সীমানা সহ টেবিল, নেস্টেড টেবিল সমর্থন, বহু-সহ পৃষ্ঠা পার্স করা প্রক্রিয়াকরণ, এবং আরো অনেক কিছু।

Previous Next

pdf2docx দিয়ে শুরু করা

pdf2docx ইনস্টল করা খুব সহজ, এটি করার জন্য পছন্দের উপায় হল পিপ ব্যবহার করা, যেকোনো সহজ ইনস্টলেশনের জন্য অনুগ্রহ করে নিম্নলিখিত কমান্ডটি ব্যবহার করুন।

পিপের মাধ্যমে pdf2docx ইনস্টল করুন

 pip install pdf2docx 

এটি ম্যানুয়ালি ইনস্টল করাও সম্ভব; সরাসরি GitHub রিপোজিটরি থেকে সর্বশেষ রিলিজ ফাইল ডাউনলোড করুন।

Python API এর মাধ্যমে PDF ফাইলকে Docx এ রূপান্তর করুন

ওপেন সোর্স pdf2docx লাইব্রেরি Python কোডের মাত্র কয়েক লাইনের সাথে Docx ফাইল ফরম্যাটে PDF ফাইল রূপান্তরকে সম্পূর্ণরূপে সমর্থন করে। লাইব্রেরি পিডিএফ রূপান্তর পরিচালনার জন্য বিভিন্ন পদ্ধতি প্রদান করেছে। আপনি একটি নথির সমস্ত পৃষ্ঠা রূপান্তর করতে পারেন বা কিছু নির্দিষ্ট পৃষ্ঠা নির্বাচন করে একটি Docx ফাইলে রূপান্তর করতে পারেন৷ লাইব্রেরিটি পাইথন অ্যাপ্লিকেশনের মধ্যে পাসওয়ার্ড-সুরক্ষিত পিডিএফ ডকুমেন্ট অ্যাক্সেস এবং রূপান্তর সমর্থন করে। লাইব্রেরিটি মাল্টি-প্রসেসিংকেও সমর্থন করে যা শুধুমাত্র শুরু এবং শেষ দ্বারা নির্দিষ্ট করা অবিচ্ছিন্ন PDF পৃষ্ঠাগুলির জন্য কাজ করে।

Python API এর মাধ্যমে একটি PDF এর সমস্ত পৃষ্ঠা রূপান্তর করুন

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Python এর মাধ্যমে নির্দিষ্ট PDF পৃষ্ঠাগুলিকে Docx-এ রূপান্তর করুন

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Python API এর মাধ্যমে PDF থেকে টেবিল বের করুন

কখনও কখনও আমাদের একটি পিডিএফ ফাইল থেকে কিছু নির্দিষ্ট ডেটা বের করতে হয়। বিনামূল্যে pdf2docx লাইব্রেরি ব্যবহারকারীদের পিডিএফ ফাইলগুলি থেকে কোনো বাহ্যিক নির্ভরতা ছাড়াই টেবিল বের করতে দেয়। এই কাজটি অর্জন করতে আপনাকে extract_tables() ফাংশন ব্যবহার করতে হবে। নিম্নলিখিত উদাহরণগুলি একটি পিডিএফ ফাইল থেকে সমস্ত টেবিল বের করতে ব্যবহার করা যেতে পারে।

Python API এর মাধ্যমে PDF টেবিল বের করুন

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Python API এর মাধ্যমে PDF থেকে সমস্ত টেবিল বের করুন

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 বাংলা