ایجاد و تبدیل PDF به Docx از طریق کتابخانه Python منبع باز
API رایگان Python قادر به ایجاد و تبدیل اسناد PDF به DOCX، تجزیه و بازآفرینی طرحبندی صفحه یا ایجاد مجدد پاراگراف از طریق کتابخانه پایتون است.
کتابخانه های پایتون زیادی برای ایجاد و پردازش اسناد PDF وجود دارد. AS Python به عنوان بهترین زبان برای پردازش PDF در نظر گرفته می شود زیرا توسعه را بسیار آسان و سریع می کند. pdf2docx یکی از کتابخانههای قدرتمند منبع باز پایتون است که برنامهنویسان رایانه را قادر میسازد اسناد PDF را به آسانی به فرمت فایل Word DOCX ایجاد و تبدیل کنند. مدیریت این کتابخانه بسیار ساده است و دارای رابط کاربری گرافیکی ساده ای است که کاربران را قادر می سازد تا به راحتی به ویژگی های مختلف کتابخانه دسترسی داشته باشند و از آنها استفاده کنند.
کتابخانه pdf2docx دارای ویژگیهای مختلفی برای مدیریت عملیات PDF مانند دسترسی به اسناد PDF، تبدیل PDF به فرمتهای دیگر فایل، تجزیه و ایجاد مجدد طرحبندی صفحه، پشتیبانی از حاشیه صفحه، استخراج متا اطلاعات، استخراج متن از فایلهای PDF، تجزیه و دوباره است. -ایجاد پاراگراف، درج متن در PDF، پشتیبانی از سبک های لیست، تجزیه و ایجاد مجدد تصویر، تصویر شفاف، تجزیه و ایجاد مجدد جدول، سلول های ادغام شده، جدول با حاشیه های نیمه پنهان، پشتیبانی از جداول تو در تو، تجزیه صفحات با چند- پردازش، و بسیاری دیگر.
شروع کار با pdf2docx
نصب pdf2docx بسیار آسان است، روش ترجیحی برای انجام این کار استفاده از pip است، لطفاً برای نصب آسان از دستور زیر استفاده کنید.
pdf2docx را از طریق pip نصب کنید
pip install pdf2docx
همچنین امکان نصب آن به صورت دستی وجود دارد. آخرین فایل های نسخه را مستقیماً از مخزن GitHub دانلود کنید.
تبدیل فایل PDF به Docx از طریق Python API
کتابخانه منبع باز pdf2docx به طور کامل از تبدیل فایل PDF به فرمت فایل Docx تنها با چند خط کد پایتون پشتیبانی می کند. این کتابخانه چندین روش برای مدیریت تبدیل PDF ارائه کرده است. شما می توانید تمام صفحات یک سند را تبدیل کنید یا برخی از صفحات خاص را انتخاب کنید و آنها را به یک فایل Docx تبدیل کنید. این کتابخانه همچنین از دسترسی و تبدیل اسناد PDF محافظت شده با رمز عبور در برنامه های پایتون پشتیبانی می کند. این کتابخانه همچنین از پردازش چندگانه پشتیبانی میکند که فقط برای صفحات پیدیاف پیوسته، که فقط با شروع و پایان مشخص شدهاند، کار میکند.
تمام صفحات یک PDF را از طریق Python API تبدیل کنید
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
صفحات PDF مشخص شده را از طریق پایتون به Docx تبدیل کنید
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
استخراج جدول از PDF از طریق Python API
گاهی اوقات ما نیاز به استخراج برخی از داده های خاص از یک فایل PDF داریم. کتابخانه رایگان pdf2docx به کاربران اجازه می دهد تا جداول را از فایل های PDF بدون هیچ گونه وابستگی خارجی استخراج کنند. برای رسیدن به این کار باید از تابع extract_tables() استفاده کنید. از مثال های زیر می توان برای استخراج تمام جداول از یک فایل PDF استفاده کرد.
استخراج جدول PDF از طریق Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
استخراج همه جداول از PDF از طریق Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)