برنامه هایی را برای کار با PDF از طریق کتابخانه پایتون توسعه دهید
API منبع باز Python قادر به تقسیم، ادغام، برش، و تبدیل صفحات فایلهای PDF، افزودن دادهها و گذرواژههای سفارشی به PDF است.
PyPDF2 یک کتابخانه پایتون خالص منبع باز است که قابلیت کار با فایل های PDF در داخل برنامه های پایتون را بدون هیچ گونه وابستگی خارجی فراهم می کند. این کتابخانه شامل پشتیبانی از چندین ویژگی مهم PDF مانند ادغام چندین فایل PDF، استخراج محتوای فایل PDF، چرخش صفحات فایل PDF با زاویه، مقیاس بندی صفحات PDF، تبدیل صفحات فایل های PDF، استخراج تصاویر از صفحات PDF و خیلی بیشتر.
استفاده از کتابخانه برنامه نویسی منبع باز PyPDF2 بسیار آسان است و کد منبع به خوبی مستند شده و به راحتی قابل درک است. این کتابخانه توسعه دهندگان را قادر می سازد تا ابرداده های فایل های PDF مانند تعداد صفحات، نویسنده، سازنده، زمان ایجاد و آخرین به روز رسانی و غیره را بخوانند و استخراج کنند. این کتابخانه همچنین از رمزگذاری و رمزگشایی فایل های PDF تنها با چند خط کد پایتون پشتیبانی می کند.
.
شروع کار با PyPDF2
PyPDF2 به عنوان بخشی از کتابخانه استاندارد پایتون نیست، بنابراین باید خودتان آن را نصب کنید. روش ترجیحی برای انجام این کار استفاده از پیپ است.
PyPDF2 را از طریق پیپ نصب کنید
python -m pip install pypdf2
استخراج متن از PDF از طریق پایتون
کتابخانه PyPDF2 قابلیت استخراج برنامهای متن از فایلهای PDF را از طریق پایتون فراهم میکند. بازیابی داده ها از یک فایل PDF کار آسانی نیست زیرا نحوه ذخیره سازی اطلاعات PDF فقط دستیابی به آن را دشوار می کند. PyPDF2 با ارائه توابع داخلی برای بازیابی اطلاعات، کار توسعه دهندگان را آسان می کند. آنها می توانند از متد ()extractText در شی صفحه برای دریافت محتوای متنی صفحه استفاده کنند.
متن را از PDF از طریق پایتون استخراج کنید
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
خواندن فایل های PDF از طریق پایتون
کتابخانه PyPDF2 قابلیت استخراج برنامهنویسی متن از فایلهای PDF را از طریق پایتون فراهم میکند. بازیابی داده ها از یک فایل PDF کار آسانی نیست زیرا نحوه ذخیره سازی اطلاعات PDF فقط دستیابی به آن را دشوار می کند. PyPDF2 کار توسعه دهندگان را با ارائه توابع داخلی برای بازیابی اطلاعات آسان می کند. آنها می توانند از متد ()extractText در شی صفحه برای دریافت محتوای متنی صفحه استفاده کنند.
خواندن فایل PDF از طریق پایتون
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
اسناد PDF را ادغام یا تقسیم کنید
آیا تا به حال در موقعیتی بوده اید که نیاز داشته باشید دو یا چند فایل PDF را در یک سند واحد ادغام کنید؟ سازمان اغلب به ادغام چندین فایل PDF در یک سند واحد نیاز دارد. کتابخانه PyPDF2 قابلیت ترکیب فایلهای PDF را تنها با چند خط کد پایتون فراهم میکند. توسعه دهندگان همچنین می توانند به راحتی اسناد PDF بزرگ را با توجه به نیاز خود به موارد کوچکتر تقسیم کنند. توسعه دهندگان می توانند به راحتی قسمت خاصی از یک کتاب PDF را استخراج کنند یا آن را به چندین PDF تقسیم کنند
ادغام فایل های PDF از طریق پایتون
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
استخراج متادیتا از فایل های PDF
کتابخانه PyPDF2 دارای قابلیتی برای استخراج فراداده از اسناد PDF با استفاده از چند دستور پایتون است. شما به راحتی می توانید اطلاعاتی در مورد نویسنده، برنامه سازنده، تعداد صفحات، عنوان سند و تاریخ ایجاد و غیره به دست آورید. می توانید به راحتی ابرداده اسناد PDF را استخراج کرده و مطابق با نیاز خود از آن استفاده کنید.
استخراج متادیتا از PDF از طریق پایتون
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)