تطوير تطبيقات للعمل مع ملفات PDF عبر مكتبة Python
Open Source Python API قادر على تقسيم صفحات ملفات PDF ودمجها واقتصاصها وتحويلها ، وإضافة بيانات مخصصة وكلمات مرور إلى PDF.
PyPDF2 هي مكتبة Python نقية مفتوحة المصدر توفر القدرة على العمل مع ملفات PDF داخل تطبيقات Python دون أي تبعيات خارجية. تضمنت المكتبة دعمًا للعديد من ميزات PDF المهمة مثل دمج ملفات PDF متعددة ، واستخراج محتوى ملف PDF ، وتدوير صفحات ملف PDF بزاوية ، وتحجيم صفحات PDF ، وتحويل صفحات ملفات PDF ، واستخراج الصور من صفحات PDF و اكثر كثير.
مكتبة البرمجة مفتوحة المصدر PyPDF2 سهلة الاستخدام كما أن شفرة المصدر موثقة جيدًا وسهلة الفهم. تتيح المكتبة للمطورين قراءة واستخراج البيانات الوصفية لملفات PDF مثل عدد الصفحات والمؤلف والمنشئ والوقت الذي تم إنشاؤه وآخر تحديث له وما إلى ذلك. تدعم المكتبة أيضًا تشفير وفك تشفير ملفات PDF ببضع سطرين فقط من كود Python.
.
الشروع في العمل مع PyPDF2
لا يأتي PyPDF2 كجزء من مكتبة Python القياسية ، لذلك ستحتاج إلى تثبيته بنفسك. الطريقة المفضلة للقيام بذلك هي استخدام النقطة.
قم بتثبيت PyPDF2 عبر النقطة
python -m pip install pypdf2
استخراج نص من ملف PDF عبر Python
توفر مكتبة PyPDF2 القدرة على استخراج النص برمجيًا من ملفات PDF عبر Python. ليس من السهل استرداد البيانات من ملف PDF لأن الطريقة التي يخزن بها PDF المعلومات تجعل من الصعب تحقيقها. يعمل PyPDF2 على تسهيل عمل المطورين من خلال تزويدهم بوظائف مدمجة سهلة الاستخدام لاسترداد المعلومات. يمكنهم استخدام طريقة extractText () على كائن الصفحة للحصول على محتوى نص الصفحة.
استخراج نص من ملف PDF عبر Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
قراءة ملفات PDF عبر Python
توفر مكتبة PyPDF2 القدرة على استخراج النص برمجيًا من ملفات PDF عبر Python. ليس من السهل استرداد البيانات من ملف PDF لأن الطريقة التي يخزن بها PDF المعلومات تجعل من الصعب تحقيقها. يجعل PyPDF2 وظائف المطورين سهلة من خلال توفير وظائف مدمجة سهلة الاستخدام لاسترداد المعلومات. يمكنهم استخدام طريقة extractText () على كائن الصفحة للحصول على محتوى نص الصفحة.
قراءة ملف PDF عبر Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
دمج أو تقسيم مستندات PDF
هل سبق لك أن كنت في موقف احتجت فيه إلى دمج ملفين أو أكثر من ملفات PDF في مستند واحد؟ غالبًا ما تتطلب المنظمة دمج ملفات PDF متعددة في مستند واحد. توفر مكتبة PyPDF2 القدرة على دمج ملفات PDF مع سطرين فقط من كود Python. يمكن للمطورين أيضًا تقسيم مستندات PDF الكبيرة بسهولة إلى مستندات أصغر وفقًا لاحتياجاتهم. يمكن للمطورين بسهولة استخراج جزء معين من كتاب PDF أو تقسيمه إلى ملفات PDF متعددة
دمج ملفات PDF عبر Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
استخراج البيانات الوصفية من ملفات PDF
تضمنت مكتبة PyPDF2 وظائف لاستخراج البيانات الوصفية من مستندات PDF باستخدام اثنين من أوامر Python. يمكنك بسهولة الحصول على معلومات حول المؤلف ، وتطبيق المنشئ ، وعدد الصفحات ، وعنوان المستند ، وتواريخ الإنشاء ، وما إلى ذلك. يمكنك بسهولة استخراج البيانات الوصفية لمستندات PDF واستخدامها وفقًا لاحتياجاتك.
استخراج البيانات الوصفية من PDF عبر Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)