تطوير تطبيقات للعمل مع ملفات PDF عبر مكتبة Python

Open Source Python API قادر على تقسيم صفحات ملفات PDF ودمجها واقتصاصها وتحويلها ، وإضافة بيانات مخصصة وكلمات مرور إلى PDF.

PyPDF2 هي مكتبة Python نقية مفتوحة المصدر توفر القدرة على العمل مع ملفات PDF داخل تطبيقات Python دون أي تبعيات خارجية. تضمنت المكتبة دعمًا للعديد من ميزات PDF المهمة مثل دمج ملفات PDF متعددة ، واستخراج محتوى ملف PDF ، وتدوير صفحات ملف PDF بزاوية ، وتحجيم صفحات PDF ، وتحويل صفحات ملفات PDF ، واستخراج الصور من صفحات PDF و اكثر كثير.

مكتبة البرمجة مفتوحة المصدر PyPDF2 سهلة الاستخدام كما أن شفرة المصدر موثقة جيدًا وسهلة الفهم. تتيح المكتبة للمطورين قراءة واستخراج البيانات الوصفية لملفات PDF مثل عدد الصفحات والمؤلف والمنشئ والوقت الذي تم إنشاؤه وآخر تحديث له وما إلى ذلك. تدعم المكتبة أيضًا تشفير وفك تشفير ملفات PDF ببضع سطرين فقط من كود Python.

.

Previous Next

الشروع في العمل مع PyPDF2

لا يأتي PyPDF2 كجزء من مكتبة Python القياسية ، لذلك ستحتاج إلى تثبيته بنفسك. الطريقة المفضلة للقيام بذلك هي استخدام النقطة.

قم بتثبيت PyPDF2 عبر النقطة

 python -m pip install pypdf2  

استخراج نص من ملف PDF عبر Python

توفر مكتبة PyPDF2 القدرة على استخراج النص برمجيًا من ملفات PDF عبر Python. ليس من السهل استرداد البيانات من ملف PDF لأن الطريقة التي يخزن بها PDF المعلومات تجعل من الصعب تحقيقها. يعمل PyPDF2 على تسهيل عمل المطورين من خلال تزويدهم بوظائف مدمجة سهلة الاستخدام لاسترداد المعلومات. يمكنهم استخدام طريقة extractText () على كائن الصفحة للحصول على محتوى نص الصفحة.

استخراج نص من ملف PDF عبر Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

قراءة ملفات PDF عبر Python

توفر مكتبة PyPDF2 القدرة على استخراج النص برمجيًا من ملفات PDF عبر Python. ليس من السهل استرداد البيانات من ملف PDF لأن الطريقة التي يخزن بها PDF المعلومات تجعل من الصعب تحقيقها. يجعل PyPDF2 وظائف المطورين سهلة من خلال توفير وظائف مدمجة سهلة الاستخدام لاسترداد المعلومات. يمكنهم استخدام طريقة extractText () على كائن الصفحة للحصول على محتوى نص الصفحة.

قراءة ملف PDF عبر Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

دمج أو تقسيم مستندات PDF

هل سبق لك أن كنت في موقف احتجت فيه إلى دمج ملفين أو أكثر من ملفات PDF في مستند واحد؟ غالبًا ما تتطلب المنظمة دمج ملفات PDF متعددة في مستند واحد. توفر مكتبة PyPDF2 القدرة على دمج ملفات PDF مع سطرين فقط من كود Python. يمكن للمطورين أيضًا تقسيم مستندات PDF الكبيرة بسهولة إلى مستندات أصغر وفقًا لاحتياجاتهم. يمكن للمطورين بسهولة استخراج جزء معين من كتاب PDF أو تقسيمه إلى ملفات PDF متعددة

دمج ملفات PDF عبر Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

استخراج البيانات الوصفية من ملفات PDF

تضمنت مكتبة PyPDF2 وظائف لاستخراج البيانات الوصفية من مستندات PDF باستخدام اثنين من أوامر Python. يمكنك بسهولة الحصول على معلومات حول المؤلف ، وتطبيق المنشئ ، وعدد الصفحات ، وعنوان المستند ، وتواريخ الإنشاء ، وما إلى ذلك. يمكنك بسهولة استخراج البيانات الوصفية لمستندات PDF واستخدامها وفقًا لاحتياجاتك.

 

استخراج البيانات الوصفية من PDF عبر Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 عربي