مكتبة PHP مفتوحة المصدر لتحليل ملفات PDF

تسمح PHP API للمطورين بتحليل ملفات PDF واستخراج البيانات والعناصر من ملفات PDF.

PDFParser هي مكتبة PHP مفتوحة المصدر تتيح لمطوري البرامج تحليل ملفات PDF واستخراج عناصر PDF داخل تطبيقات PHP الخاصة بهم. تم إنشاء PDFParser على أعلى محلل TCPDF. PDFParser هي مكتبة PHP مستقلة توفر أدوات متنوعة لاستخراج البيانات من ملف PDF.

تنسيق المستندات المحمولة (PDF) هو أحد تنسيقات المستندات المفضلة في العالم ولا يزال يحظى بشعبية كبيرة. تدعم واجهة برمجة التطبيقات العديد من الميزات المهمة لتحليل PDF ، مثل تحميل وتحليل عناصر ورؤوس PDF ، واستخراج البيانات الوصفية ، واستخراج النص من الصفحات المطلوبة ، ودعم PDF المضغوط ، ودعم ترميز المحتوى السداسي والثماني ، وغير ذلك الكثير.

لمحة سريعة

نظرة عامة على ميزات PDFParser.

نظرة عامة على الميزات

تحميل كائنات PDF
تحليل الكائنات
رؤوس التحليل
استخراج البيانات الوصفية
استخراج النص
PDF مضغوط
ترميز محارف
ترميز سداسي
ترميز ثماني

PDF المحلل

يدعم PDFParser تنسيق ملف PDF بالإضافة إلى تنسيقات الصناعة القياسية للتصدير.

قارئ

كاتب

TXT, HTML

PDF المحلل

منصة الاستقلال

يتطلب PDFParser وقت تشغيل PHP فقط.

PHP 5.3 وما فوق.

PDF المحلل

الشروع في العمل مع PDFParser

سيتم تنزيل مكتبة PDFParser تلقائيًا من خلال سطر أوامر composer . أضف PDFParser إلى ملف composer.json الخاص بك.

أضف الأمر إلى composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

استخدم الملحن لتنزيل الحزمة عن طريق تشغيل الأمر:

تحليل ملف PDF واستخراج النص من كل صفحة عبر PHP API

يوفر PDFParser الوظائف التي تمكن مبرمجي الكمبيوتر من تحليل مستندات PDF داخل تطبيق PHP الخاص بهم. أولاً ، تحتاج إلى إنشاء كائنات ضرورية ثم تحميل ملف PDF ، ويمكن تخزين الملف الذي تم تحليله على متغير وبعد ذلك سيسمح لك هذا الكائن بمعالجة صفحة PDF بصفحة. الآن يمكنك بسهولة استخراج النص من ملف PDF بأكمله أو بشكل منفصل حسب الصفحات. بمجرد تحليل المستند الآن ، يمكنك بسهولة استخراج النص من كل صفحة من صفحات PDF.

تحليل ملف PDF عبر PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

استخراج البيانات الوصفية من وثيقة PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

استخراج البيانات الوصفية من PDF عبر PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

استخراج نص من صفحة PDF محددة

يسمح PDFParser للمطورين باستخراج نص من صفحات معينة بسهولة باستخدام كمية صغيرة من التعليمات البرمجية. تمنح واجهة برمجة التطبيقات للمطورين القدرة على التعامل مع كل صفحة من صفحات وثيقة PDF بشكل منفصل. يمكن للمطورين التكرار من خلال مجموعة الصفحات ويمكنهم استرداد النص من الصفحة التي يختارونها. ترتيب المصفوفة هو نفس ترتيب مستند PDF.

استخراج نص من ملف PDF عبر PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();