ไลบรารี PHP โอเพ่นซอร์สสำหรับการแยกวิเคราะห์ไฟล์ PDF

PHP API ฟรีช่วยให้นักพัฒนาสามารถแยกวิเคราะห์ไฟล์ PDF แยกข้อมูลและองค์ประกอบจาก PDF

PDFParser เป็นไลบรารี PHP แบบโอเพ่นซอร์สที่ช่วยให้นักพัฒนาซอฟต์แวร์สามารถแยกวิเคราะห์ไฟล์ PDF และแยกองค์ประกอบ PDF ภายในแอปพลิเคชัน PHP ของตนเองได้ PDFParser สร้างขึ้นบนตัวแยกวิเคราะห์ TCPDF PDFParser เป็นไลบรารี PHP แบบสแตนด์อโลนที่มีเครื่องมือต่างๆ ในการดึงข้อมูลจากไฟล์ PDF

Portable Document Format (PDF) เป็นหนึ่งในรูปแบบเอกสารที่ชื่นชอบของโลกและยังคงได้รับความนิยมอย่างมาก API รองรับคุณสมบัติที่สำคัญหลายประการสำหรับการแยกวิเคราะห์ PDF เช่น การโหลดและการแยกวิเคราะห์วัตถุและส่วนหัว PDF การแยกข้อมูลเมตา การแยกข้อความจากหน้าที่เรียงลำดับ การรองรับ PDF ที่บีบอัด รองรับการเข้ารหัสเนื้อหา Hexa และฐานแปด และอื่นๆ อีกมากมาย

.

Previous Next

เริ่มต้นใช้งาน PDFParser

ไลบรารี PDFParser จะดาวน์โหลดโดยอัตโนมัติผ่านบรรทัดคำสั่ง ผู้แต่ง เพิ่ม PDFParser ลงในไฟล์ composer.json ของคุณ

เพิ่มคำสั่งใน composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

ใช้ผู้แต่งเพื่อดาวน์โหลดบันเดิลโดยรันคำสั่ง:

แยกไฟล์ PDF และแยกข้อความจากแต่ละหน้าผ่าน PHP API

PDFParser มีฟังก์ชันที่ช่วยให้โปรแกรมเมอร์คอมพิวเตอร์สามารถแยกวิเคราะห์เอกสาร PDF ภายในแอปพลิเคชัน PHP ของตนเองได้ ขั้นแรก คุณต้องสร้างวัตถุที่จำเป็น จากนั้นโหลดไฟล์ PDF ไฟล์ที่แยกวิเคราะห์สามารถเก็บไว้ในตัวแปรได้ จากนั้นวัตถุนี้จะอนุญาตให้คุณจัดการ PDF ทีละหน้า ตอนนี้คุณสามารถแยกข้อความจาก PDF ทั้งหมดหรือแยกกันตามหน้าได้อย่างง่ายดาย เมื่อแยกวิเคราะห์เอกสารแล้ว คุณสามารถแยกข้อความจากแต่ละหน้าของ PDF ได้อย่างง่ายดาย

แยกไฟล์ PDF ผ่าน PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

ดึงข้อมูลเมตาจากเอกสาร PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

แยกข้อมูลเมตาจาก PDF ผ่าน PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

แยกข้อความจากหน้า PDF เฉพาะ

PDFParser ช่วยให้นักพัฒนาสามารถดึงข้อความจากหน้าที่ต้องการได้อย่างง่ายดายโดยใช้โค้ดเพียงเล็กน้อย API ช่วยให้นักพัฒนาสามารถจัดการแต่ละหน้าของเอกสาร PDF แยกกันได้ นักพัฒนาสามารถวนซ้ำผ่านอาร์เรย์ของเพจ และสามารถดึงข้อความจากเพจที่ต้องการได้ ลำดับของอาร์เรย์เหมือนกับของเอกสาร PDF

แยกข้อความจาก PDF ผ่าน PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 ไทย