Thư viện PHP mã nguồn mở để phân tích cú pháp tệp PDF

API PHP miễn phí cho phép các nhà phát triển phân tích cú pháp tệp PDF, trích xuất dữ liệu và phần tử từ tệp PDF.

PDFParser là một Thư viện PHP mã nguồn mở cho phép các nhà phát triển phần mềm phân tích cú pháp các tệp PDF và trích xuất các phần tử PDF bên trong các ứng dụng PHP của riêng họ. PDFParser được xây dựng dựa trên trình phân tích cú pháp TCPDF. PDFParser là một thư viện PHP độc lập cung cấp nhiều công cụ khác nhau để trích xuất dữ liệu từ tệp PDF.

Định dạng Tài liệu Di động (PDF) là một trong những định dạng tài liệu được yêu thích trên Thế giới và vẫn rất phổ biến. API hỗ trợ một số tính năng quan trọng để phân tích cú pháp PDF, chẳng hạn như tải và phân tích cú pháp các đối tượng và tiêu đề PDF, trích xuất siêu dữ liệu, trích xuất văn bản từ các trang có thứ tự, hỗ trợ PDF nén, hỗ trợ mã hóa nội dung Hexa và bát phân, v.v.

Nhìn sơ qua

Tổng quan về các tính năng của PDFParser.

Tổng quan về tính năng

Tải các đối tượng PDF
Phân tích cú pháp các đối tượng
Phân tích cú pháp tiêu đề
Trích xuất siêu dữ liệu
Trích xuất văn bản
PDF được nén
mã hóa bộ ký tự
Mã hóa hexa
Mã hóa bát phân

PDFParser

PDFParser hỗ trợ định dạng tệp PDF cũng như các định dạng tiêu chuẩn ngành để xuất.

Người đọc

nhà văn

TXT, HTML

PDFParser

Nền tảng độc lập

PDFParser chỉ yêu cầu thời gian chạy PHP.

PHP 5.3 trở lên.

PDFParser

Bắt đầu với PDFParser

Thư viện PDFParser sẽ được tự động tải xuống thông qua dòng lệnh trình soạn nhạc . Thêm PDFParser vào tệp composer.json của bạn.

Thêm lệnh vào composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Sử dụng trình soạn nhạc để tải xuống gói bằng cách chạy lệnh:

Phân tích cú pháp tệp PDF và trích xuất văn bản từ mỗi trang thông qua API PHP

PDFParser cung cấp chức năng cho phép các lập trình viên máy tính phân tích cú pháp tài liệu PDF bên trong ứng dụng PHP của riêng họ. Đầu tiên, bạn cần xây dựng các đối tượng cần thiết sau đó tải tệp PDF, tệp được phân tích cú pháp có thể được lưu trữ trên một biến và sau đó đối tượng này sẽ cho phép bạn xử lý từng trang PDF. Giờ đây, bạn có thể dễ dàng trích xuất văn bản từ toàn bộ PDF hoặc từng trang riêng biệt. Sau khi tài liệu được phân tích cú pháp, bạn có thể dễ dàng trích xuất văn bản từ mỗi trang của PDF.

Phân tích cú pháp tệp PDF qua PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Trích xuất siêu dữ liệu từ tài liệu PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Trích xuất siêu dữ liệu từ PDF thông qua API PHP

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Trích xuất văn bản từ một trang PDF cụ thể

PDFParser cho phép các nhà phát triển trích xuất văn bản từ các trang cụ thể một cách dễ dàng bằng cách sử dụng một lượng nhỏ mã. API cung cấp cho các nhà phát triển khả năng xử lý riêng từng trang của tài liệu PDF. Các nhà phát triển có thể lặp lại qua các mảng trang và có thể lấy văn bản từ trang mà họ lựa chọn. Thứ tự của mảng giống như thứ tự của tài liệu PDF.

Trích xuất văn bản từ PDF qua PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();