Open Source PHP Library untuk Parsing File PDF

API PHP Gratis memungkinkan Pengembang untuk Mengurai File PDF, Mengekstrak Data & Elemen dari PDF.

PDFParser adalah Open source PHP Library yang memungkinkan pengembang perangkat lunak untuk mengurai file PDF dan mengekstrak elemen PDF di dalam aplikasi PHP mereka sendiri. PDFParser dibangun di atas parser TCPDF. PDFParser adalah perpustakaan PHP mandiri yang menyediakan berbagai alat untuk mengekstrak data dari file PDF.

Portable Document Format (PDF) adalah salah satu format dokumen favorit Dunia dan masih sangat populer. API mendukung beberapa fitur penting untuk penguraian PDF, seperti memuat dan menguraikan objek dan header PDF, mengekstrak metadata, mengekstrak teks dari halaman yang dipesan, dukungan PDF terkompresi, dukungan pengkodean konten Hexa dan oktal, dan banyak lagi.

Sekilas

Ikhtisar fitur PDFParser.

Ikhtisar Fitur

Muat objek PDF
Mengurai objek
Mengurai header
Ekstrak metadata
Ekstrak teks
PDF terkompresi
pengkodean rangkaian karakter
Pengkodean heksa
Pengkodean oktal

Pengurai PDF

PDFParser mendukung format file PDF serta format standar industri untuk ekspor.

Pembaca

Penulis

TXT, HTML

Pengurai PDF

Platform Kemerdekaan

PDFParser hanya membutuhkan waktu proses PHP.

PHP 5.3 ke atas.

Pengurai PDF

Memulai dengan PDFParser

Pustaka PDFParser akan diunduh secara otomatis melalui baris perintah komposer. Tambahkan PDFParser ke file composer.json Anda.

Tambahkan perintah ke composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Gunakan komposer untuk mengunduh bundel dengan menjalankan perintah:

Parsing File PDF & Ekstrak Teks dari Setiap Halaman melalui PHP API

PDFParser menyediakan fungsionalitas yang memungkinkan pemrogram komputer untuk mengurai dokumen PDF di dalam aplikasi PHP mereka sendiri. Pertama, Anda perlu membangun objek yang diperlukan kemudian memuat file PDF, file yang diuraikan dapat disimpan pada variabel dan kemudian objek ini akan memungkinkan Anda untuk menangani halaman PDF demi halaman. Sekarang Anda dapat dengan mudah mengekstrak teks dari seluruh PDF atau secara terpisah berdasarkan halaman. Setelah dokumen diuraikan sekarang Anda dapat dengan mudah mengekstrak teks dari setiap halaman PDF.

Parsing File PDF melalui PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Ekstrak Metadata dari Dokumen PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Ekstrak Metadata dari PDF melalui PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Ekstrak Teks dari Halaman PDF Tertentu

PDFParser memungkinkan pengembang untuk mengekstrak teks dari halaman tertentu dengan mudah dengan menggunakan sejumlah kecil kode. API memberi pengembang kemampuan untuk menangani setiap halaman dokumen PDF secara terpisah. Pengembang dapat mengulangi melalui larik halaman dan dapat mengambil teks dari halaman pilihan mereka. Urutan lariknya sama dengan urutan dokumen PDF.

Ekstrak Teks dari PDF melalui PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();