Perpustakaan PHP Sumber Terbuka untuk Menghuraikan Fail PDF
API PHP percuma membolehkan Pembangun Menghuraikan Fail PDF, Mengekstrak Data & Elemen daripada PDF.
PDFParser ialah Perpustakaan PHP sumber Terbuka yang membenarkan pembangun perisian menghuraikan fail PDF dan mengekstrak elemen PDF di dalam aplikasi PHP mereka sendiri. PDFParser dibina di atas penghurai TCPDF. PDFParser ialah perpustakaan PHP kendiri yang menyediakan pelbagai alat untuk mengekstrak data daripada fail PDF.
Format Dokumen Mudah Alih (PDF) ialah salah satu format dokumen kegemaran Dunia dan masih sangat popular. API menyokong beberapa ciri penting untuk penghuraian PDF, seperti memuatkan dan menghuraikan objek dan pengepala PDF, mengekstrak metadata, mengekstrak teks daripada halaman yang dipesan, sokongan PDF termampat, sokongan pengekodan kandungan Hexa dan oktal, dan banyak lagi.
.
Bermula dengan PDFParser
Pustaka PDFParser akan dimuat turun secara automatik melalui baris perintah composer. Tambahkan PDFParser pada fail composer.json anda.
Tambahkan perintah pada composer.json
{
"require": {
"smalot/pdfparser": "*"
}
}
Gunakan komposer untuk memuat turun berkas dengan menjalankan arahan:
Menghuraikan Fail PDF & Ekstrak Teks daripada Setiap Halaman melalui API PHP
PDFParser menyediakan fungsi yang membolehkan pengaturcara komputer menghuraikan dokumen PDF di dalam aplikasi PHP mereka sendiri. Mula-mula, anda perlu membina objek yang diperlukan kemudian memuatkan fail PDF, fail yang dihuraikan boleh disimpan pada pembolehubah dan kemudian objek ini akan membolehkan anda mengendalikan halaman PDF mengikut halaman. Kini anda boleh mengekstrak teks dengan mudah daripada keseluruhan PDF atau secara berasingan mengikut halaman. Setelah dokumen dihuraikan kini anda boleh mengekstrak teks dengan mudah daripada setiap halaman PDF.
Menghuraikan Fail PDF melalui PHP
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
Ekstrak Metadata daripada Dokumen PDF
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
Ekstrak Metadata daripada PDF melalui API PHP
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Ekstrak Teks daripada Halaman PDF Tertentu
PDFParser membolehkan pembangun mengekstrak teks daripada halaman tertentu dengan mudah dengan menggunakan sejumlah kecil kod. API memberikan pembangun keupayaan untuk mengendalikan secara berasingan setiap halaman dokumen PDF. Pembangun boleh mengulang melalui tatasusunan halaman dan boleh mendapatkan semula teks daripada halaman pilihan mereka. Susunan tatasusunan adalah sama dengan susunan dokumen PDF.
Ekstrak Teks daripada PDF melalui PHP
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();