PHP библиотека с отворен код за анализиране на PDF файлове
Безплатният PHP API позволява на разработчиците да анализират PDF файлове, да извличат данни и елементи от PDF файлове.
PDFParser е PHP библиотека с отворен код, която позволява на разработчиците на софтуер да анализират PDF файлове и да извличат PDF елементи в техните собствени PHP приложения. PDFParser е изграден върху TCPDF анализатора. PDFParser е самостоятелна PHP библиотека, която предоставя различни инструменти за извличане на данни от PDF файл.
Portable Document Format (PDF) е един от любимите формати на документи в света и все още е много популярен. API поддържа няколко важни функции за анализиране на PDF, като зареждане и анализиране на PDF обекти и заглавки, извличане на метаданни, извличане на текст от подредени страници, поддръжка на компресиран PDF, поддръжка на шестнадесетично и осмично кодиране на съдържание и много други.
.
Първи стъпки с PDFParser
Библиотеката PDFParser ще бъде изтеглена автоматично чрез командния ред компонент. Добавете PDFParser към вашия файл composer.json.
Добавете команда към composer.json
{
"require": {
"smalot/pdfparser": "*"
}
}
Използвайте композитора, за да изтеглите пакета, като изпълните командата:
Анализирайте PDF файл и извлечете текст от всяка страница чрез PHP API
PDFParser предоставя функционалността, която позволява на компютърните програмисти да анализират PDF документи в собственото си PHP приложение. Първо, трябва да създадете необходимите обекти, след което да заредите PDF файла, анализираният файл може да бъде съхранен в променлива и след това този обект ще ви позволи да обработвате PDF страница по страница. Сега можете лесно да извличате текст от целия PDF файл или отделно по страници. След като документът бъде анализиран, можете лесно да извлечете текст от всяка страница на PDF файла.
Анализирайте PDF файл чрез PHP
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
Извличане на метаданни от PDF документ
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
Извличане на метаданни от PDF чрез PHP API
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Извличане на текст от конкретна PDF страница
PDFParser позволява на разработчиците да извличат текст от конкретни страници с лекота, като използват малко количество код. API дава възможност на разработчиците да обработват отделно всяка страница от PDF документа. Разработчиците могат да преминават през масива от страници и да извличат текст от страницата по свой избор. Редът на масива е същият като този на PDF документа.
Извличане на текст от PDF чрез PHP
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();