Библиотека PHP с открытым исходным кодом для анализа PDF-файлов
Бесплатный PHP API позволяет разработчикам анализировать PDF-файлы, извлекать данные и элементы из PDF-файлов.
PDFParser — это PHP-библиотека с открытым исходным кодом, которая позволяет разработчикам программного обеспечения анализировать PDF-файлы и извлекать элементы PDF из своих собственных PHP-приложений. PDFParser построен поверх парсера TCPDF. PDFParser — это автономная библиотека PHP, которая предоставляет различные инструменты для извлечения данных из файла PDF.
Portable Document Format (PDF) — один из самых популярных форматов документов в мире, который по-прежнему очень популярен. API поддерживает несколько важных функций анализа PDF, таких как загрузка и анализ объектов и заголовков PDF, извлечение метаданных, извлечение текста из упорядоченных страниц, поддержка сжатых PDF, поддержка шестнадцатеричного и восьмеричного кодирования содержимого и многое другое.
.
Начало работы с PDFParser
Библиотека PDFParser будет автоматически загружена через командную строку composer. Добавьте PDFParser в файл composer.json.
Добавьте команду в composer.json
{
"require": {
"smalot/pdfparser": "*"
}
}
Используйте композитор для загрузки пакета, выполнив команду:
Анализ PDF-файла и извлечение текста с каждой страницы через PHP API
PDFParser предоставляет функциональные возможности, которые позволяют программистам анализировать PDF-документы внутри своего собственного PHP-приложения. Во-первых, вам нужно создать необходимые объекты, затем загрузить PDF-файл, проанализированный файл можно сохранить в переменной, а затем этот объект позволит вам обрабатывать PDF-файл страницу за страницей. Теперь вы можете легко извлекать текст из всего PDF или отдельно по страницам. После анализа документа теперь вы можете легко извлечь текст с каждой страницы PDF.
Разобрать PDF-файл через PHP
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
Извлечь метаданные из документа PDF
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
Извлечение метаданных из PDF через PHP API
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Извлечь текст из определенной страницы PDF
PDFParser позволяет разработчикам легко извлекать текст с определенных страниц, используя небольшой объем кода. API дает разработчикам возможность отдельно обрабатывать каждую страницу PDF-документа. Разработчики могут перебирать массив страниц и извлекать текст со страницы по своему выбору. Порядок массива такой же, как и в документе PDF.
Извлечь текст из PDF через PHP
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();