1. Продукти
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

Бібліотека PHP з відкритим вихідним кодом для аналізу PDF-файлів

Безкоштовний PHP API дозволяє розробникам аналізувати PDF-файли, витягувати дані й елементи з PDF-файлів.

PDFParser — це бібліотека PHP із відкритим вихідним кодом, яка дозволяє розробникам програмного забезпечення аналізувати файли PDF і видобувати елементи PDF у своїх власних програмах PHP. PDFParser побудовано на основі аналізатора TCPDF. PDFParser — це окрема бібліотека PHP, яка надає різні інструменти для вилучення даних із PDF-файлу.

Portable Document Format (PDF) є одним із найулюбленіших у світі форматів документів, який досі дуже популярний. API підтримує кілька важливих функцій аналізу PDF-файлів, наприклад завантаження та аналіз PDF-об’єктів і заголовків, вилучення метаданих, вилучення тексту з упорядкованих сторінок, підтримку стисненого PDF-файлу, підтримку шістнадцяткового та вісімкового кодування вмісту та багато іншого.

.

Previous Next

Початок роботи з PDFParser

Бібліотеку PDFParser буде автоматично завантажено через командний рядок composer. Додайте PDFParser до свого файлу composer.json.

Додайте команду до composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

Використовуйте композитор, щоб завантажити комплект, виконавши команду:

Проаналізуйте PDF-файл і витягніть текст із кожної сторінки за допомогою PHP API

PDFParser надає функціональність, яка дозволяє комп’ютерним програмістам аналізувати PDF-документи у їхній власній програмі PHP. Спочатку вам потрібно створити необхідні об’єкти, а потім завантажити PDF-файл, проаналізований файл можна зберегти у змінній, а потім цей об’єкт дозволить вам обробляти PDF-файл сторінка за сторінкою. Тепер ви можете легко витягувати текст із усього PDF-файлу або окремо по сторінках. Після аналізу документа ви можете легко витягти текст із кожної сторінки PDF-файлу.

Проаналізуйте файл PDF через PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Витягти метадані з PDF-документа

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Видобуток метаданих із PDF за допомогою PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Витягніть текст із певної сторінки PDF

PDFParser дозволяє розробникам легко отримувати текст із певних сторінок за допомогою невеликої кількості коду. API дає розробникам можливість окремо обробляти кожну сторінку документа PDF. Розробники можуть переглядати масив сторінок і отримувати текст зі сторінки на свій вибір. Порядок масиву такий самий, як у PDF-документі.

Витягніть текст із PDF за допомогою PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 Українська