PHP библиотека с отворен код за анализиране на PDF файлове

Безплатният PHP API позволява на разработчиците да анализират PDF файлове, да извличат данни и елементи от PDF файлове.

PDFParser е PHP библиотека с отворен код, която позволява на разработчиците на софтуер да анализират PDF файлове и да извличат PDF елементи в техните собствени PHP приложения. PDFParser е изграден върху TCPDF анализатора. PDFParser е самостоятелна PHP библиотека, която предоставя различни инструменти за извличане на данни от PDF файл.

Portable Document Format (PDF) е един от любимите формати на документи в света и все още е много популярен. API поддържа няколко важни функции за анализиране на PDF, като зареждане и анализиране на PDF обекти и заглавки, извличане на метаданни, извличане на текст от подредени страници, поддръжка на компресиран PDF, поддръжка на шестнадесетично и осмично кодиране на съдържание и много други.

С един поглед

Преглед на функциите на PDFParser.

Преглед на характеристиките

Заредете PDF обекти
Анализирайте обекти
Анализирайте заглавките
Извличане на метаданни
Извличане на текст
Компресиран PDF
кодиране на набор от знаци
Шестнадесетично кодиране
Осмично кодиране

PDFParser

PDFParser поддържа PDF файлов формат, както и индустриални стандартни формати за експортиране.

Читател

Писател

TXT, HTML

PDFParser

Независимост на платформата

PDFParser изисква само време за изпълнение на PHP.

PHP 5.3 и по-нова версия.

PDFParser

Първи стъпки с PDFParser

Библиотеката PDFParser ще бъде изтеглена автоматично чрез командния ред компонент. Добавете PDFParser към вашия файл composer.json.

Добавете команда към composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Използвайте композитора, за да изтеглите пакета, като изпълните командата:

Анализирайте PDF файл и извлечете текст от всяка страница чрез PHP API

PDFParser предоставя функционалността, която позволява на компютърните програмисти да анализират PDF документи в собственото си PHP приложение. Първо, трябва да създадете необходимите обекти, след което да заредите PDF файла, анализираният файл може да бъде съхранен в променлива и след това този обект ще ви позволи да обработвате PDF страница по страница. Сега можете лесно да извличате текст от целия PDF файл или отделно по страници. След като документът бъде анализиран, можете лесно да извлечете текст от всяка страница на PDF файла.

Анализирайте PDF файл чрез PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Извличане на метаданни от PDF документ

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Извличане на метаданни от PDF чрез PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Извличане на текст от конкретна PDF страница

PDFParser позволява на разработчиците да извличат текст от конкретни страници с лекота, като използват малко количество код. API дава възможност на разработчиците да обработват отделно всяка страница от PDF документа. Разработчиците могат да преминават през масива от страници и да извличат текст от страницата по свой избор. Редът на масива е същият като този на PDF документа.

Извличане на текст от PDF чрез PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();