Open Source PHP-bibliotek för att analysera PDF-filer

Gratis PHP API tillåter utvecklare att analysera PDF-filer, extrahera data och element från PDF-filer.

PDFParser är ett PHP-bibliotek med öppen källkod som tillåter programutvecklare att analysera PDF-filer och extrahera PDF-element i sina egna PHP-applikationer. PDFParser är byggd ovanpå TCPDF-parser. PDFParser är ett fristående PHP-bibliotek som tillhandahåller olika verktyg för att extrahera data från en PDF-fil.

Portable Document Format (PDF) är ett av världens favoritdokumentformat och är fortfarande mycket populärt. API:et stöder flera viktiga funktioner för PDF-tolkning, som att ladda och analysera PDF-objekt och rubriker, extrahera metadata, extrahera text från ordnade sidor, stöd för komprimerad PDF, stöd för kodning av hexa och oktalt innehåll och många fler.

En överblick

En översikt över PDFParser-funktioner.

Funktioner Översikt

Ladda PDF-objekt
Analysera objekt
Analysera rubriker
Extrahera metadata
Extrahera text
Komprimerad PDF
teckenuppsättningskodning
Hexa-kodning
Oktal kodning

PDFParser

PDFParser stöder PDF-filformat såväl som industristandardformat för export.

Läsare

Författare

TXT, HTML

PDFParser

Plattformsoberoende

PDFParser kräver bara PHP-körning.

PHP 5.3 och högre.

PDFParser

Komma igång med PDFParser

PDFParser-biblioteket kommer att laddas ned automatiskt via kommandoraden composer. Lägg till PDFParser i filen composer.json.

Lägg till kommandot till composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Använd kompositören för att ladda ner paketet genom att köra kommandot:

Analysera PDF-fil och extrahera text från varje sida via PHP API

PDFParser tillhandahåller den funktionalitet som gör det möjligt för datorprogrammerare att analysera PDF-dokument i sin egen PHP-applikation. Först måste du bygga nödvändiga objekt och sedan ladda PDF-filen, den analyserade filen kan lagras på en variabel och sedan kommer detta objekt att låta dig hantera PDF-filen sida för sida. Nu kan du enkelt extrahera text från hela PDF-filen eller separat per sidor. När dokumentet har analyserats nu kan du enkelt extrahera text från varje sida i PDF-filen.

Analysera PDF-fil via PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Extrahera metadata från PDF-dokument

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Extrahera metadata från PDF via PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Extrahera text från en specifik PDF-sida

PDFParser tillåter utvecklare att extrahera text från specifika sidor med lätthet genom att använda en liten mängd kod. API:et ger utvecklare möjlighet att hantera varje sida i PDF-dokumentet separat. Utvecklare kan iterera genom uppsättningen av sidor och kan hämta text från den sida de väljer. Ordningen för arrayen är densamma som PDF-dokumentet.

Extrahera text från PDF via PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();