Open Source PHP-bibliotek til at analysere PDF-filer

Gratis PHP API giver udviklere mulighed for at parse PDF-filer, udtrække data og elementer fra PDF-filer.

PDFParser er et Open source PHP-bibliotek, der giver softwareudviklere mulighed for at parse PDF-filer og udpakke PDF-elementer i deres egne PHP-applikationer. PDFParser er bygget oven på TCPDF parser. PDFParser er et selvstændigt PHP-bibliotek, der giver forskellige værktøjer til at udtrække data fra en PDF-fil.

Portable Document Format (PDF) er et af verdens foretrukne dokumentformater og er stadig meget populært. API'en understøtter flere vigtige funktioner til PDF-parsing, såsom indlæsning og parsing af PDF-objekter og headers, udtrækning af metadata, udtrækning af tekst fra ordnede sider, komprimeret PDF-understøttelse, Hexa- og oktalindholdskodning, og mange flere.

Ved første øjekast

En oversigt over PDFParser-funktioner.

Oversigt over funktioner

Indlæs PDF-objekter
Parse objekter
Parse overskrifter
Udtræk metadata
Uddrag tekst
Komprimeret PDF
tegnsæt-kodning
Hexa-kodning
Oktal kodning

PDFParser

PDFParser understøtter PDF-filformat såvel som industristandardformater til eksport.

Læser

Forfatter

TXT, HTML

PDFParser

Platformuafhængighed

PDFParser kræver kun PHP-runtime.

PHP 5.3 og nyere.

PDFParser

Kom godt i gang med PDFParser

PDFParser-biblioteket downloades automatisk via kommandolinjen composer. Føj PDFParser til din composer.json-fil.

Tilføj kommando til composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

Brug komponisten til at downloade bundtet ved at køre kommandoen:

Parse PDF-fil og udtræk tekst fra hver side via PHP API

PDFParser giver den funktionalitet, der gør det muligt for computerprogrammører at parse PDF-dokumenter i deres egen PHP-applikation. Først skal du bygge nødvendige objekter og derefter indlæse PDF-filen, den parsede fil kan gemmes på en variabel, og derefter vil dette objekt tillade dig at håndtere PDF'en side for side. Nu kan du nemt udtrække tekst fra hele PDF'en eller separat efter sider. Når dokumentet er parset nu, kan du nemt udtrække tekst fra hver side i PDF'en.

Parse PDF-fil via PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Udtræk metadata fra PDF-dokument

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Uddrag metadata fra PDF via PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Uddrag tekst fra en bestemt PDF-side

PDFParser giver udviklere mulighed for nemt at udtrække tekst fra specifikke sider ved at bruge en lille mængde kode. API'en giver udviklere mulighed for at håndtere hver side i PDF-dokumentet separat. Udviklere kan iterere gennem rækken af sider og kan hente tekst fra den side, de selv vælger. Rækkefølgen af arrayet er den samme som PDF-dokumentets.

Uddrag tekst fra PDF via PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();