Open Source PHP-bibliotek for å analysere PDF-filer
Gratis PHP API lar utviklere analysere PDF-filer, trekke ut data og elementer fra PDF-filer.
PDFParser er et PHP-bibliotek med åpen kildekode som lar programvareutviklere analysere PDF-filer og trekke ut PDF-elementer i sine egne PHP-applikasjoner. PDFParser er bygget på toppen av TCPDF-parser. PDFParser er et frittstående PHP-bibliotek som gir ulike verktøy for å trekke ut data fra en PDF-fil.
Portable Document Format (PDF) er et av verdens favorittdokumentformater og er fortsatt veldig populært. API-en støtter flere viktige funksjoner for PDF-parsing, som å laste og analysere PDF-objekter og overskrifter, trekke ut metadata, trekke ut tekst fra ordnede sider, støtte for komprimert PDF, støtte for koding av heksa og oktalt innhold, og mange flere.
.
Komme i gang med PDFParser
PDFParser-biblioteket lastes ned automatisk via kommandolinjen composer. Legg til PDFParser i composer.json-filen din.
Legg til kommandoen til composer.json
{
"require": {
"smalot/pdfparser": "*"
}
}
Bruk komponisten til å laste ned pakken ved å kjøre kommandoen:
Parse PDF-fil og trekk ut tekst fra hver side via PHP API
PDFParser gir funksjonaliteten som gjør det mulig for dataprogrammerere å analysere PDF-dokumenter i sin egen PHP-applikasjon. Først må du bygge nødvendige objekter og deretter laste PDF-filen, den analyserte filen kan lagres på en variabel og deretter vil dette objektet tillate deg å håndtere PDF-en side for side. Nå kan du enkelt trekke ut tekst fra hele PDF-en eller separat etter sider. Når dokumentet er analysert, kan du enkelt trekke ut tekst fra hver side i PDF-en.
Parse PDF-fil via PHP
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
Trekk ut metadata fra PDF-dokument
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
Trekk ut metadata fra PDF via PHP API
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Trekk ut tekst fra en bestemt PDF-side
PDFParser lar utviklere enkelt trekke ut tekst fra bestemte sider ved å bruke en liten mengde kode. API-en gir utviklere muligheten til å håndtere hver side i PDF-dokumentet separat. Utviklere kan iterere gjennom utvalget av sider og kan hente tekst fra siden de velger. Rekkefølgen på matrisen er den samme som PDF-dokumentet.
Trekk ut tekst fra PDF via PHP
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();