1. Προϊόντα
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

Βιβλιοθήκη PHP ανοιχτού κώδικα για ανάλυση αρχείων PDF

Το δωρεάν PHP API επιτρέπει στους προγραμματιστές να αναλύουν αρχεία PDF, να εξάγουν δεδομένα και στοιχεία από αρχεία PDF.

Το PDFParser είναι μια Βιβλιοθήκη PHP ανοιχτού κώδικα που επιτρέπει στους προγραμματιστές λογισμικού να αναλύουν αρχεία PDF και να εξάγουν στοιχεία PDF μέσα στις δικές τους εφαρμογές PHP. Το PDFParser είναι χτισμένο πάνω από τον αναλυτή TCPDF. Το PDFParser είναι μια αυτόνομη βιβλιοθήκη PHP που παρέχει διάφορα εργαλεία για την εξαγωγή δεδομένων από ένα αρχείο PDF.

Το Portable Document Format (PDF) είναι μια από τις αγαπημένες μορφές εγγράφων στον κόσμο και εξακολουθεί να είναι πολύ δημοφιλής. Το API υποστηρίζει πολλές σημαντικές δυνατότητες ανάλυσης PDF, όπως φόρτωση και ανάλυση αντικειμένων και κεφαλίδων PDF, εξαγωγή μεταδεδομένων, εξαγωγή κειμένου από ταξινομημένες σελίδες, υποστήριξη συμπιεσμένου PDF, υποστήριξη κωδικοποίησης Hexa και οκταδικού περιεχομένου και πολλά άλλα.

.

Previous Next

Ξεκινώντας με το PDFParser

Θα γίνει αυτόματη λήψη της βιβλιοθήκης PDFParser μέσω της γραμμής εντολών composer. Προσθέστε το PDFParser στο αρχείο σας composer.json.

Προσθήκη  εντολής στο composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

Χρησιμοποιήστε το συνθέτη για να κατεβάσετε το πακέτο εκτελώντας την εντολή:

Ανάλυση αρχείου PDF και εξαγωγή κειμένου από κάθε σελίδα μέσω PHP API

Το PDFParser παρέχει τη λειτουργικότητα που επιτρέπει στους προγραμματιστές υπολογιστών να αναλύουν έγγραφα PDF μέσα στη δική τους εφαρμογή PHP. Πρώτα, πρέπει να δημιουργήσετε τα απαραίτητα αντικείμενα και στη συνέχεια να φορτώσετε το αρχείο PDF, το αναλυμένο αρχείο μπορεί να αποθηκευτεί σε μια μεταβλητή και, στη συνέχεια, αυτό το αντικείμενο θα σας επιτρέψει να χειριστείτε το PDF σελίδα προς σελίδα. Τώρα μπορείτε εύκολα να εξαγάγετε κείμενο από ολόκληρο το PDF ή ξεχωριστά ανά σελίδες. Μόλις αναλυθεί το έγγραφο τώρα, μπορείτε εύκολα να εξαγάγετε κείμενο από κάθε σελίδα του PDF.

Ανάλυση αρχείου PDF μέσω PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Εξαγωγή μεταδεδομένων από έγγραφο PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Εξαγωγή μεταδεδομένων από PDF μέσω PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Εξαγωγή κειμένου από μια συγκεκριμένη σελίδα PDF

Το PDFParser επιτρέπει στους προγραμματιστές να εξάγουν κείμενο από συγκεκριμένες σελίδες με ευκολία χρησιμοποιώντας μια μικρή ποσότητα κώδικα. Το API δίνει στους προγραμματιστές τη δυνατότητα να χειρίζονται ξεχωριστά κάθε σελίδα του εγγράφου PDF. Οι προγραμματιστές μπορούν να επαναλάβουν τη σειρά των σελίδων και μπορούν να ανακτήσουν κείμενο από τη σελίδα της επιλογής τους. Η σειρά του πίνακα είναι ίδια με αυτή του εγγράφου PDF.

Εξαγωγή κειμένου από PDF μέσω PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 Ελληνικά