1. Produkty
  2.   PDF
  3.   PHP
  4.   PDFParser
 
  

Open Source Biblioteka PHP do analizowania plików PDF

Bezpłatny interfejs API PHP pozwala programistom analizować pliki PDF, wyodrębniać dane i elementy z plików PDF.

PDFParser to biblioteka PHP typu open source, która umożliwia programistom analizowanie plików PDF i wyodrębnianie elementów PDF we własnych aplikacjach PHP. PDFParser jest zbudowany na podstawie parsera TCPDF. PDFParser to samodzielna biblioteka PHP, która zapewnia różne narzędzia do wyodrębniania danych z pliku PDF.

Portable Document Format (PDF) jest jednym z ulubionych formatów dokumentów na świecie i nadal jest bardzo popularny. Interfejs API obsługuje kilka ważnych funkcji analizowania plików PDF, takich jak ładowanie i analizowanie obiektów i nagłówków PDF, wyodrębnianie metadanych, wyodrębnianie tekstu z uporządkowanych stron, obsługa skompresowanych plików PDF, obsługa kodowania treści w formacie szesnastkowym i ósemkowym oraz wiele innych.

.

Previous Next

Pierwsze kroki z PDFParser

Biblioteka PDFParser zostanie automatycznie pobrana za pomocą wiersza poleceń kompozytora. Dodaj PDFParser do pliku composer.json.

Dodaj polecenie do composer.json

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 } 

Użyj kompozytora, aby pobrać pakiet, uruchamiając polecenie:

Przeanalizuj plik PDF i wyodrębnij tekst z każdej strony za pomocą PHP API

PDFParser zapewnia funkcjonalność, która umożliwia programistom komputerowym analizowanie dokumentów PDF w ich własnej aplikacji PHP. Najpierw musisz zbudować niezbędne obiekty, a następnie załadować plik PDF, przeanalizowany plik może być przechowywany w zmiennej, a następnie ten obiekt pozwoli Ci obsłużyć PDF strona po stronie. Teraz możesz łatwo wyodrębnić tekst z całego pliku PDF lub osobno według stron. Po przeanalizowaniu dokumentu możesz teraz łatwo wyodrębnić tekst z każdej strony pliku PDF.

Przeanalizuj plik PDF przez PHP

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

Wyodrębnij metadane z dokumentu PDF

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

Wyodrębnij metadane z PDF za pomocą PHP API

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

Wyodrębnij tekst z określonej strony PDF

PDFParser umożliwia programistom łatwe wyodrębnianie tekstu z określonych stron przy użyciu niewielkiej ilości kodu. API daje programistom możliwość oddzielnej obsługi każdej strony dokumentu PDF. Deweloperzy mogą iterować po tablicy stron i pobierać tekst z wybranej przez siebie strony. Kolejność tablicy jest taka sama jak w dokumencie PDF.

Wyodrębnij tekst z PDF przez PHP

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();
 Polski