PDF ファイルを解析するためのオープンソース PHP ライブラリ

無料の PHP API を使用すると、開発者は PDF ファイルを解析し、PDF からデータと要素を抽出できます。

PDFParser は、ソフトウェア開発者が PDF ファイルを解析し、独自の PHP アプリケーション内で PDF 要素を抽出できるようにするオープンソースの PHP ライブラリです。 PDFParser は、TCPDF パーサーの上に構築されています。 PDFParser は、PDF ファイルからデータを抽出するためのさまざまなツールを提供するスタンドアロンの PHP ライブラリです。

Portable Document Format (PDF) は、世界で最も人気のあるドキュメント形式の 1 つであり、今でも非常に人気があります。この API は、PDF オブジェクトとヘッダーの読み込みと解析、メタデータの抽出、順序付けられたページからのテキストの抽出、圧縮 PDF のサポート、16 進および 8 進のコンテンツエンコーディングのサポートなど、PDF の解析に関するいくつかの重要な機能をサポートしています。

概要

PDFParser 機能の概要。

機能の概要

PDF オブジェクトを読み込む
オブジェクトを解析する
ヘッダーを解析する
メタデータの抽出
テキストを抽出する
圧縮PDF
文字セットエンコーディング
ヘキサエンコーディング
8 進エンコーディング

PDFパーサー

PDFParser は、エクスポート用の業界標準形式だけでなく、PDF ファイル形式もサポートしています。

読者

ライター

TXT, HTML

PDFパーサー

プラットフォーム非依存

PDFParser は、PHP ランタイムのみを必要とします。

PHP 5.3 以降。

PDFパーサー

PDFParser を使い始める

PDFParser ライブラリは、composer コマンドラインから自動的にダウンロードされます。 PDFParser を composer.json ファイルに追加します。

コマンドを composer.json に追加

 { 
  "require": {
  "smalot/pdfparser": "*"
  } 
 }

次のコマンドを実行して、composer を使用してバンドルをダウンロードします。

PDF ファイルを解析し、PHP API を介して各ページからテキストを抽出する

PDFParser は、コンピュータープログラマーが独自の PHP アプリケーション内で PDF ドキュメントを解析できるようにする機能を提供します。最初に、必要なオブジェクトを作成してから PDF ファイルをロードする必要があります。解析されたファイルは変数に格納でき、このオブジェクトを使用して PDF をページごとに処理できます。 PDF 全体から、またはページごとにテキストを簡単に抽出できるようになりました。ドキュメントが解析されると、PDF の各ページからテキストを簡単に抽出できます。

PHP 経由で PDF ファイルを解析する

  // Include Composer autoloader if not already done.
  include 'vendor/autoload.php';
  // Parse Base64 encoded PDF string and build necessary objects.
  $parser = new \Smalot\PdfParser\Parser();
  $pdf  = $parser->parseContent(base64_decode($base64PDF));
  $text = $pdf->getText();
  echo $text;

PDF ドキュメントからメタデータを抽出する

Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.

PHP API 経由で PDF からメタデータを抽出する

  // Metadata Extraction from PDF 
  $metaData = $pdf->getDetails();
  Array
  (
   [Producer] => Adobe Acrobat
   [CreatedOn] => 2022-01-28T16:36:11+00:00
   [Pages] => 35
  )

特定の PDF ページからテキストを抽出する

PDFParser を使用すると、開発者は少量のコードを使用して特定のページから簡単にテキストを抽出できます。 API を使用すると、開発者は PDF ドキュメントの各ページを個別に処理できます。開発者は、ページの配列を繰り返し処理し、選択したページからテキストを取得できます。配列の順序は、PDF ドキュメントの順序と同じです。

PHP 経由で PDF からテキストを抽出する

  // Extract Text from PDF via PHP
  $text = $pdf->getText();
  // or extract the text of a specific page (in this case the first page)
  $text = $pdf->getPages()[0]->getText();