PDF ファイルを解析するためのオープンソース PHP ライブラリ
無料の PHP API を使用すると、開発者は PDF ファイルを解析し、PDF からデータと要素を抽出できます。
PDFParser は、ソフトウェア開発者が PDF ファイルを解析し、独自の PHP アプリケーション内で PDF 要素を抽出できるようにするオープン ソースの PHP ライブラリです。 PDFParser は、TCPDF パーサーの上に構築されています。 PDFParser は、PDF ファイルからデータを抽出するためのさまざまなツールを提供するスタンドアロンの PHP ライブラリです。
Portable Document Format (PDF) は、世界で最も人気のあるドキュメント形式の 1 つであり、今でも非常に人気があります。この API は、PDF オブジェクトとヘッダーの読み込みと解析、メタデータの抽出、順序付けられたページからのテキストの抽出、圧縮 PDF のサポート、16 進および 8 進のコンテンツ エンコーディングのサポートなど、PDF の解析に関するいくつかの重要な機能をサポートしています。
.
PDFParser を使い始める
PDFParser ライブラリは、composer コマンド ラインから自動的にダウンロードされます。 PDFParser を composer.json ファイルに追加します。
コマンドを composer.json に追加
{
"require": {
"smalot/pdfparser": "*"
}
}
次のコマンドを実行して、composer を使用してバンドルをダウンロードします。
PDF ファイルを解析し、PHP API を介して各ページからテキストを抽出する
PDFParser は、コンピューター プログラマーが独自の PHP アプリケーション内で PDF ドキュメントを解析できるようにする機能を提供します。最初に、必要なオブジェクトを作成してから PDF ファイルをロードする必要があります。解析されたファイルは変数に格納でき、このオブジェクトを使用して PDF をページごとに処理できます。 PDF 全体から、またはページごとにテキストを簡単に抽出できるようになりました。ドキュメントが解析されると、PDF の各ページからテキストを簡単に抽出できます。
PHP 経由で PDF ファイルを解析する
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
PDF ドキュメントからメタデータを抽出する
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
PHP API 経由で PDF からメタデータを抽出する
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
特定の PDF ページからテキストを抽出する
PDFParser を使用すると、開発者は少量のコードを使用して特定のページから簡単にテキストを抽出できます。 API を使用すると、開発者は PDF ドキュメントの各ページを個別に処理できます。開発者は、ページの配列を繰り返し処理し、選択したページからテキストを取得できます。配列の順序は、PDF ドキュメントの順序と同じです。
PHP 経由で PDF からテキストを抽出する
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();