Python ライブラリを介して PDF を操作するアプリを開発する
PDF ファイルのページを分割、結合、切り抜き、変換し、カスタム データとパスワードを PDF に追加できるオープン ソースの Python API。
PyPDF2 は、外部依存関係なしに Python アプリケーション内で PDF ファイルを操作する機能を提供する、オープン ソースの純粋な Python ライブラリです。このライブラリには、複数の PDF ファイルのマージ、PDF ファイルのコンテンツの抽出、角度による PDF ファイルのページの回転、PDF ページのスケーリング、PDF ファイルのページの変換、PDF ページからの画像の抽出など、多数の重要な PDF 機能のサポートが含まれています。もっとたくさん。
オープン ソース プログラミング ライブラリ PyPDF2 は非常に使いやすく、ソース コードは十分に文書化されていて理解しやすいものです。このライブラリを使用すると、開発者は、ページ数、作成者、作成者、作成日時、最終更新日時などの PDF ファイルのメタデータを読み取って抽出できます。ライブラリは、数行の Python コードで PDF ファイルの暗号化と復号化もサポートしています。
.
PyPDF2 を使い始める
PyPDF2 は Python 標準ライブラリの一部として提供されていないため、自分でインストールする必要があります。そのための推奨される方法は、pip を使用することです。
pip 経由で PyPDF2 をインストールする
python -m pip install pypdf2
Python 経由で PDF からテキストを抽出する
PyPDF2 ライブラリは、Python を介して PDF ファイルからプログラムでテキストを抽出する機能を提供します。 PDF ファイルからデータを取得するのは簡単ではありません。なぜなら、PDF が情報を保存する方法では取得が困難だからです。 PyPDF2 は、情報を取得するための使いやすい組み込み関数を提供することで、開発者の仕事を容易にします。ページ オブジェクトで extractText() メソッドを使用して、ページのテキスト コンテンツを取得できます。
Python を介して PDF からテキストを抽出する
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Python 経由で PDF ファイルを読み取る
PyPDF2 ライブラリは、Python を介して PDF ファイルからプログラムでテキストを抽出する機能を提供します。 PDF ファイルからデータを取得するのは簡単ではありません。なぜなら、PDF が情報を保存する方法では取得が困難だからです。 PyPDF2 は、情報を取得するための使いやすい組み込み関数を提供することで、開発者の仕事を容易にします。ページ オブジェクトで extractText() メソッドを使用して、ページのテキスト コンテンツを取得できます。
Python経由でPDFファイルを読む
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
PDF ドキュメントの結合または分割
2 つ以上の PDF ファイルを 1 つのドキュメントにマージする必要がある状況に陥ったことはありませんか?多くの場合、組織では、複数の PDF ファイルを 1 つのドキュメントにマージする必要があります。 PyPDF2 ライブラリは、PDF ファイルを数行の Python コードと結合する機能を提供します。開発者は、必要に応じて大きな PDF ドキュメントを小さなドキュメントに簡単に分割することもできます。開発者は PDF ブックの特定の部分を簡単に抽出したり、複数の PDF に分割したりできます
Python 経由で PDF ファイルをマージする
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
PDF ファイルからメタデータを抽出する
PyPDF2 ライブラリには、いくつかの Python コマンドを使用して PDF ドキュメントからメタデータを抽出する機能が含まれています。作成者、作成者アプリ、ページ数、文書名、作成日などの情報を簡単に取得できます。PDF文書のメタデータを簡単に抽出して、用途に合わせて利用できます。
Python を介して PDF からメタデータを抽出する
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)