1. 製品
  2.   PDF
  3.   Python
  4.   pdf2docx
 
  

オープンソースの Python ライブラリで PDF から Docx へ変換

無料の Python API は、PDF 文書を DOCX に作成し、変換したり、ページレイアウトを再作成したり、Python ライブラリを介して段落を再作成したりすることができます。

ドキュメント作成と処理には、PDF種類のPythonライブラリがあります。 Python は、開発がとても簡単で高速になるため、PDF 処理を処理するための最良の言語であると考えられています。 pdf2docは、コンピュータプログラマがPDF文書をWord DOCXファイルフォーマットに簡単に作成および変換できるようにする、このような強力なオープンソースのPythonライブラリです。 ライブラリは、簡単にアクセスし、ライブラリのさまざまな機能を使用することを可能にするシンプルなUIを持ちます。

pdf2docライブラリには、PDFのドキュメントにアクセスしたり、PDFから他のファイル形式に変換したり、ページレイアウトをパースしたり、再作成したり、ページマージンのサポートをしたり、メタ情報抽出したり、PDFファイルからテキストを抽出したり、パラグラフを解析したり、再編集したり、PDFにテキストを入力したり、スタイルをサポートしたり、パーカーをリストしたり、画像、透明な画像、パーカーを再作成したり、テーブルをマージしたり、複数の境界線を持つテーブルを分割したり、複数のページをコピーしたり、複数のページを作成したりすることができます。

Previous Next

pdf2doc入門

pdf2docは取付けること非常に容易です、 pip を使用するには、任意の簡単なインストールに次のコマンドを使用してください。

pdf2docをインストールする ピップ

 pip install pdf2docx 

手動でインストールすることもできます。最新のリリース ファイルを GitHub リポジトリから直接ダウンロードします。

Python API で PDF ファイルから Docx へ変換

オープンソース pdf2doc ライブラリは、Python コードのほんの数行で、PDF のファイル変換を Docx 形式に完全にサポートします。 ライブラリは、PDF変換を処理するためのいくつかの方法を提供しました。 ドキュメントのすべてのページを変換したり、特定のページを選択したり、Docxファイルに変換したりすることができます。 また、ライブラリは、Python アプリケーション内のパスワード保護PDF文書へのアクセスと変換をサポートしています。 ライブラリは、開始と終了のみで指定された連続PDFページのみで動作する複数の処理をサポートしています。

Python API を使用して PDF のすべてのページを変換する

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

指定したPDFページをDocxページに Pythonで変換

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Python API で PDF からテーブルを抽出する

PDF ファイルから特定のデータを抽出する必要がある場合があります。無料の pdf2docx ライブラリを使用すると、ユーザーは外部依存関係なしに PDF ファイルからテーブルを抽出できます。このタスクを達成するには、extract_tables() 関数を使用する必要があります。次の例を使用して、PDF ファイルからすべてのテーブルを抽出できます。

Python APIでPDFテーブルを抽出

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Python API で PDF からすべてのテーブルを抽出する

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 日本