通过开放源Python图书馆创建PDF至Docx
自由Python API可以通过Python图书馆创建并将PDF个文件转换为DOCX个、Pke和重新创建页面布局或重新创建段落。
从Pdf2开始
pdf2doc很容易安装、这样做的首选方法是使用管道、请使用下列命令进行任何易于安装。
通过Python转换PDF文件到Docx
开放源码pdf2doc库完全支持PDF个文件转换为Docx个文件格式、只有几行Python代码。 图书馆提供了几种处理PDF个转换的方法。 您可以转换文档的所有页面或选择一些特定页面并将其转换为Docx个文件。 图书馆还支持访问和转换在Python应用程序中保护的PDF个文档。 图书馆还支持多处理、只有开始和结束时指定的持续PDF页。
通过Python API转换PDF页
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
通过Python转换PDF页至Docx页
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
通过Python API提取表PDF
有时我们需要从PDF个文件中提取一些特定的数据。 免费的pdf2doc库允许用户从PDF个文件中提取表而不受任何外部依赖。 为了完成这个任务、您需要使用提取符()函数。 以下示例可用于从PDF个文件中提取所有表。
通过Python API提取PDF表
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
从PDF通过Python API提取所有表格
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)