Tạo ra và chuyển PDF đến Docx qua Thư viện mở nguồn mở
Miễn phí Python API có thể tạo ra và chuyển PDF tài liệu đến DOCX, Parke và tái tạo trang hoặc tái tạo đoạn băng qua thư viện Python.
Có rất nhiều thư viện Python cho PDF tài liệu sáng tạo và xử lý. Python được coi là ngôn ngữ tốt nhất để xử lý PDF vì nó phát triển rất dễ dàng và nhanh. pdf2doc là một nguồn mở mạnh mẽ của thư viện Python cho phép lập trình viên máy tính để tạo ra và chuyển đổi PDF tài liệu sang định dạng hồ sơ DOCX với sự thoải mái. Thư viện rất đơn giản để xử lý và có một UI đơn giản cho phép người dùng dễ dàng truy cập và sử dụng các tính năng của thư viện.
Thư viện pdf2docx đã bao gồm nhiều tính năng khác nhau để xử lý các thao tác PDF như truy cập tài liệu PDF, chuyển đổi PDF sang các định dạng tệp khác, phân tích cú pháp và tạo lại bố cục trang, hỗ trợ lề trang, trích xuất siêu thông tin, trích xuất văn bản từ tệp PDF, phân tích cú pháp và tái tạo -tạo đoạn văn, chèn văn bản vào PDF, hỗ trợ kiểu danh sách, Phân tích cú pháp và tạo lại hình ảnh, hình ảnh trong suốt, Phân tích cú pháp và tạo lại bảng, ô được hợp nhất, bảng có đường viền bị ẩn một phần, hỗ trợ bảng lồng nhau, Phân tích trang với nhiều xử lý, và nhiều hơn nữa.
Bắt đầu với pdf2doc
pdf2doc rất dễ cài đặt, Cách tốt nhất để làm vậy là sử dụng đường ống, làm ơn dùng lệnh tiếp theo để lắp đặt dễ dàng.
Cài đặt pdf2doc qua đường ống
pip install pdf2docx
Cũng có thể cài đặt thủ công; tải xuống các tệp phát hành mới nhất trực tiếp từ kho lưu trữ GitHub.
Chuyển tập tin PDF sang Docx qua Python API
Thư viện mã nguồn mở pdf2docx hỗ trợ đầy đủ chuyển đổi tệp PDF sang định dạng tệp Docx chỉ với một vài dòng mã Python. Thư viện đã cung cấp một số phương pháp để xử lý chuyển đổi PDF. Bạn có thể chuyển đổi tất cả các trang của tài liệu hoặc chọn một số trang cụ thể và chuyển đổi chúng thành tệp Docx. Thư viện cũng hỗ trợ truy cập và chuyển đổi các tài liệu PDF được bảo vệ bằng mật khẩu bên trong các ứng dụng Python. Thư viện cũng hỗ trợ đa xử lý chỉ hoạt động đối với các trang PDF liên tục, chỉ được chỉ định bởi bắt đầu và kết thúc.
Chuyển tất cả các trang PDF qua Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Chuyển đổi các trang PDF sang Docx thông qua Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Bảng chiết xuất từ PDF qua Python API
Đôi khi chúng ta cần trích xuất dữ liệu cụ thể từ file PDF. Thư viện pdf2doc miễn phí cho phép người dùng trích xuất bảng từ PDF tài liệu mà không phụ thuộc bên ngoài. Để đạt được nhiệm vụ này, anh cần dùng chức năng chiết xuất. Những ví dụ sau có thể được sử dụng để chiết xuất tất cả các bảng từ một file PDF.
Chiết xuất PDF bảng thông qua Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Chiết xuất tất cả các bàn từ PDF qua Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)