Створіть та перетворюйте PDF до Docx за допомогою бібліотеки Open Source Python
Безкоштовний Python API здатний створювати та конвертувати PDF документів на DOCX, Parke та відтворювати макет сторінки або відтворити абзацу за допомогою Python бібліотеки.
Існує багато бібліотек Python для створення та обробки документів PDF. AS Python вважається найкращою мовою для обробки PDF-файлів, оскільки вона робить розробку такою легкою та швидкою. pdf2docx — це одна з таких потужних бібліотек Python з відкритим вихідним кодом, яка дозволяє програмістам легко створювати та перетворювати документи PDF у формат Word DOCX. Бібліотека дуже проста в користуванні та має простий графічний інтерфейс, який дозволяє користувачам легко отримувати доступ і використовувати різні функції бібліотеки.
Бібліотека pdf2docx включає різні функції для обробки PDF-операцій, таких як доступ до PDF-документів, перетворення PDF в інші формати файлів, розбір і повторне створення макета сторінки, підтримка полів сторінки, вилучення метаінформації, вилучення тексту з PDF-файлів, аналіз і повторне -створення абзацу, вставлення тексту в PDF, підтримка стилів списку, аналіз і повторне створення зображення, прозоре зображення, аналіз і повторне створення таблиці, об’єднані комірки, таблиця з частково прихованими межами, підтримка вкладених таблиць, аналіз сторінок із кількома обробки та багато іншого.
Початок роботи з pdf2doc
pdf2doc дуже легко встановити, Найкращий спосіб зробити це використовувати pip, будь ласка, використовуйте наступний командний ряд для будь-якої легкої установки.
Встановити pdf2doc через pip
pip install pdf2docx
Також можлива установка вручну; завантажте файли останньої версії безпосередньо зі сховища GitHub.
Перетворення PDF Файл в Docx через Python API
Русский EnglishРусскийУкраїнськаPolskiItalianoEspañol汉语Bahasa Indonesiaहिन्दीPortuguês日本語DeutschFrançaisภาษาไทยελληνικά اللغة العربية У бібліотеці передбачено кілька способів обробки PDF перетворення. Ви можете конвертувати всі сторінки документа або вибрати деякі конкретні сторінки і конвертувати їх в Docx файл. Бібліотека також підтримує доступ та перетворення паролів, захищених PDF документами в додатках Python. Бібліотека також підтримує багатообробку, яка працює тільки для безперервних PDF сторінок, вказаних за допомогою запуску і закінчення тільки.
Перетворення всіх сторінок PDF через Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Перетворення Вказати PDF сторінок в Docx через Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Екстракт таблиці від PDF на Python API
Іноді потрібно вилучити певні дані з PDF файлу. Русский EnglishРусскийУкраїнськаPolskiItalianoEspañol汉语Bahasa Indonesiaहिन्दीPortuguês日本語DeutschFrançaisภาษาไทยελληνικά اللغة العربية Для досягнення поставленого завдання необхідно використовувати функцію екстракт_tables(). Наведені нижче приклади можуть бути використані для вилучення всіх таблиць з PDF файлу.
Екстракт PDF таблиці за допомогою Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Витягувати всі таблиці з PDF по Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)