Създаване и конвертиране PDF до Docx чрез библиотека с отворен код Python

Free Python API е способен да създава и преобразува PDF документа до DOCX, Parke и да пресъздава оформление на страници или да пресъздава параграф чрез Python Library.

Има много Python библиотеки за PDF създаване и обработка на документи. Python се счита за най-добрият език за обработка на PDF обработки, защото прави развитието толкова лесно и бързо. pdf2doc е такава мощна библиотека с отворен код Python, която позволява на компютърните програмисти да създават и конвертират PDF документа в Word DOCX файлов формат с лекота. Библиотеката е много проста за обработка и има прост UI, който позволява на потребителите лесно да имат достъп и да използват различни функции на библиотеката.

Библиотеката pdf2doc включва различни функции за обработка на PDF операции, като например достъп до PDF документи, преобразуване на PDF в други файлови формати, анализиране и повторно създаване на страница;

С един поглед

Общ преглед на pdf2doc функции.

Преглед на характеристиките

Създайте PDF
Превъртете PDF до DOCX
Създаване на страница
Повторна маса
Извлечение от PDF
Парк Създаване на маса
Многопроцесова поддръжка
Вграждане на шрифтове
Конвертиране на определени страници
Прозрачен образ
Конвертиране криптирани PDF

pdf2doc

pdf2doc поддържа PDF файлов формат, както и стандартни за индустрията формати за износ.

Читател

Писател

TXT, HTML

pdf2doc

Независимост на платформата

pdf2doc се тества с Python 3.8 и по-висока.

Python 3.8 по-висока

pdf2doc

Започнете с pdf2doc

pdf2doc е много лесен за инсталиране, предпочитаният начин да го направите е да използвате пип, моля използвайте следната команда за всяка лесна инсталация.

Инсталиране на pdf2doc чрез пип

 pip install pdf2docx

Възможно е и ръчно инсталиране; изтеглете файловете с най-новата версия директно от хранилището на GitHub.

Превърнете PDF файла в Docx чрез Python API

Библиотеката с отворен код pdf2doc напълно поддържа преобразуването на PDF файла в Docx файлов формат само с няколко реда код на Python. Библиотеката предлага няколко метода за обработка на PDF преобразувания. Можете да конвертирате всички страници на документ или да изберете някои конкретни страници и да ги конвертирате в Docx файл. Библиотеката също така поддържа достъп и конвертиране на защитени с парола PDF документа в Python приложения. Библиотеката също така поддържа многопроцеси, които работят само за непрекъснати PDF страници, определени само от начало и край.

Преобразуване на всички страници на PDF чрез Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Конвертиране на PDF страници до Docx чрез Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Екстракт от таблица PDF чрез Python API

Понякога трябва да извлечем някои конкретни данни от PDF файла. Безплатната библиотека pdf2doc позволява на потребителите да извлекат таблици от PDF файла без външни зависимости. За да постигнете тази задача, трябва да използвате функцията за извличане(). Следните примери могат да се използват за извличане на всички таблици от PDF файл.

Таблица PDF чрез Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Извлечете всички таблици от PDF чрез Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)