Създаване и конвертиране PDF до Docx чрез библиотека с отворен код Python
Free Python API е способен да създава и преобразува PDF документа до DOCX, Parke и да пресъздава оформление на страници или да пресъздава параграф чрез Python Library.
Има много Python библиотеки за PDF създаване и обработка на документи. Python се счита за най-добрият език за обработка на PDF обработки, защото прави развитието толкова лесно и бързо. pdf2doc е такава мощна библиотека с отворен код Python, която позволява на компютърните програмисти да създават и конвертират PDF документа в Word DOCX файлов формат с лекота. Библиотеката е много проста за обработка и има прост UI, който позволява на потребителите лесно да имат достъп и да използват различни функции на библиотеката.
Библиотеката pdf2doc включва различни функции за обработка на PDF операции, като например достъп до PDF документи, преобразуване на PDF в други файлови формати, анализиране и повторно създаване на страница;
Започнете с pdf2doc
pdf2doc е много лесен за инсталиране, предпочитаният начин да го направите е да използвате пип, моля използвайте следната команда за всяка лесна инсталация.
Инсталиране на pdf2doc чрез пип
pip install pdf2docx
Възможно е и ръчно инсталиране; изтеглете файловете с най-новата версия директно от хранилището на GitHub.
Превърнете PDF файла в Docx чрез Python API
Библиотеката с отворен код pdf2doc напълно поддържа преобразуването на PDF файла в Docx файлов формат само с няколко реда код на Python. Библиотеката предлага няколко метода за обработка на PDF преобразувания. Можете да конвертирате всички страници на документ или да изберете някои конкретни страници и да ги конвертирате в Docx файл. Библиотеката също така поддържа достъп и конвертиране на защитени с парола PDF документа в Python приложения. Библиотеката също така поддържа многопроцеси, които работят само за непрекъснати PDF страници, определени само от начало и край.
Преобразуване на всички страници на PDF чрез Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Конвертиране на PDF страници до Docx чрез Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Екстракт от таблица PDF чрез Python API
Понякога трябва да извлечем някои конкретни данни от PDF файла. Безплатната библиотека pdf2doc позволява на потребителите да извлекат таблици от PDF файла без външни зависимости. За да постигнете тази задача, трябва да използвате функцията за извличане(). Следните примери могат да се използват за извличане на всички таблици от PDF файл.
Таблица PDF чрез Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Извлечете всички таблици от PDF чрез Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)