Twórz i konwertuj PDF do Docx przez Open Source Python Library
Bezpłatny Python API zdolny do tworzenia i konwersji PDF dokumentów do DOCX, Parke i utworzyć układ strony lub ponownie utworzyć akapit za pośrednictwem biblioteki Python.
Istnieje wiele bibliotek Pythona dla PDF tworzenia i przetwarzania dokumentów. Python jest uważany za najlepszy język do obsługi PDF przetwarzania, ponieważ sprawia, że rozwój jest tak łatwy i szybki. pdf2doc jest tak potężnym otwartym źródłem biblioteki Python, który umożliwia programistom komputerowym tworzenie i konwersję PDF dokumentów do formatu pliku Word DOCX z łatwością. Biblioteka jest bardzo prosta w obsłudze i posiada prosty interfejs, który umożliwia użytkownikom łatwy dostęp i korzystanie z różnych funkcji biblioteki.
Biblioteka pdf2doc zawiera różne funkcje do obsługi PDF operacje, takie jak dostęp do PDF dokumentów, konwersja PDF do innych formatów plików, parsing i re-create układ strony, wsparcie marginesu strony
Zaczynając od pdf2doc
pdf2doc jest bardzo łatwy w instalacji, Preferowanym sposobem, aby to zrobić, jest użycie rurociągu, należy użyć następujące polecenie dla każdej łatwej instalacji.
Zainstaluj pdf2doc rurociągami
pip install pdf2docx
Możliwa jest również instalacja ręczna; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.
Konwertuj PDF plików do Docx przez Python API
Otwarta biblioteka pdf2doc w pełni obsługuje PDF konwersji plików do Docx formatu pliku z zaledwie kilkoma liniami kodu Python. Biblioteka dostarczyła kilka metod obsługi konwersji PDF. Możesz przekonwertować wszystkie strony dokumentu lub wybrać niektóre konkretne strony i przekonwertować je do Docx pliku. Biblioteka obsługuje również dostęp do PDF dokumentów zabezpieczonych hasłem w aplikacjach Pythona. Biblioteka obsługuje również multi-procesing, który działa tylko dla ciągłych PDF stron, określonych tylko na początku i końcu.
Przelicz wszystkie strony PDF przez Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Konwersja określona PDF Strony do Docx przez Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Wyciągnij tabelę z PDF przez Python API
Czasami musimy wyciągnąć konkretne dane z pliku PDF . Darmowa biblioteka pdf2doc pozwala użytkownikom na wyciągnięcie tabel z PDF plików bez żadnych zewnętrznych zależności. Aby osiągnąć to zadanie musisz użyć funkcji ekstrakt_tables(). Poniższe przykłady można wykorzystać do wyodrębnienia wszystkich tabel z pliku PDF
Ekstrakt PDF Tabela poprzez Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Wyciągnij wszystkie tabele z PDF przez Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)