Twórz i konwertuj PDF do Docx przez Open Source Python Library

Bezpłatny Python API zdolny do tworzenia i konwersji PDF dokumentów do DOCX, Parke i utworzyć układ strony lub ponownie utworzyć akapit za pośrednictwem biblioteki Python.

Istnieje wiele bibliotek Pythona dla PDF tworzenia i przetwarzania dokumentów. Python jest uważany za najlepszy język do obsługi PDF przetwarzania, ponieważ sprawia, że rozwój jest tak łatwy i szybki. pdf2doc jest tak potężnym otwartym źródłem biblioteki Python, który umożliwia programistom komputerowym tworzenie i konwersję PDF dokumentów do formatu pliku Word DOCX z łatwością. Biblioteka jest bardzo prosta w obsłudze i posiada prosty interfejs, który umożliwia użytkownikom łatwy dostęp i korzystanie z różnych funkcji biblioteki.

Biblioteka pdf2doc zawiera różne funkcje do obsługi PDF operacje, takie jak dostęp do PDF dokumentów, konwersja PDF do innych formatów plików, parsing i re-create układ strony, wsparcie marginesu strony

W skrócie

Przegląd funkcji pdf2doc.

Przegląd funkcji

Stwórz PDF
Przelicz PDF do DOCX
Odtworzenie układu strony
Wsparcie stylów
Stolik rekreacyjny
Ekstrakt tekstu z PDF
Parke & Recreate stół
Obsługa wielu procesów
Osadzanie czcionek
Konwersja określonych stron
Przezroczysty obraz
Przelicz zaszyfrowane PDF

pdf2doc

pdf2doc obsługuje PDF formatów plików oraz standardowe formaty dla eksportu.

Czytelnik

Pisarz

TXT, HTML

pdf2doc

Niezależność od platformy

pdf2doc jest testowany z Python 3.8 i wyżej.

Python 3.8 wyższa

pdf2doc

Zaczynając od pdf2doc

pdf2doc jest bardzo łatwy w instalacji, Preferowanym sposobem, aby to zrobić, jest użycie rurociągu, należy użyć następujące polecenie dla każdej łatwej instalacji.

Zainstaluj pdf2doc rurociągami

 pip install pdf2docx

Możliwa jest również instalacja ręczna; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.

Konwertuj PDF plików do Docx przez Python API

Otwarta biblioteka pdf2doc w pełni obsługuje PDF konwersji plików do Docx formatu pliku z zaledwie kilkoma liniami kodu Python. Biblioteka dostarczyła kilka metod obsługi konwersji PDF. Możesz przekonwertować wszystkie strony dokumentu lub wybrać niektóre konkretne strony i przekonwertować je do Docx pliku. Biblioteka obsługuje również dostęp do PDF dokumentów zabezpieczonych hasłem w aplikacjach Pythona. Biblioteka obsługuje również multi-procesing, który działa tylko dla ciągłych PDF stron, określonych tylko na początku i końcu.

Przelicz wszystkie strony PDF przez Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Konwersja określona PDF Strony do Docx przez Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Wyciągnij tabelę z PDF przez Python API

Czasami musimy wyciągnąć konkretne dane z pliku PDF . Darmowa biblioteka pdf2doc pozwala użytkownikom na wyciągnięcie tabel z PDF plików bez żadnych zewnętrznych zależności. Aby osiągnąć to zadanie musisz użyć funkcji ekstrakt_tables(). Poniższe przykłady można wykorzystać do wyodrębnienia wszystkich tabel z pliku PDF

Ekstrakt PDF Tabela poprzez Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Wyciągnij wszystkie tabele z PDF przez Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)