1. Produkty
  2.   PDF
  3.   Python
  4.   pdf2docx
 
  

Twórz i konwertuj PDF do Docx przez Open Source Python Library

Bezpłatny Python API zdolny do tworzenia i konwersji PDF dokumentów do DOCX, Parke i utworzyć układ strony lub ponownie utworzyć akapit za pośrednictwem biblioteki Python.

Istnieje wiele bibliotek Pythona dla PDF tworzenia i przetwarzania dokumentów. Python jest uważany za najlepszy język do obsługi PDF przetwarzania, ponieważ sprawia, że rozwój jest tak łatwy i szybki. pdf2doc jest tak potężnym otwartym źródłem biblioteki Python, który umożliwia programistom komputerowym tworzenie i konwersję PDF dokumentów do formatu pliku Word DOCX z łatwością. Biblioteka jest bardzo prosta w obsłudze i posiada prosty interfejs, który umożliwia użytkownikom łatwy dostęp i korzystanie z różnych funkcji biblioteki.

Biblioteka pdf2doc zawiera różne funkcje do obsługi PDF operacje, takie jak dostęp do PDF dokumentów, konwersja PDF do innych formatów plików, parsing i re-create układ strony, wsparcie marginesu strony

Previous Next

Zaczynając od pdf2doc

pdf2doc jest bardzo łatwy w instalacji, Preferowanym sposobem, aby to zrobić, jest użycie rurociągu, należy użyć następujące polecenie dla każdej łatwej instalacji.

Zainstaluj pdf2doc rurociągami

 pip install pdf2docx 

Możliwa jest również instalacja ręczna; pobierz pliki najnowszej wersji bezpośrednio z repozytorium GitHub.

Konwertuj PDF plików do Docx przez Python API

Otwarta biblioteka pdf2doc w pełni obsługuje PDF konwersji plików do Docx formatu pliku z zaledwie kilkoma liniami kodu Python. Biblioteka dostarczyła kilka metod obsługi konwersji PDF. Możesz przekonwertować wszystkie strony dokumentu lub wybrać niektóre konkretne strony i przekonwertować je do Docx pliku. Biblioteka obsługuje również dostęp do PDF dokumentów zabezpieczonych hasłem w aplikacjach Pythona. Biblioteka obsługuje również multi-procesing, który działa tylko dla ciągłych PDF stron, określonych tylko na początku i końcu.

Przelicz wszystkie strony PDF przez Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Konwersja określona PDF Strony do Docx przez Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Wyciągnij tabelę z PDF przez Python API

Czasami musimy wyciągnąć konkretne dane z pliku PDF . Darmowa biblioteka pdf2doc pozwala użytkownikom na wyciągnięcie tabel z PDF plików bez żadnych zewnętrznych zależności. Aby osiągnąć to zadanie musisz użyć funkcji ekstrakt_tables(). Poniższe przykłady można wykorzystać do wyodrębnienia wszystkich tabel z pliku PDF

Ekstrakt PDF Tabela poprzez Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Wyciągnij wszystkie tabele z PDF przez Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 Polski