1. Produk
  2.   PDF
  3.   Python
  4.   pdf2docx
 
  

Cipta & Tukar PDF kepada Docx melalui Perpustakaan Python Sumber Terbuka

API Python percuma yang mampu mencipta dan menukar dokumen PDF kepada DOCX, Menghuraikan dan mencipta semula susun atur halaman atau mencipta semula perenggan melalui Perpustakaan Python.

Terdapat banyak perpustakaan Python untuk pembuatan dan pemprosesan dokumen PDF. AS Python dianggap sebagai bahasa terbaik untuk mengendalikan pemprosesan PDF kerana ia menjadikan pembangunan begitu mudah dan pantas. pdf2docx ialah satu pustaka Python sumber terbuka yang begitu berkuasa yang membolehkan pengaturcara komputer mencipta dan menukar dokumen PDF kepada format fail Word DOCX dengan mudah. Perpustakaan ini sangat mudah dikendalikan dan mempunyai GUI ringkas yang membolehkan pengguna mengakses dan menggunakan pelbagai ciri perpustakaan dengan mudah.

Pustaka pdf2docx telah menyertakan pelbagai ciri untuk mengendalikan operasi PDF seperti mengakses dokumen PDF, menukar PDF kepada format fail lain, menghurai dan mencipta semula susun atur halaman, sokongan jidar halaman, mengekstrak maklumat meta, mengekstrak teks daripada fail PDF, menghurai dan semula. -membuat perenggan, memasukkan teks ke PDF, menyenaraikan sokongan gaya, Menghuraikan dan mencipta semula imej, imej lutsinar, Menghuraikan dan mencipta semula jadual, sel yang digabungkan, jadual dengan sempadan sebahagiannya tersembunyi, sokongan jadual bersarang, Menghuraikan halaman dengan berbilang- pemprosesan, dan banyak lagi.

Previous Next

Bermula dengan pdf2docx

pdf2docx sangat mudah untuk dipasang, Cara pilihan untuk melakukannya adalah dengan menggunakan pip, sila gunakan arahan berikut untuk sebarang pemasangan mudah.

Pasang pdf2docx  melalui pip

 pip install pdf2docx 

Ia juga mungkin untuk memasangnya secara manual; muat turun fail keluaran terkini terus daripada repositori GitHub.

Tukar Fail PDF kepada Docx melalui Python API

Pustaka pdf2docx sumber terbuka menyokong sepenuhnya penukaran fail PDF kepada format fail Docx dengan hanya beberapa baris kod Python. Perpustakaan telah menyediakan beberapa kaedah untuk mengendalikan penukaran PDF. Anda boleh menukar semua halaman dokumen atau memilih beberapa halaman tertentu dan menukarnya kepada fail Docx. Perpustakaan ini juga menyokong mengakses dan menukar dokumen PDF yang dilindungi kata laluan dalam aplikasi Python. Perpustakaan ini juga menyokong pelbagai pemprosesan yang hanya berfungsi untuk halaman PDF berterusan, yang ditentukan mengikut permulaan dan akhir sahaja.

Tukar Semua Halaman PDF melalui API Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Tukar Halaman PDF Ditentukan kepada Docx melalui Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

Ekstrak Jadual daripada PDF melalui Python API

Kadangkala kita perlu mengekstrak beberapa data khusus daripada fail PDF. Pustaka pdf2docx percuma membolehkan pengguna mengekstrak jadual daripada fail PDF tanpa sebarang kebergantungan luaran. Untuk mencapai tugas ini anda perlu menggunakan fungsi extract_tables(). Contoh berikut boleh digunakan untuk mengekstrak semua jadual daripada fail PDF.

Ekstrak Jadual PDF melalui Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

Ekstrak Semua Jadual daripada PDF melalui Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)
 Melayu