יצירה והמרה PDF עד Docx בספריית קוד פתוח

Python API חופשי מסוגל ליצור ולהמיר PDF מסמכים ל DOCX, Parke וליצור מחדש את פריסת הדף או ליצור מחדש פסקה באמצעות הספרייה Python.

ישנן ספריות רבות של Python ליצירת מסמכים ועיבוד. Python נחשבת השפה הטובה ביותר לטיפול PDF עיבוד כי זה עושה את הפיתוח קל ומהיר. pdf2doc היא ספריית קוד פתוח רב עוצמה המאפשרת למתכנתים ליצור ולהמיר PDF מסמכים לתבנית קובץ Word DOCX בקלות. הספרייה פשוטה מאוד לטיפול ויש לה UI פשוט המאפשר למשתמשים לגשת בקלות ולהשתמש תכונות שונות של הספרייה.

ספריית pdf2doc כללה תכונות שונות לטיפול ב-PDF פעולות כגון גישה ל-PDF מסמכים, המרת PDF לתבניות קבצים אחרות, פריסת עמוד מחדש ויצירה מחדש, לחלץ PDF עמודים

במבט ראשון

סקירה כללית של תכונות pdf2doc.

סקירת תכונות

צור PDF
PDF עד DOCX
יצירת דף חדש
סגנונות רשימה
יצירה מחדש שולחן
טקסט מתוך PDF
שולחן ערוך מחדש
תמיכה מרובת תהליכים
הטבעת גופנים
דפים רשומים
תמונה
מוצפן

pdp2doc תומך בפורמט PDF קבצים, כמו גם פורמטים סטנדרטיים בתעשייה לייצוא.

קוֹרֵא

סוֹפֵר

TXT, HTML

עצמאות פלטפורמה

pdf2doc נבדק עם Python 3.8 ומעלה.

פייתון 3.8 גבוה יותר

להתחיל עם pdf2doc

pdp2doc קל מאוד להתקנה, הדרך המועדפת לעשות זאת היא להשתמש בצינורות, אנא השתמש בפקודה הבאה עבור כל התקנה קלה.

התקנת pdf2doc באמצעות Pip

 pip install pdf2docx

תיקו Docx דרך פיתון API

ספריית קוד פתוח pdf2doc תומכת באופן מלא בהמרה של PDF קבצים לפורמט של Docx קבצים עם רק כמה שורות של קוד Python. הספריה סיפקה מספר שיטות לטיפול ב-PDF המרה. ניתן להמיר את כל הדפים במסמך או לבחור כמה דפים ספציפיים ולהמיר אותם לקובץ Docx . הספרייה תומכת גם בגישה ובהמרה של PDF מסמכים המוגנים באמצעות סיסמה בתוך יישומי Python. הספרייה תומכת גם עיבוד רב אשר עובד רק PDF עמודים רצופים, שצוינו על ידי התחלה וסוף בלבד.

להפוך את כל העמודים של PDF דרך Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

PDF עמודים ל-Docx באמצעות Python

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

שולחן PDF דרך Python

לפעמים אנחנו צריכים להוציא נתונים מסוימים מתוך קובץ PDF . ספריית PDF2doc בחינם מאפשרת למשתמשים לחלץ טבלאות מ PDF קבצים ללא כל תלות חיצונית. כדי להשיג משימה זו עליך להשתמש בפונקציה תמצית () . ניתן להשתמש בדוגמאות הבאות כדי לחלץ את כל הטבלאות מקובץ PDF .

טבלה PDF באמצעות Python API

from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
    print(table)

להוציא את כל הטבלאות מ PDF דרך Python API

extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
    print(obj)