1. מוצרים
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

פתח אפליקציות לעבודה עם קובצי PDF באמצעות ספריית Python

קוד פתוח Python API המסוגל לפצל, למזג, לחתוך ולשנות את הדפים של קובצי PDF, להוסיף נתונים וסיסמאות מותאמים אישית ל-PDF.

PyPDF2 היא ספריית Python טהורה בקוד פתוח המספקת את היכולת לעבוד עם קבצי PDF בתוך יישומי Python ללא כל תלות חיצונית. הספרייה כללה תמיכה במספר תכונות PDF חשובות כגון מיזוג קבצי PDF מרובים, חילוץ התוכן של קובץ PDF, סיבוב דפי קובץ PDF בזווית, שינוי קנה מידה של דפי PDF, שינוי דפי קבצי PDF, חילוץ תמונות מדפי PDF ו עוד הרבה.

ספריית התכנות הפתוח PyPDF2 קלה מאוד לשימוש וקוד המקור מתועד היטב וקל להבנה. הספרייה מאפשרת למפתחים לקרוא ולחלץ מטא-נתונים של קבצי PDF כגון מספר הדפים, מחבר, יוצר, זמן יצירה ועדכון אחרון וכו'. הספרייה תומכת גם בהצפנה ובפענוח של קבצי PDF באמצעות כמה שורות של קוד Python.

.

Previous Next

תחילת העבודה עם PyPDF2

PyPDF2 אינו מגיע כחלק מהספרייה הסטנדרטית של Python, אז תצטרך להתקין אותה בעצמך. הדרך המועדפת לעשות זאת היא להשתמש ב-pip.

התקן PyPDF2 דרך pip

 python -m pip install pypdf2  

חלץ טקסט מ-PDF באמצעות Python

ספריית PyPDF2 מספקת יכולת לחילוץ טקסט מקבצי PDF באמצעות Python באופן תוכניתי. לא קל לאחזר נתונים מקובץ PDF מכיוון שהאופן שבו PDF מאחסן מידע פשוט מקשה על השגתו. PyPDF2 מקל על מפתחים בכך שהוא מספק להם פונקציות מובנות קלות לשימוש לאחזור מידע. הם יכולים להשתמש בשיטת extractText() באובייקט העמוד כדי לקבל את תוכן הטקסט של העמוד.

חלץ טקסט מ-PDF באמצעות Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

קריאת קבצי PDF באמצעות Python

ספריית PyPDF2 מספקת את היכולת לחילוץ טקסט מקבצי PDF באמצעות Python באופן תוכניתי. לא קל לאחזר נתונים מקובץ PDF מכיוון שהאופן שבו PDF מאחסן מידע פשוט מקשה על השגתו. ה-PyPDF2 מקל על עבודות המפתחים בכך שהוא מספק להם פונקציות מובנות קלות לשימוש לאחזור מידע. הם יכולים להשתמש בשיטת extractText() באובייקט העמוד כדי לקבל את תוכן הטקסט של העמוד.

קריאת קובץ PDF באמצעות Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

מיזוג או פיצול מסמכי PDF

האם אי פעם היית במצב שבו היית צריך למזג שני קבצי PDF או יותר למסמך אחד? הארגון דורש לעתים קרובות מיזוג קבצי PDF מרובים למסמך אחד. ספריית PyPDF2 מספקת את היכולת לשלב קובצי PDF עם כמה שורות של קוד Python. מפתחים יכולים גם לפצל בקלות מסמכי PDF גדולים לקטנים יותר בהתאם לצרכיהם. מפתחים יכולים בקלות לחלץ חלק מסוים של ספר PDF או לחלק אותו למספר קובצי PDF

מיזוג קבצי PDF באמצעות Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

חלץ מטא נתונים מקבצי PDF

ספריית PyPDF2 כללה פונקציונליות לחילוץ מטא נתונים ממסמכי PDF באמצעות כמה פקודות Python. אתה יכול לקבל בקלות מידע על המחבר, אפליקציית היוצר, מספר עמודים, כותרת המסמך ותאריכי יצירה וכו'. אתה יכול בקלות לחלץ מטא נתונים של מסמכי PDF ולהשתמש בהם בהתאם לצרכים שלך.

 

חלץ מטא נתונים מ-PDF באמצעות Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 עִברִית