Python Kitabxanası vasitəsilə PDF-lərlə işləmək üçün proqramlar hazırlayın
PDF fayllarının səhifələrini bölməyə, birləşdirməyə, kəsməyə və çevirməyə qadir olan Açıq Mənbə Python API, PDF-ə fərdi data və Parollar əlavə edin.
PyPDF2 heç bir xarici asılılıq olmadan Python proqramlarında PDF faylları ilə işləmək imkanı verən açıq mənbəli təmiz Python kitabxanasıdır. Kitabxana çoxlu PDF fayllarını birləşdirmək, PDF faylının məzmununu çıxarmaq, PDF fayl səhifələrini bucaqla fırlatmaq, PDF səhifələrinin miqyasını dəyişdirmək, PDF fayllarının səhifələrini dəyişdirmək, PDF səhifələrindən şəkillər çıxarmaq və daha çox.
Açıq mənbə proqramlaşdırma kitabxanası PyPDF2 istifadə etmək çox asandırvə mənbə kodu yaxşı sənədləşdirilmiş və başa düşüləndir. Kitabxana tərtibatçılara səhifələrin sayı, müəllif, yaradıcı, yaradılmış və son yenilənmiş vaxt və s. kimi PDF Faylları metaməlumatlarını oxumağa və çıxarmağa imkan verir. Kitabxana həmçinin Python kodunun bir neçə sətri ilə PDF fayllarının şifrələnməsini və deşifrəsini dəstəkləyir.
.
PyPDF2 ilə işə başlamaq
PyPDF2 Python Standart Kitabxanasının bir hissəsi kimi gəlmir, ona görə də onu özünüz quraşdırmalısınız. Bunun üçün üstünlük verilən yol pipdən istifadə etməkdir.
Pip vasitəsilə PyPDF2 quraşdırın
python -m pip install pypdf2
Python vasitəsilə PDF-dən Mətni çıxarın
PyPDF2 kitabxanası Python vasitəsilə proqramlı şəkildə PDF fayllarından mətn çıxarmaq imkanı verir. PDF faylından məlumat əldə etmək asan deyil, çünki PDF məlumatı saxlama üsulu ona nail olmağı çətinləşdirir. PyPDF2, məlumat əldə etmək üçün daxili funksiyaları istifadə etmək üçün asan təmin etməklə tərtibatçıların işini asanlaşdırır. Onlar səhifənin mətn məzmununu əldə etmək üçün səhifə obyektində extractText() metodundan istifadə edə bilərlər.
Python vasitəsilə PDF-dən Mətni çıxarın
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Python vasitəsilə PDF faylları oxumaq
PyPDF2 kitabxanası Python vasitəsilə proqramlı şəkildə PDF fayllarından mətn çıxarmaq imkanı verir. PDF faylından məlumat əldə etmək asan deyil, çünki PDF məlumatı saxlama üsulu ona nail olmağı çətinləşdirir. PyPDF2, məlumat əldə etmək üçün daxili funksiyaları istifadə etmək üçün asan təmin etməklə tərtibatçıların işini asanlaşdırır. Onlar səhifənin mətn məzmununu əldə etmək üçün səhifə obyektində extractText() metodundan istifadə edə bilərlər.
Python vasitəsilə PDF faylı oxumaq
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
PDF sənədlərini birləşdirin və ya bölün
Heç iki və ya daha çox PDF faylını bir sənəddə birləşdirməyiniz lazım olan bir vəziyyətdə olmusunuzmu? Təşkilat tez-tez birdən çox PDF faylını bir sənəddə birləşdirməyi tələb edir. PyPDF2 kitabxanası PDF fayllarını yalnız bir neçə sətir Python kodu ilə birləşdirmək imkanı verir. Tərtibatçılar həmçinin böyük PDF sənədlərini ehtiyaclarına uyğun olaraq asanlıqla kiçik olanlara bölə bilərlər. Tərtibatçılar asanlıqla PDF kitabının müəyyən hissəsini çıxara və ya onu bir neçə PDF-ə bölə bilərlər
Python vasitəsilə PDF fayllarını birləşdirin
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
PDF fayllarından metaməlumatları çıxarın
PyPDF2 kitabxanasına bir neçə Python əmrindən istifadə etməklə PDF sənədlərindən metaməlumatların çıxarılması funksiyası daxildir. Siz asanlıqla müəllif, yaradıcı proqramı, səhifələrin sayı, sənədin adı və yaradılma tarixləri və s. haqqında məlumat əldə edə bilərsiniz. PDF sənədlərinin metaməlumatlarını asanlıqla çıxara və ehtiyaclarınıza uyğun istifadə edə bilərsiniz.
Python vasitəsilə PDF-dən metaməlumat çıxarın
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)