Python Kitaplığı aracılığıyla PDF'lerle Çalışacak Uygulamalar Geliştirin
PDF dosyalarının sayfalarını Bölme, Birleştirme, Kırpma ve Dönüştürme özelliklerine sahip Açık Kaynak Python API'si, PDF'ye özel veriler ve Şifreler ekleyin.
PyPDF2, herhangi bir dış bağımlılık olmaksızın Python uygulamaları içinde PDF dosyalarıyla çalışma yeteneği sağlayan açık kaynaklı saf bir Python kitaplığıdır. Kitaplık, birden çok PDF dosyasını birleştirme, PDF dosyasının içeriğini çıkarma, PDF dosya sayfalarını bir açıyla döndürme, PDF sayfalarını ölçeklendirme, PDF dosyalarının sayfalarını dönüştürme, PDF sayfalarından görüntü çıkarma ve çok daha fazlası.
Açık kaynak programlama kitaplığı PyPDF2'nin kullanımı çok kolaydır ve kaynak kodu iyi belgelenmiştir ve anlaşılması kolaydır. Kitaplık, geliştiricilerin sayfa sayısı, yazar, oluşturucu, oluşturulan ve son güncelleme zamanı vb. gibi PDF Dosyaları meta verilerini okumasına ve çıkarmasına olanak tanır. Kitaplık ayrıca yalnızca birkaç satır Python kodu ile PDF dosyalarının şifrelenmesini ve şifresinin çözülmesini destekler.
.
PyPDF2'ye Başlarken
PyPDF2, Python Standart Kitaplığı'nın bir parçası olarak gelmiyor, bu nedenle onu kendiniz yüklemeniz gerekecek. Bunu yapmanın tercih edilen yolu pip kullanmaktır.
PyPDF2'yi pip aracılığıyla yükleyin
python -m pip install pypdf2
Python ile PDF'den Metin Çıkartın
PyPDF2 kitaplığı, Python aracılığıyla PDF dosyalarından programlı olarak metin çıkarma yeteneği sağlar. Bir PDF dosyasından veri almak kolay değildir, çünkü PDF'nin bilgiyi saklama şekli onu elde etmeyi zorlaştırır. PyPDF2, bilgi almak için kullanımı kolay yerleşik işlevler sağlayarak geliştiricilerin işini kolaylaştırır. Sayfanın metin içeriğini almak için sayfa nesnesindeki ExtractText() yöntemini kullanabilirler.
Python aracılığıyla PDF'den Metin Çıkarma
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Python ile PDF Dosyalarını Okumak
PyPDF2 kitaplığı, Python aracılığıyla PDF dosyalarından programlı olarak metin çıkarma yeteneği sağlar. Bir PDF dosyasından veri almak kolay değildir, çünkü PDF'nin bilgiyi saklama şekli onu elde etmeyi zorlaştırır. PyPDF2, bilgi almak için kullanımı kolay yerleşik işlevler sağlayarak geliştiricilerin işlerini kolaylaştırır. Sayfanın metin içeriğini almak için sayfa nesnesindeki ExtractText() yöntemini kullanabilirler.
Python ile PDF Dosyasını Okumak
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
PDF Belgelerini Birleştirme veya Bölme
Hiç iki veya daha fazla PDF dosyasını tek bir belgede birleştirmeniz gereken bir durumda bulundunuz mu? Kuruluş genellikle birden fazla PDF dosyasını tek bir belgede birleştirmeyi gerektirir. PyPDF2 kitaplığı, PDF dosyalarını yalnızca birkaç satır Python koduyla birleştirme yeteneği sağlar. Geliştiriciler ayrıca büyük PDF belgelerini ihtiyaçlarına göre kolayca daha küçük belgelere bölebilir. Geliştiriciler, bir PDF kitabının belirli bir bölümünü kolayca çıkarabilir veya birden çok PDF'ye bölebilir
Python ile PDF Dosyalarını Birleştir
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
PDF Dosyalarından Meta Verileri Çıkarın
PyPDF2 kitaplığı, birkaç Python komutu kullanarak PDF belgelerinden Meta Veri çıkarmak için işlevsellik içerir. Yazar, oluşturucu uygulaması, sayfa sayısı, belge başlığı, oluşturulma tarihleri vb. hakkında kolayca bilgi alabilirsiniz. PDF belgelerinin meta verilerini kolayca çıkarabilir ve ihtiyaçlarınıza göre kullanabilirsiniz.
Python aracılığıyla PDF'den Meta Verileri Çıkarın
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)