1. Produse
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Dezvoltați aplicații pentru a lucra cu PDF-uri prin biblioteca Python

API-ul Python cu sursă deschisă capabil să împartă, să îmbine, să decupeze și să transforme paginile fișierelor PDF, să adauge date personalizate și parole în PDF.

PyPDF2 este o bibliotecă cu sursă deschisă pur Python, care oferă capacitatea de a lucra cu fișiere PDF în interiorul aplicațiilor Python, fără dependențe externe. Biblioteca a inclus suport pentru numeroase funcții PDF importante, cum ar fi îmbinarea mai multor fișiere PDF, extragerea conținutului fișierului PDF, rotirea paginilor fișierelor PDF într-un unghi, scalarea paginilor PDF, transformarea paginilor fișierelor PDF, extragerea imaginilor din pagini PDF și multe altele.

Biblioteca de programare open source PyPDF2 este foarte ușor de de utilizat, iar codul sursă este bine documentat și ușor de înțeles. Biblioteca permite dezvoltatorilor să citească și să extragă metadatele fișierelor PDF, cum ar fi numărul de pagini, autorul, creatorul, ora creată și ultima actualizare, etc. Biblioteca acceptă, de asemenea, criptarea și decriptarea fișierelor PDF cu doar câteva linii de cod Python.

.

Previous Next

Noțiuni introductive cu PyPDF2

PyPDF2 nu vine ca parte a Bibliotecii standard Python, așa că va trebui să îl instalați singur. Modul preferat de a face acest lucru este să utilizați pip.

Instalați PyPDF2  prin pip

 python -m pip install pypdf2  

Extrageți text din PDF prin Python

Biblioteca PyPDF2 oferă capacitatea de extragere programatică a textului din fișierele PDF prin Python. Nu este ușor să recuperați date dintr-un fișier PDF, deoarece modul în care PDF stochează informațiile îngreunează obținerea acestora. PyPDF2 facilitează munca dezvoltatorilor, oferindu-le funcții încorporate ușor de utilizat pentru preluarea informațiilor. Ei pot folosi metoda extractText() pe obiectul pagină pentru a obține conținutul text al paginii.

Extrageți text din PDF prin Python

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

Citirea fișierelor PDF prin Python

Biblioteca PyPDF2 oferă capacitatea de extragere programatică a textului din fișierele PDF prin Python. Nu este ușor să recuperați date dintr-un fișier PDF, deoarece modul în care PDF stochează informațiile îngreunează obținerea acestora. PyPDF2 facilitează munca dezvoltatorilor, oferindu-le funcții încorporate ușor de utilizat pentru preluarea informațiilor. Ei pot folosi metoda extractText() pe obiectul pagină pentru a obține conținutul text al paginii.

Citirea fișierului PDF prin Python

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Îmbinați sau împărțiți documente PDF

Ați fost vreodată într-o situație în care trebuia să îmbinați două sau mai multe fișiere PDF într-un singur document? Organizația necesită adesea îmbinarea mai multor fișiere PDF într-un singur document. Biblioteca PyPDF2 oferă capacitatea de a combina fișiere PDF cu doar câteva linii de cod Python. De asemenea, dezvoltatorii pot împărți cu ușurință documente PDF mari în altele mai mici, în funcție de nevoile lor. Dezvoltatorii pot extrage cu ușurință o anumită parte a unei cărți PDF sau o pot împărți în mai multe PDF-uri

Îmbinați fișierele PDF prin Python

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Extrageți metadatele din fișierele PDF

Biblioteca PyPDF2 a inclus funcționalitate pentru extragerea metadatelor din documente PDF utilizând câteva comenzi Python. Puteți obține cu ușurință informații despre autor, aplicația creatorului, numărul de pagini, titlul documentului și datele de creare etc. Puteți extrage cu ușurință metadatele documentelor PDF și le puteți utiliza în funcție de nevoile dvs.

 

Extrageți metadatele din PDF prin Python

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Română