1. Produkty
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Twórz aplikacje do pracy z plikami PDF za pośrednictwem biblioteki Python

Open Source Python API umożliwiający dzielenie, łączenie, przycinanie i przekształcanie stron plików PDF oraz dodawanie niestandardowych danych i haseł do plików PDF.

PyPDF2 to czysta biblioteka Pythona typu open source, która zapewnia możliwość pracy z plikami PDF w aplikacjach Pythona bez żadnych zewnętrznych zależności. Biblioteka zawiera obsługę wielu ważnych funkcji PDF, takich jak łączenie wielu plików PDF, wyodrębnianie zawartości pliku PDF, obracanie stron pliku PDF pod kątem, skalowanie stron PDF, przekształcanie stron plików PDF, wyodrębnianie obrazów ze stron PDF i wiele więcej.

Biblioteka programistyczna typu open source PyPDF2 jest bardzo łatwa w obsłudze , a kod źródłowy jest dobrze udokumentowany i łatwy do zrozumienia. Biblioteka umożliwia programistom odczytywanie i wyodrębnianie metadanych plików PDF, takich jak liczba stron, autor, twórca, czas utworzenia i ostatniej aktualizacji itp. Biblioteka obsługuje również szyfrowanie i odszyfrowywanie plików PDF za pomocą zaledwie kilku wierszy kodu Python.

.

Previous Next

Pierwsze kroki z PyPDF2

PyPDF2 nie jest częścią standardowej biblioteki Pythona, więc musisz go zainstalować samodzielnie. Preferowanym sposobem na to jest użycie pip.

Zainstaluj PyPDF2 przez pip

 python -m pip install pypdf2  

Wyodrębnij tekst z PDF za pomocą Pythona

Biblioteka PyPDF2 zapewnia możliwość programowego wyodrębniania tekstu z plików PDF za pośrednictwem Pythona. Pobieranie danych z pliku PDF nie jest łatwe, ponieważ sposób, w jaki PDF przechowuje informacje, utrudnia ich osiągnięcie. PyPDF2 ułatwia pracę programistom, zapewniając im łatwe w użyciu wbudowane funkcje pobierania informacji. Mogą użyć metody extractText() w obiekcie strony, aby pobrać zawartość tekstową strony.

Wyodrębnij tekst z pliku PDF za pomocą Pythona

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

Czytanie plików PDF za pomocą Pythona

Biblioteka PyPDF2 zapewnia możliwość programowego wyodrębniania tekstu z plików PDF za pośrednictwem Pythona. Pobieranie danych z pliku PDF nie jest łatwe, ponieważ sposób, w jaki PDF przechowuje informacje, utrudnia ich osiągnięcie. PyPDF2 ułatwia pracę programistom, zapewniając im łatwe w użyciu wbudowane funkcje pobierania informacji. Mogą użyć metody extractText() w obiekcie strony, aby pobrać zawartość tekstową strony.

Czytanie pliku PDF przez Pythona

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Scal lub podziel dokumenty PDF

Czy kiedykolwiek byłeś w sytuacji, w której musiałeś połączyć dwa lub więcej plików PDF w jeden dokument? Organizacja często wymaga połączenia wielu plików PDF w jeden dokument. Biblioteka PyPDF2 umożliwia łączenie plików PDF za pomocą zaledwie kilku linii kodu Pythona. Deweloperzy mogą również łatwo podzielić duże dokumenty PDF na mniejsze, zgodnie ze swoimi potrzebami. Programiści mogą łatwo wyodrębnić określoną część książki PDF lub podzielić ją na wiele plików PDF

Scal pliki PDF za pomocą Pythona

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Wyodrębnij metadane z plików PDF

Biblioteka PyPDF2 zawiera funkcję wyodrębniania metadanych z dokumentów PDF za pomocą kilku poleceń Pythona. Możesz łatwo uzyskać informacje o autorze, aplikacji twórcy, liczbie stron, tytule dokumentu, datach utworzenia itp. Możesz łatwo wyodrębnić metadane dokumentów PDF i używać ich zgodnie z własnymi potrzebami.

 

Wyodrębnij metadane z PDF za pomocą Pythona

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Polski