Utveckla appar för att arbeta med PDF-filer via Python Library
Open Source Python API som kan dela, sammanfoga, beskära och transformera sidor i PDF-filer, lägga till anpassade data och lösenord till PDF.
PyPDF2 är ett rent Python-bibliotek med öppen källkod som ger möjlighet att arbeta med PDF-filer i Python-applikationer utan några externa beroenden. Biblioteket har inkluderat stöd för många viktiga PDF-funktioner som att slå samman flera PDF-filer, extrahera innehållet i PDF-filen, rotera PDF-filsidor i en vinkel, skala PDF-sidor, transformera sidorna i PDF-filer, extrahera bilder från PDF-sidor och många fler.
Programmeringsbiblioteket med öppen källkod PyPDF2 är mycket lätt att använda och källkoden är väldokumenterad och lätt att förstå. Biblioteket gör det möjligt för utvecklare att läsa och extrahera PDF-filers metadata såsom antal sidor, författare, skapare, skapad och senast uppdaterad tid, etc. Biblioteket stöder även kryptering och dekryptering av PDF-filer med bara ett par rader Python-kod.
.
Komma igång med PyPDF2
PyPDF2 kommer inte som en del av Python Standard Library, så du måste installera det själv. Det föredragna sättet att göra det är att använda pip.
Installera PyPDF2 via pip
python -m pip install pypdf2
Extrahera text från PDF via Python
PyPDF2-biblioteket ger möjlighet att programmatiskt extrahera text från PDF-filer via Python. Det är inte lätt att hämta data från en PDF-fil eftersom hur PDF lagrar information bara gör det svårt att uppnå det. PyPDF2 gör utvecklarnas jobb lätt genom att ge dem lättanvända inbyggda funktioner för att hämta information. De kan använda metoden extractText() på sidobjektet för att få fram textinnehållet på sidan.
Extrahera text från PDF via Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Läsa PDF-filer via Python
PyPDF2-biblioteket ger möjlighet att programmatiskt extrahera text från PDF-filer via Python. Det är inte lätt att hämta data från en PDF-fil eftersom hur PDF lagrar information bara gör det svårt att uppnå det. PyPDF2 gör utvecklarnas jobb enkla genom att ge dem lättanvända inbyggda funktioner för att hämta information. De kan använda metoden extractText() på sidobjektet för att få fram textinnehållet på sidan.
Läser PDF-fil via Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Slå samman eller dela PDF-dokument
Har du någonsin varit i en situation där du behövde slå samman två eller flera PDF-filer till ett enda dokument? Organisationen kräver ofta att flera PDF-filer slås samman till ett enda dokument. PyPDF2-biblioteket ger möjlighet att kombinera PDF-filer med bara ett par rader Python-kod. Utvecklare kan också enkelt dela upp stora PDF-dokument i mindre efter deras behov. Utvecklare kan enkelt extrahera en specifik del av en PDF-bok eller dela upp den i flera PDF-filer
Slå samman PDF-filer via Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Extrahera metadata från PDF-filer
PyPDF2-biblioteket har inkluderat funktionalitet för att extrahera metadata från PDF-dokument genom att använda ett par Python-kommandon. Du kan enkelt få information om författaren, skaparappen, antal sidor, dokumenttitel, och skapandedatum etc. Du kan enkelt extrahera metadata från PDF-dokument och använda den efter dina behov.
Extrahera metadata från PDF via Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)