Apps ontwikkelen om met PDF's te werken via Python Library
Open Source Python API die pagina's van PDF-bestanden kan splitsen, samenvoegen, bijsnijden en transformeren, aangepaste gegevens en wachtwoorden aan PDF toevoegen.
PyPDF2 is een open source pure Python-bibliotheek die de mogelijkheid biedt om met PDF-bestanden in Python-applicaties te werken zonder externe afhankelijkheden. De bibliotheek biedt ondersteuning voor tal van belangrijke PDF-functies, zoals het samenvoegen van meerdere PDF-bestanden, het extraheren van de inhoud van het PDF-bestand, het roteren van PDF-bestandspagina's onder een hoek, het schalen van PDF-pagina's, het transformeren van de pagina's van PDF-bestanden, het extraheren van afbeeldingen uit PDF-pagina's en veel meer.
De open source programmeerbibliotheek PyPDF2 is zeer gemakkelijk te gebruiken en de broncode is goed gedocumenteerd en gemakkelijk te begrijpen. De bibliotheek stelt ontwikkelaars in staat om metadata van PDF-bestanden te lezen en te extraheren, zoals het aantal pagina's, auteur, maker, gemaakt en laatst bijgewerkte tijd, enz. De bibliotheek ondersteunt ook het coderen en decoderen van PDF-bestanden met slechts een paar regels Python-code.
.
Aan de slag met PyPDF2
PyPDF2 maakt geen deel uit van de Python Standard Library, dus je moet het zelf installeren. De beste manier om dit te doen is om pip te gebruiken.
PyPDF2 installeren via pip
python -m pip install pypdf2
Tekst uit PDF extraheren via Python
De PyPDF2-bibliotheek biedt de mogelijkheid voor het programmatisch extraheren van tekst uit PDF-bestanden via Python. Het is niet eenvoudig om gegevens uit een PDF-bestand op te halen, omdat de manier waarop PDF informatie opslaat het gewoon moeilijk maakt om dit te bereiken. De PyPDF2 maakt het werk van ontwikkelaars gemakkelijk door hen gebruiksvriendelijke ingebouwde functies te bieden voor het ophalen van informatie. Ze kunnen de methode extractText() op het pagina-object gebruiken om de tekstinhoud van de pagina op te halen.
Tekst uit pdf extraheren via Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
PDF-bestanden lezen via Python
De PyPDF2-bibliotheek biedt de mogelijkheid voor het programmatisch extraheren van tekst uit PDF-bestanden via Python. Het is niet eenvoudig om gegevens uit een PDF-bestand op te halen, omdat de manier waarop PDF informatie opslaat het gewoon moeilijk maakt om dit te bereiken. De PyPDF2 maakt het werk van ontwikkelaars gemakkelijk door hen gebruiksvriendelijke ingebouwde functies te bieden voor het ophalen van informatie. Ze kunnen de methode extractText() op het pagina-object gebruiken om de tekstinhoud van de pagina op te halen.
PDF-bestand lezen via Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
PDF-documenten samenvoegen of splitsen
Ben je ooit in een situatie geweest waarin je twee of meer PDF-bestanden in één document moest samenvoegen? De organisatie vereist vaak het samenvoegen van meerdere PDF-bestanden in één document. De PyPDF2-bibliotheek biedt de mogelijkheid om PDF-bestanden te combineren met slechts een paar regels Python-code. Ontwikkelaars kunnen ook gemakkelijk grote PDF-documenten opsplitsen in kleinere, afhankelijk van hun behoeften. Ontwikkelaars kunnen eenvoudig een specifiek deel van een pdf-boek extraheren of in meerdere pdf's verdelen
PDF-bestanden samenvoegen via Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Metadata uit PDF-bestanden extraheren
De PyPDF2-bibliotheek heeft functionaliteit voor het extraheren van metagegevens uit PDF-documenten met behulp van een aantal Python-opdrachten. U kunt gemakkelijk informatie krijgen over de auteur, de maker-app, het aantal pagina's, de documenttitel en de aanmaakdatums, enz. U kunt eenvoudig metadata van PDF-documenten extraheren en gebruiken volgens uw behoeften.
Metadata uit PDF extraheren via Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)