Izstrādājiet lietotnes darbam ar PDF failiem, izmantojot Python bibliotēku
Atvērtā pirmkoda Python API, kas var sadalīt, apvienot, apgriezt un pārveidot PDF failu lapas, pievienot PDF failam pielāgotus datus un paroles.
PyPDF2 ir atvērtā pirmkoda Python bibliotēka, kas nodrošina iespēju strādāt ar PDF failiem Python lietojumprogrammās bez ārējām atkarībām. Bibliotēkā ir iekļauts atbalsts daudzām svarīgām PDF funkcijām, piemēram, vairāku PDF failu sapludināšanai, PDF faila satura izvilkšanai, PDF faila lappušu pagriešanai leņķī, PDF lappušu mērogošanai, PDF failu lapu pārveidošanai, attēlu izvilkšanai no PDF lapām un daudz vairāk.
Atvērtā pirmkoda programmēšanas bibliotēka PyPDF2 ir ļoti viegli lietojama , un pirmkods ir labi dokumentēts un viegli saprotams. Bibliotēka ļauj izstrādātājiem lasīt un izvilkt PDF failu metadatus, piemēram, lappušu skaitu, autoru, veidotāju, izveidoto un pēdējo atjaunināšanas laiku utt. Bibliotēka atbalsta arī PDF failu šifrēšanu un atšifrēšanu, izmantojot tikai dažas Python koda rindas.
.
Darba sākšana ar PyPDF2
PyPDF2 nav Python standarta bibliotēkas daļa, tāpēc jums tas būs jāinstalē pašam. Ieteicamais veids, kā to izdarīt, ir izmantot pip.
Instalējiet PyPDF2, izmantojot pip
python -m pip install pypdf2
Izņemiet tekstu no PDF, izmantojot Python
PyPDF2 bibliotēka nodrošina iespēju programmatiski izvilkt tekstu no PDF failiem, izmantojot Python. Nav viegli izgūt datus no PDF faila, jo veids, kā PDF glabā informāciju, vienkārši apgrūtina to sasniegšanu. PyPDF2 atvieglo izstrādātāju darbu, nodrošinot viņiem viegli lietojamas iebūvētās funkcijas informācijas izgūšanai. Viņi lapas objektā var izmantot metodi extractText(), lai iegūtu lapas teksta saturu.
Izņemiet tekstu no PDF faila, izmantojot Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
PDF failu lasīšana, izmantojot Python
PyPDF2 bibliotēka nodrošina iespēju programmatiski izvilkt tekstu no PDF failiem, izmantojot Python. Nav viegli izgūt datus no PDF faila, jo veids, kā PDF glabā informāciju, vienkārši apgrūtina to sasniegšanu. PyPDF2 atvieglo izstrādātāju darbu, nodrošinot viņiem viegli lietojamas iebūvētās funkcijas informācijas izgūšanai. Viņi lapas objektā var izmantot metodi extractText(), lai iegūtu lapas teksta saturu.
PDF faila lasīšana, izmantojot Python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Apvienojiet vai sadaliet PDF dokumentus
Vai esat kādreiz bijis situācijā, kad vajadzēja apvienot divus vai vairākus PDF failus vienā dokumentā? Organizācijai bieži ir nepieciešams apvienot vairākus PDF failus vienā dokumentā. PyPDF2 bibliotēka nodrošina iespēju apvienot PDF failus tikai ar pāris Python koda rindām. Izstrādātāji var arī viegli sadalīt lielus PDF dokumentus mazākos atbilstoši savām vajadzībām. Izstrādātāji var viegli iegūt noteiktu PDF grāmatas daļu vai sadalīt to vairākos PDF failos
Apvienojiet PDF failus, izmantojot Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Izņemiet metadatus no PDF failiem
PyPDF2 bibliotēkā ir iekļauta funkcionalitāte metadatu iegūšanai no PDF dokumentiem, izmantojot pāris Python komandas. Jūs varat viegli iegūt informāciju par autoru, veidotāja lietotni, lappušu skaitu, dokumenta nosaukumu un izveides datumiem utt. Varat viegli iegūt PDF dokumentu metadatus un izmantot tos atbilstoši savām vajadzībām.
Izņemiet metadatus no PDF, izmantojot Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)