Kehitä sovelluksia PDF-tiedostojen käsittelyyn Python-kirjaston kautta
Avoimen lähdekoodin Python-sovellusliittymä, joka pystyy jakamaan, yhdistämään, rajaamaan ja muuntamaan PDF-tiedostojen sivuja sekä lisäämään PDF-tiedostoon mukautettuja tietoja ja salasanoja.
PyPDF2 on avoimen lähdekoodin puhdas Python-kirjasto, joka tarjoaa mahdollisuuden työskennellä PDF-tiedostojen kanssa Python-sovelluksissa ilman ulkoisia riippuvuuksia. Kirjastossa on tuki lukuisille tärkeille PDF-ominaisuuksille, kuten useiden PDF-tiedostojen yhdistäminen, PDF-tiedoston sisällön purkaminen, PDF-tiedoston sivujen kääntäminen kulmassa, PDF-sivujen skaalaus, PDF-tiedostojen sivujen muuntaminen, kuvien purkaminen PDF-sivuilta ja monta lisää.
Avoimen lähdekoodin ohjelmointikirjasto PyPDF2 on erittäin helppo käyttöinen ja lähdekoodi on hyvin dokumentoitu ja helppo ymmärtää. Kirjaston avulla kehittäjät voivat lukea ja poimia PDF-tiedostojen metatietoja, kuten sivujen lukumäärän, tekijän, luojan, luomisen ja viimeisimmän päivitysajan jne. Kirjasto tukee myös PDF-tiedostojen salausta ja salauksen purkamista vain muutamalla Python-koodirivillä.
.
PyPDF2:n käytön aloittaminen
PyPDF2 ei tule osana Python Standard Librarya, joten sinun on asennettava se itse. Suosituin tapa tehdä se on käyttää pip.
Asenna PyPDF2 pipin kautta
python -m pip install pypdf2
Pura teksti PDF-tiedostosta Pythonin kautta
PyPDF2-kirjasto tarjoaa mahdollisuuden ohjelmallisesti poimia tekstiä PDF-tiedostoista Pythonin kautta. Tietojen hakeminen PDF-tiedostosta ei ole helppoa, koska tapa, jolla PDF tallentaa tietoja, tekee sen saavuttamisen vaikeaksi. PyPDF2 tekee kehittäjien työstä helppoa tarjoamalla heille helppokäyttöisiä sisäänrakennettuja toimintoja tiedon hakemiseen. He voivat käyttää extractText()-menetelmää sivuobjektissa saadakseen sivun tekstisisällön.
Pura teksti PDF-tiedostosta Pythonin kautta
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
PDF-tiedostojen lukeminen Pythonin kautta
PyPDF2-kirjasto tarjoaa mahdollisuuden ohjelmallisesti poimia tekstiä PDF-tiedostoista Pythonin kautta. Tietojen hakeminen PDF-tiedostosta ei ole helppoa, koska tapa, jolla PDF tallentaa tietoja, tekee sen saavuttamisen vaikeaksi. PyPDF2 tekee kehittäjien työstä helppoa tarjoamalla heille helppokäyttöisiä sisäänrakennettuja toimintoja tiedon hakemiseen. He voivat käyttää sivuobjektissa ekstraktiText()-menetelmää saadakseen sivun tekstisisällön.
PDF-tiedoston lukeminen Pythonilla
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Yhdistä tai jaa PDF-asiakirjat
Oletko koskaan ollut tilanteessa, jossa sinun on pitänyt yhdistää kaksi tai useampi PDF-tiedosto yhdeksi asiakirjaksi? Organisaatio vaatii usein useiden PDF-tiedostojen yhdistämistä yhdeksi asiakirjaksi. PyPDF2-kirjasto tarjoaa mahdollisuuden yhdistää PDF-tiedostoja vain muutamalla rivillä Python-koodia. Kehittäjät voivat myös helposti jakaa suuria PDF-dokumentteja pienempiin tarpeisiinsa. Kehittäjät voivat helposti purkaa tietyn osan PDF-kirjasta tai jakaa sen useiksi PDF-tiedostoiksi
Yhdistä PDF-tiedostoja Pythonin kautta
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Pura metatiedot PDF-tiedostoista
PyPDF2-kirjastossa on toiminto metatietojen poimimiseen PDF-dokumenteista muutamalla Python-komennolla. Saat helposti tietoja tekijästä, luojasovelluksesta, sivumäärästä, asiakirjan otsikosta ja luontipäivämääristä jne. Voit helposti poimia PDF-dokumenttien metatiedot ja käyttää niitä tarpeidesi mukaan.
Pura metatiedot PDF-tiedostosta Pythonin kautta
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)