1. Tuotteet
  2.   PDF
  3.   Python
  4.   Pypdf2
 
  

Kehitä sovelluksia PDF-tiedostojen käsittelyyn Python-kirjaston kautta

Avoimen lähdekoodin Python-sovellusliittymä, joka pystyy jakamaan, yhdistämään, rajaamaan ja muuntamaan PDF-tiedostojen sivuja sekä lisäämään PDF-tiedostoon mukautettuja tietoja ja salasanoja.

PyPDF2 on avoimen lähdekoodin puhdas Python-kirjasto, joka tarjoaa mahdollisuuden työskennellä PDF-tiedostojen kanssa Python-sovelluksissa ilman ulkoisia riippuvuuksia. Kirjastossa on tuki lukuisille tärkeille PDF-ominaisuuksille, kuten useiden PDF-tiedostojen yhdistäminen, PDF-tiedoston sisällön purkaminen, PDF-tiedoston sivujen kääntäminen kulmassa, PDF-sivujen skaalaus, PDF-tiedostojen sivujen muuntaminen, kuvien purkaminen PDF-sivuilta ja monta lisää.

Avoimen lähdekoodin ohjelmointikirjasto PyPDF2 on erittäin helppo käyttöinen ja lähdekoodi on hyvin dokumentoitu ja helppo ymmärtää. Kirjaston avulla kehittäjät voivat lukea ja poimia PDF-tiedostojen metatietoja, kuten sivujen lukumäärän, tekijän, luojan, luomisen ja viimeisimmän päivitysajan jne. Kirjasto tukee myös PDF-tiedostojen salausta ja salauksen purkamista vain muutamalla Python-koodirivillä.

.

Previous Next

PyPDF2:n käytön aloittaminen

PyPDF2 ei tule osana Python Standard Librarya, joten sinun on asennettava se itse. Suosituin tapa tehdä se on käyttää pip.

Asenna PyPDF2 pipin kautta

 python -m pip install pypdf2  

Pura teksti PDF-tiedostosta Pythonin kautta

PyPDF2-kirjasto tarjoaa mahdollisuuden ohjelmallisesti poimia tekstiä PDF-tiedostoista Pythonin kautta. Tietojen hakeminen PDF-tiedostosta ei ole helppoa, koska tapa, jolla PDF tallentaa tietoja, tekee sen saavuttamisen vaikeaksi. PyPDF2 tekee kehittäjien työstä helppoa tarjoamalla heille helppokäyttöisiä sisäänrakennettuja toimintoja tiedon hakemiseen. He voivat käyttää extractText()-menetelmää sivuobjektissa saadakseen sivun tekstisisällön.

Pura teksti PDF-tiedostosta Pythonin kautta

 // extract text from a PDF
  from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  page = reader.pages[0]
  print(page.extract_text()) 

PDF-tiedostojen lukeminen Pythonin kautta

PyPDF2-kirjasto tarjoaa mahdollisuuden ohjelmallisesti poimia tekstiä PDF-tiedostoista Pythonin kautta. Tietojen hakeminen PDF-tiedostosta ei ole helppoa, koska tapa, jolla PDF tallentaa tietoja, tekee sen saavuttamisen vaikeaksi. PyPDF2 tekee kehittäjien työstä helppoa tarjoamalla heille helppokäyttöisiä sisäänrakennettuja toimintoja tiedon hakemiseen. He voivat käyttää sivuobjektissa ekstraktiText()-menetelmää saadakseen sivun tekstisisällön.

PDF-tiedoston lukeminen Pythonilla

 // Reading text from a PDF
    from PyPDF2 import PdfReader
  reader = PdfReader("example.pdf")
  for page in reader.pages:
    if "/Annots" in page:
      for annot in page["/Annots"]:
        subtype = annot.get_object()["/Subtype"]
        if subtype == "/Text":
          print(annot.get_object()["/Contents"]) 

Yhdistä tai jaa PDF-asiakirjat

Oletko koskaan ollut tilanteessa, jossa sinun on pitänyt yhdistää kaksi tai useampi PDF-tiedosto yhdeksi asiakirjaksi? Organisaatio vaatii usein useiden PDF-tiedostojen yhdistämistä yhdeksi asiakirjaksi. PyPDF2-kirjasto tarjoaa mahdollisuuden yhdistää PDF-tiedostoja vain muutamalla rivillä Python-koodia. Kehittäjät voivat myös helposti jakaa suuria PDF-dokumentteja pienempiin tarpeisiinsa. Kehittäjät voivat helposti purkaa tietyn osan PDF-kirjasta tai jakaa sen useiksi PDF-tiedostoiksi

Yhdistä PDF-tiedostoja Pythonin kautta

 // Merge PDF files 
  from PyPDF2 import PdfMerger
  merger = PdfMerger()
  for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)
  merger.write("merged-pdf.pdf")
  merger.close()

Pura metatiedot PDF-tiedostoista

PyPDF2-kirjastossa on toiminto metatietojen poimimiseen PDF-dokumenteista muutamalla Python-komennolla. Saat helposti tietoja tekijästä, luojasovelluksesta, sivumäärästä, asiakirjan otsikosta ja luontipäivämääristä jne. Voit helposti poimia PDF-dokumenttien metatiedot ja käyttää niitä tarpeidesi mukaan.

 

Pura metatiedot PDF-tiedostosta Pythonin kautta

 // Reading PDF Metadata 
  from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)
 Suomen