Poimi tiedot PDF-tiedostoista ilmaisen Python-kirjaston kautta
Ilmainen Python API, jonka avulla kehittäjät voivat poimia tietoja PDF-dokumenteista ja muuntaa PDF-tiedostoja muihin muotoihin ja suorittaa automaattisen asetteluanalyysin.
PDFMiner on avoimen lähdekoodin erittäin helppokäyttöinen Python-kirjasto PDF-tiedostojen käsittelyyn ilman muita riippuvuuksia. PDFMine.six alkuperäisen PDFMiner-kirjaston yhteisön ylläpitämä haarukka. Kirjasto on tarjonnut erittäin tehokkaita ominaisuuksia tiedon poimimiseen PDF-dokumenteista. Se tarjoaa komentoapuohjelman muille kuin ohjelmoijille ja API-rajapinnan ohjelmoijille. Tehokas PDF-muunnin on myös osa kirjastoa, jonka avulla käyttäjät voivat muuntaa PDF-tiedostoja muihin tekstimuotoihin, kuten HTML-muotoon.
PDFMiner on puhdas Python-kirjasto, joka voi helposti poimia kaikki ohjelmallisesti renderöidyt tekstit PDF-tiedostosta. Suuri ominaisuus on, että se poimii myös vastaavat sijainnit, kirjasinten nimet ja koot sekä kirjoitussuunnan (vaaka- tai pystysuora) jokaiselle tekstisegmentille. Se tukee PDF-1.7-spesifikaatiota ja tukee salasanalla suojattua PDF-dokumentin purkamista. Kirjastossa on useita muita tärkeitä ominaisuuksia, kuten PDF-dokumenttien jäsentäminen, analysointi ja muuntaminen, sisällön purkaminen HTML- tai hOCR-muodossa, tuki pystysuoralle kirjoitusskriptille, RC4- ja AES-salauksen tuki, sisällysluettelon purkaminen, koodatun sisällön purkaminen, automaattinen asettelu analyysi ja niin edelleen.
PDFMinerin käytön aloittaminen
PDFMiner vaatii Python 3.6:n tai uudemman. Voit asentaa PDFMinerin pip:n avulla. Käytä seuraavaa komentoa asentaaksesi sen.
Asenna PDFMiner pipin kautta
pip install pdfminer
Voit myös ladata käännetyn jaetun kirjaston GitHub-arkistosta ja asentaa sen.
Pura teksti PDF-tiedostosta Pythonin kautta
Avoimen lähdekoodin Pdfminer.six-kirjasto antaa ohjelmistokehittäjille mahdollisuuden poimia tekstiä PDF-tiedostosta vain muutamalla Python-koodirivillä. Kirjasto keskittyy tekstidatan saamiseen ja analysointiin ja sen jälkeen poimii tekstin sivulta suoraan PDF:n lähdekoodista. Kirjaston avulla kehittäjät voivat myös poimia kuvia (JPG, JBIG2, Bitmaps) PDF-tiedostosta. On myös mahdollista poimia jokaisen yksittäisen merkin fonttinimi tai koko. Seuraavat esimerkit osoittavat, kuinka teksti puretaan PDF-tiedostosta ja tulostetaan näytölle.
Avaa ja käsittele PDF-dokumentteja Pythonin kautta
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Muunna PDF-tiedosto hOCR:ksi Python API:n kautta
hOCR on optisella merkintunnistuksella (OCR) saadun muotoillun tekstin tietojen esittämisen avoin standardi. Ilmaisten Pdfminer.six-kirjastojen avulla ohjelmistokehittäjät voivat muuntaa PDF-tiedostoja hOCR-muotoon vain muutamalla Python-koodirivillä. Kirjastoa on erittäin helppo käsitellä, ja se voi poimia eksplisiittiset tekstitiedot niistä PDF-tiedostoista, joissa se on, ja käyttää sitä hOCR-perusesityksen luomiseen.
Muunna PDF-tiedosto tekstiksi Pythonin avulla
Kirjasto sisältää runsaasti ominaisuuksia ja ominaisuuksia, joiden avulla voit laajentaa PDF-peruskäsittelyä pidemmälle. Avoimen lähdekoodin Pdfminer.six-kirjaston avulla Python-kehittäjät voivat muuntaa PDF-dokumentteja tekstiksi muutamalla yksinkertaisella komennolla. Ensin sinun on annettava polku PDF-tiedostoihin sekä tekstitiedosto. Jos asiakirja on suojattu salasanalla, sinun on annettava myös sen salasana. Seuraavaa koodiesimerkkiä voidaan käyttää tavoitteen saavuttamiseen, se yksinkertaisesti palauttaa merkkijonon PDF-tiedostossa, koska sen tiedostonimi antaa, voit helposti tallentaa sen tiedostoon.
Muunna PDF-tiedosto tekstimuotoon Python API:n kautta
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text