Információk kinyerése PDF-fájlokból az ingyenes Python Library segítségével
Ingyenes Python API, amely lehetővé teszi a fejlesztők számára, hogy információkat nyerjenek ki PDF dokumentumokból, és konvertálják a PDF-et más formátumokba, és automatikus elrendezéselemzést végez.
A PDFMiner egy nyílt forráskódú, nagyon könnyen használható Python-könyvtár PDF-fájlok feldolgozásához, minden egyéb függőség nélkül. PDFMine.six közösség által karbantartott elágazás az eredeti PDFMiner könyvtárból. A könyvtár nagyon hatékony szolgáltatásokat kínál a PDF dokumentumokból történő információk kinyeréséhez. Parancs segédprogramot biztosít nem programozóknak és API interfészt programozóknak. A könyvtár részét képezi egy nagy teljesítményű PDF-konvertáló is, amely segít a felhasználóknak PDF-fájlok más szövegformátumokká, például HTML-formátumokká alakításában.
A PDFMiner egy tiszta Python-könyvtár, amely könnyedén ki tudja bontani a programozottan előállított PDF-fájlok összes szövegét. A nagyszerű képesség abban rejlik, hogy minden szövegszegmenshez kivonja a megfelelő helyeket, betűtípusneveket és -méreteket, valamint az írási irányt (vízszintes vagy függőleges). Támogatja a PDF-1.7 specifikációt, és támogatja a jelszóval védett PDF dokumentumok kinyerését. A könyvtár számos más fontos funkciót is tartalmazott, mint például a PDF dokumentumok elemzése, elemzése és konvertálása, tartalom kibontása HTML vagy hOCR formátumban, függőleges írási szkriptek támogatása, RC4 és AES titkosítás támogatása, tartalomjegyzék kibontása, címkézett tartalom kinyerése, automatikus elrendezés elemzés és így tovább.
A PDFMiner használatának első lépései
A PDFMinerhez Python 3.6 vagy újabb verzió szükséges. A PDFMiner a pip segítségével telepíthető. Kérjük, használja a következő parancsot a telepítéshez.
Telepítse a PDFMiner-t pip-n keresztül
pip install pdfminer
Az összeállított megosztott könyvtárat letöltheti a GitHub-tárhelyből, és telepítheti.
Szöveg kibontása PDF fájlból Python segítségével
A nyílt forráskódú Pdfminer.six könyvtár lehetővé teszi a szoftverfejlesztők számára, hogy szöveget vonjanak ki egy PDF-fájlból mindössze néhány sornyi Python-kóddal. A könyvtár a szöveges adatok beszerzésére és elemzésére összpontosít, majd ezt követően közvetlenül a PDF forráskódjából nyeri ki a szöveget egy oldalról. A könyvtár azt is lehetővé teszi a fejlesztők számára, hogy képeket (JPG, JBIG2, Bitmaps) nyerjenek ki egy PDF fájlból. Lehetőség van az egyes karakterek betűtípusának vagy méretének kinyerésére is. A következő példák bemutatják, hogyan lehet kivonni a szöveget egy PDF-fájlból, és kinyomtatni a képernyőn.
Nyissa meg és kezelje a PDF dokumentumokat Python segítségével
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Konvertálja a PDF-fájlt hOCR-re a Python API-n keresztül
A hOCR az optikai karakterfelismerésből (OCR) nyert formázott szöveg adatmegjelenítésének nyílt szabványa. Az ingyenes Pdfminer.six könyvtárak lehetővé teszik a szoftverfejlesztők számára, hogy néhány sor Python kóddal hOCR formátumba konvertálják a PDF fájlokat. A könyvtár nagyon könnyen kezelhető, és ki tudja bontani az explicit szöveges információkat azokból a PDF-ekből, amelyek rendelkeznek ezzel, és felhasználja az alapvető hOCR-reprezentáció létrehozására.
Konvertálja a PDF fájlt szöveggé Python segítségével
A könyvtár gazdag szolgáltatáskészletet és olyan képességeket tartalmaz, amelyek lehetővé teszik az alapvető PDF-feldolgozáson túlmutató kiterjesztést. A nyílt forráskódú Pdfminer.six könyvtár segítségével a Python fejlesztők néhány egyszerű paranccsal szöveggé konvertálhatják a PDF-dokumentumokat. Először meg kell adnia a PDF-fájlok elérési útját, valamint a szövegfájlt. Ha a dokumentum jelszóval védett, akkor annak jelszavát is meg kell adni. A következő kódpélda használható a cél eléréséhez, egyszerűen visszaadja a karakterláncot egy PDF-ben, a fájlnév alapján könnyen mentheti a fájlba.
PDF-fájl konvertálása szöveges formátumba a Python API-n keresztül
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text