Estrai informazioni dai PDF tramite la libreria Python gratuita
API Python gratuita che consente agli sviluppatori di estrarre informazioni dai documenti PDF e convertire i PDF in altri formati ed esegue l'analisi automatica del layout.
PDFMiner è una libreria Python open source molto facile da usare per l'elaborazione di file PDF senza altre dipendenze. PDFMine.six fork gestito dalla comunità della libreria PDFMiner originale. La libreria ha fornito funzionalità molto potenti per l'estrazione di informazioni dai documenti PDF. Fornisce un'utilità di comando per i non programmatori e un'interfaccia API per i programmatori. Un potente convertitore PDF fa anche parte della libreria che aiuta gli utenti a trasformare i file PDF in altri formati di testo come HTML.
Il PDFMiner è una libreria Python pura che può facilmente estrarre tutti i testi da un file PDF che vengono renderizzati a livello di codice. La grande capacità è che estrae anche le posizioni corrispondenti, i nomi e le dimensioni dei caratteri e la direzione di scrittura (orizzontale o verticale) per ogni segmento di testo. Supporta la specifica PDF-1.7 e fornisce supporto per l'estrazione di documenti PDF protetti da password. La libreria ha incluso molte altre importanti funzionalità, come l'analisi, l'analisi e la conversione di documenti PDF, l'estrazione di contenuti come HTML o hOCR, il supporto per script di scrittura verticale, il supporto per la crittografia RC4 e AES, l'estrazione di sommari, l'estrazione di contenuti con tag, il layout automatico analisi e così via.
Iniziare con PDFMiner
PDFMiner richiede Python 3.6 e versioni successive. Puoi installare PDFMiner usando pip. Si prega di utilizzare il seguente comando per installarlo.
Installa PDFMiner tramite pip
pip install pdfminer
Puoi anche scaricare la libreria condivisa compilata dal repository GitHub e installarla.
Estrai il testo dal file PDF tramite Python
La libreria open source Pdfminer.six offre agli sviluppatori di software la possibilità di estrarre testo da un file PDF con solo un paio di righe di codice Python. La libreria si concentra sull'acquisizione e l'analisi dei dati di testo e successivamente estrae il testo da una pagina direttamente dal codice sorgente del PDF. La libreria consente inoltre agli sviluppatori di estrarre immagini (JPG, JBIG2, Bitmap) da un file PDF. È anche possibile estrarre il Fontname o la dimensione di ogni singolo carattere. Gli esempi seguenti mostrano come estrarre il testo da un file PDF e stamparlo sullo schermo.
Apri e manipola documenti PDF tramite Python
from pdfminer.high_level import extract_text
# Extract text from a pdf.
text = extract_text('example.pdf')
# Extract iterable of LTPage objects.
pages = extract_pages('example.pdf')
print(text)
Converti file PDF in hOCR tramite l'API Python
hOCR è uno standard aperto di rappresentazione dei dati per il testo formattato ottenuto dal riconoscimento ottico dei caratteri (OCR). Le librerie Pdfminer.six gratuite consentono agli sviluppatori di software di convertire i file PDF in formato hOCR con solo un paio di righe di codice Python. La libreria è molto facile da gestire e può estrarre le informazioni di testo esplicite da quei PDF che le hanno e le utilizza per generare una rappresentazione hOCR di base.
Converti file PDF in testo tramite Python
La libreria include un ricco set di funzionalità e funzionalità che consentono di estendersi oltre l'elaborazione PDF di base. La libreria open source Pdfminer.six consente agli sviluppatori Python di convertire i documenti PDF in testo con solo un paio di semplici comandi. Per prima cosa devi fornire il percorso ai file PDF e al file di testo. Se il documento è protetto da password, è necessario fornire anche la relativa password. Il seguente esempio di codice può essere utilizzato per raggiungere l'obiettivo, restituirà semplicemente la stringa in un PDF, dato il suo nome file, puoi salvarlo facilmente in un file.
Converti file PDF in formato testo tramite l'API Python
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text