Aipeanna a fhorbairt chun oibriú le PDFs trí Leabharlann Python
Open Source Python API atá in ann leathanaigh chomhaid PDF a scoilt, a chumasc, a bhearradh agus a athrú, sonraí saincheaptha & Pasfhocail a chur le PDF.
Is leabharlann Python íon foinse oscailte é PyPDF2 a sholáthraíonn an cumas oibriú le comhaid PDF taobh istigh d’fheidhmchláir Python gan aon spleáchas seachtrach. Áiríodh sa leabharlann tacaíocht do go leor gnéithe tábhachtacha PDF, mar shampla comhaid PDF iolracha a chumasc, ábhar an chomhaid PDF a bhaint, leathanaigh chomhaid PDF a rothlú ar uillinn, leathanaigh PDF a scálaiú, leathanaigh chomhaid PDF a athrú, íomhánna a bhaint as leathanaigh PDF agus go leor eile.
Tá an leabharlann ríomhchlárúcháin foinse oscailte PyPDF2 an-éasca le húsáid agus tá an cód foinse doiciméadaithe go maith agus éasca le tuiscint. Cuireann an leabharlann ar chumas forbróirí meiteashonraí Comhaid PDF a léamh agus a bhaint as, mar shampla líon na leathanach, an t-údar, an cruthaitheoir, an t-am cruthaithe agus an t-am nuashonraithe deiridh, etc. Tacaíonn an leabharlann freisin le comhaid PDF a chriptiú agus a dhíchriptiú gan ach cúpla líne de chód Python.
.
Tús a chur le PyPDF2
Ní thagann PyPDF2 mar chuid de Leabharlann Caighdeánach Python, mar sin beidh ort é a shuiteáil tú féin. Is é an bealach is fearr chun é sin a dhéanamh ná pip a úsáid.
Suiteáil PyPDF2 trí pip
python -m pip install pypdf2
Sliocht téacs ó pdf trí python
Soláthraíonn leabharlann PyPDF2 an cumas chun téacs a bhaint as comhaid PDF trí Python. Níl sé éasca sonraí a aisghabháil ó chomhad PDF mar go mbíonn sé deacair é a bhaint amach toisc go stórálann PDF faisnéis. Déanann an PyPDF2 post éasca d’fhorbróirí trí fheidhmeanna ionsuite atá éasca le húsáid a sholáthar dóibh chun faisnéis a aisghabháil. Is féidir leo an modh extractText() ar an oibiacht leathanaigh a úsáid chun ábhar téacs an leathanaigh a fháil.
Sliocht Téacs ó PDF trí Python
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Léamh comhaid pdf trí python
Soláthraíonn leabharlann PyPDF2 an cumas chun téacs a bhaint as comhaid PDF trí Python. Níl sé éasca sonraí a aisghabháil ó chomhad PDF mar go mbíonn sé deacair é a bhaint amach toisc go stórálann PDF faisnéis. Déanann an PyPDF2 poist fhorbróirí éasca a dhéanamh trí fheidhmeanna ionsuite atá éasca le húsáid a sholáthar dóibh chun faisnéis a aisghabháil. Is féidir leo an modh extractText() ar an oibiacht leathanaigh a úsáid chun ábhar téacs an leathanaigh a fháil.
Léamh comhaid pdf i python
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
Cumaisc nó Scoilt Doiciméid PDF
An raibh tú riamh i gcás ina raibh ort dhá chomhad PDF nó níos mó a chumasc in aon doiciméad amháin? Is minic a éilíonn an eagraíocht comhaid PDF iolracha a chumasc in aon doiciméad amháin. Soláthraíonn leabharlann PyPDF2 an cumas comhaid PDF a chomhcheangal le cúpla líne de chód Python. Is féidir le forbróirí freisin doiciméid mhóra PDF a roinnt go cinn níos lú de réir a gcuid riachtanas. Is féidir le forbróirí cuid shonrach de leabhar PDF a bhaint go héasca nó é a roinnt ina PDFanna iolracha
Chumas comhaid PDF trí Python
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
Sliocht meiteashonraí ó chomhaid PDF
Tá feidhmiúlacht san áireamh sa leabharlann PyPDF2 chun Meiteashonraí a bhaint as doiciméid PDF trí úsáid a bhaint as cúpla orduithe Python. Is féidir leat faisnéis a fháil go héasca faoin údar, an aip cruthaitheoir, líon na leathanach, teideal an doiciméid, agus dátaí cruthaithe, etc. Is féidir leat meiteashonraí doiciméad PDF a bhaint go héasca agus iad a úsáid de réir do riachtanas.
Sliocht meiteashonraí ó PDF trí Python
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)