Opret og konverter PDF til Docx via Open Source Python Library
Gratis Python API, der er i stand til at oprette og konvertere PDF-dokumenter til DOCX, parse og genskabe sidelayout eller genskabe afsnit via Python Library.
Der er mange Python-biblioteker til oprettelse og behandling af PDF-dokumenter. AS Python anses for at være det bedste sprog til håndtering af PDF-behandling, fordi det gør udvikling så let og hurtig. pdf2docx er et sådant kraftfuldt open source Python-bibliotek, der gør det muligt for computerprogrammører at oprette og konvertere PDF-dokumenter til Word DOCX-filformat med lethed. Biblioteket er meget enkelt at håndtere og har en simpel GUI, der gør det muligt for brugerne nemt at få adgang til og bruge forskellige funktioner i biblioteket.
pdf2docx-biblioteket har inkluderet forskellige funktioner til håndtering af PDF-handlinger, såsom adgang til PDF-dokumenter, konvertering af PDF til andre filformater, parsing og genskabelse af sidelayout, sidemarginunderstøttelse, udtrækning af metainformation, udtrækning af tekst fra PDF-filer, parsing og genskabelse. -oprettelse af afsnit, indsættelse af tekst til PDF, understøttelse af listestile, Parse og genskabe billedet, transparent billede, Parse og genskabe tabellen, flettede celler, tabel med delvist skjulte kanter, indlejrede tabeller understøttelse, Parsing sider med multi- forarbejdning og mange flere.
Kom godt i gang med pdf2docx
pdf2docx er meget let at installere. Den foretrukne måde at gøre det på er at bruge pip, brug venligst følgende kommando til enhver nem installation.
Installer pdf2docx via pip
pip install pdf2docx
Det er også muligt at installere det manuelt; download de seneste udgivelsesfiler direkte fra GitHub-lageret.
Konverter PDF-fil til Docx via Python API
Open source pdf2docx-biblioteket understøtter fuldt ud PDF-filkonvertering til Docx-filformat med blot et par linjer Python-kode. Biblioteket har givet flere metoder til håndtering af PDF-konvertering. Du kan konvertere alle sider i et dokument eller vælge nogle specifikke sider og konvertere dem til en Docx-fil. Biblioteket understøtter også adgang til og konvertering af adgangskodebeskyttede PDF-dokumenter i Python-applikationer. Biblioteket understøtter også multi-processing, som kun virker for kontinuerlige PDF-sider, kun specificeret efter start og slut.
Konverter alle sider i en PDF via Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Konverter specificerede PDF-sider til Docx via Python
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file) # all pages by default
cv.close()
Uddrag tabel fra PDF via Python API
Nogle gange har vi brug for at udtrække nogle specifikke data fra en PDF-fil. Det gratis pdf2docx-bibliotek giver brugerne mulighed for at udtrække tabeller fra PDF-filer uden nogen ekstern afhængighed. For at opnå denne opgave skal du bruge funktionen extract_tables() . Følgende eksempler kan bruges til at udtrække alle tabeller fra en PDF-fil.
Udpak PDF-tabel via Python API
from pdf2docx import Converter
pdf_file = '/path/to/sample.pdf'
cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()
for table in tables:
print(table)
Uddrag alle tabeller fra PDF via Python API
extrated_tables_list = extract_tables(pdf_with_path, start={int page id}, end={int page id})
for obj in extrated_tables_list :
print(obj)