Python 라이브러리를 통해 PDF 작업을 위한 앱 개발
PDF 파일의 페이지를 분할, 병합, 자르기 및 변환할 수 있는 오픈 소스 Python API는 PDF에 맞춤 데이터 및 비밀번호를 추가합니다.
PyPDF2는 외부 종속성 없이 Python 응용 프로그램 내에서 PDF 파일로 작업할 수 있는 기능을 제공하는 오픈 소스 순수 Python 라이브러리입니다. 라이브러리에는 여러 PDF 파일 병합, PDF 파일 내용 추출, PDF 파일 페이지를 각도로 회전, PDF 페이지 크기 조정, PDF 파일 페이지 변환, PDF 페이지에서 이미지 추출 및 더 많은.
오픈 소스 프로그래밍 라이브러리 PyPDF2는 사용하기 매우 쉽고 소스 코드가 잘 문서화되어 있고 이해하기 쉽습니다. 이 라이브러리를 통해 개발자는 페이지 수, 작성자, 작성자, 생성 및 마지막 업데이트 시간 등과 같은 PDF 파일 메타데이터를 읽고 추출할 수 있습니다. 라이브러리는 또한 단 몇 줄의 Python 코드로 PDF 파일 암호화 및 암호 해독을 지원합니다.
.
PyPDF2 시작하기
PyPDF2는 Python 표준 라이브러리의 일부로 제공되지 않으므로 직접 설치해야 합니다. 그렇게 하는 가장 좋은 방법은 pip를 사용하는 것입니다.
pip를 통해 PyPDF2 설치
python -m pip install pypdf2
Python을 통해 PDF에서 텍스트 추출
PyPDF2 라이브러리는 Python을 통해 PDF 파일에서 프로그래밍 방식으로 텍스트를 추출하는 기능을 제공합니다. PDF가 정보를 저장하는 방식이 정보를 얻기가 어렵기 때문에 PDF 파일에서 데이터를 검색하는 것은 쉽지 않습니다. PyPDF2는 정보 검색을 위해 사용하기 쉬운 내장 기능을 제공하여 개발자가 작업을 쉽게 수행할 수 있도록 합니다. 페이지 객체의 extractText() 메서드를 사용하여 페이지의 텍스트 콘텐츠를 가져올 수 있습니다.
Python을 통해 PDF에서 텍스트 추출
// extract text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
page = reader.pages[0]
print(page.extract_text())
Python을 통해 PDF 파일 읽기
PyPDF2 라이브러리는 Python을 통해 PDF 파일에서 프로그래밍 방식으로 텍스트를 추출하는 기능을 제공합니다. PDF가 정보를 저장하는 방식이 정보를 얻기가 어렵기 때문에 PDF 파일에서 데이터를 검색하는 것은 쉽지 않습니다. PyPDF2는 정보 검색을 위한 내장 기능을 사용하기 쉽게 제공하여 개발자의 작업을 쉽게 만듭니다. 페이지 객체의 extractText() 메서드를 사용하여 페이지의 텍스트 콘텐츠를 가져올 수 있습니다.
Python을 통해 PDF 파일 읽기
// Reading text from a PDF
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
for page in reader.pages:
if "/Annots" in page:
for annot in page["/Annots"]:
subtype = annot.get_object()["/Subtype"]
if subtype == "/Text":
print(annot.get_object()["/Contents"])
PDF 문서 병합 또는 분할
둘 이상의 PDF 파일을 단일 문서로 병합해야 하는 상황에 처한 적이 있습니까? 조직에서는 여러 PDF 파일을 단일 문서로 병합해야 하는 경우가 많습니다. PyPDF2 라이브러리는 PDF 파일을 단 몇 줄의 Python 코드와 결합하는 기능을 제공합니다. 또한 개발자는 필요에 따라 큰 PDF 문서를 작은 문서로 쉽게 분할할 수 있습니다. 개발자는 PDF 책의 특정 부분을 쉽게 추출하거나 여러 PDF로 나눌 수 있습니다.
Python을 통해 PDF 파일 병합
// Merge PDF files
from PyPDF2 import PdfMerger
merger = PdfMerger()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
PDF 파일에서 메타데이터 추출
PyPDF2 라이브러리에는 몇 가지 Python 명령을 사용하여 PDF 문서에서 메타데이터를 추출하는 기능이 포함되어 있습니다. 작성자, 작성자 앱, 페이지 수, 문서 제목, 작성 날짜 등의 정보를 쉽게 얻을 수 있습니다. PDF 문서의 메타 데이터를 쉽게 추출하여 필요에 따라 사용할 수 있습니다.
Python을 통해 PDF에서 메타데이터 추출
// Reading PDF Metadata
from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")
meta = reader.metadata
print(len(reader.pages))
# All of the following could be None!
print(meta.author)
print(meta.creator)
print(meta.producer)
print(meta.subject)
print(meta.title)