PDF fayllarını təhlil etmək üçün açıq mənbəli PHP kitabxanası
Pulsuz PHP API Tərtibatçılara PDF Fayllarını təhlil etməyə, PDF-lərdən məlumat və elementləri çıxarmağa imkan verir.
PDFParser, proqram tərtibatçılarına PDF fayllarını təhlil etməyə və öz PHP proqramlarında PDF elementlərini çıxarmağa imkan verən Açıq mənbəli PHP Kitabxanasıdır. PDFParser TCPDF analizatorunun üstündə qurulmuşdur. PDFParser, PDF faylından məlumat çıxarmaq üçün müxtəlif alətlər təqdim edən müstəqil PHP kitabxanasıdır.
Portativ Sənəd Format (PDF) dünyanın ən sevimli sənəd formatlarından biridir və hələ də çox populyardır. API PDF obyektlərinin və başlıqlarının yüklənməsi və təhlili, metadatanın çıxarılması, sifariş edilmiş səhifələrdən mətn çıxarılması, sıxılmış PDF dəstəyi, Hexa və səkkizlik məzmun kodlaşdırma dəstəyi və daha çox kimi PDF təhlili üçün bir neçə vacib funksiyanı dəstəkləyir.
.
PDFParser ilə işə başlamaq
PDFParser kitabxanası avtomatik olaraq composer komanda xətti vasitəsilə endiriləcək. Composer.json faylınıza PDFParser əlavə edin.
composer.json-a əmr əlavə edin
{
"require": {
"smalot/pdfparser": "*"
}
}
Komandanı işlətməklə paketi yükləmək üçün bəstəkardan istifadə edin:
PHP API vasitəsilə PDF faylını təhlil edin və hər səhifədən mətni çıxarın
PDFParser, kompüter proqramçılarına öz PHP tətbiqi daxilində PDF sənədlərini təhlil etməyə imkan verən funksionallığı təmin edir. Əvvəlcə lazımi obyektləri qurmalı, sonra PDF faylını yükləməlisən, təhlil edilmiş fayl dəyişəndə saxlanıla bilər və sonra bu obyekt PDF səhifəsini səhifə-səhifə idarə etməyə imkan verəcək. İndi siz asanlıqla bütün PDF-dən və ya səhifələrə görə mətn çıxara bilərsiniz. Sənəd təhlil edildikdən sonra PDF-nin hər səhifəsindən asanlıqla mətn çıxara bilərsiniz.
PHP vasitəsilə PDF faylını təhlil edin
// Include Composer autoloader if not already done.
include 'vendor/autoload.php';
// Parse Base64 encoded PDF string and build necessary objects.
$parser = new \Smalot\PdfParser\Parser();
$pdf = $parser->parseContent(base64_decode($base64PDF));
$text = $pdf->getText();
echo $text;
PDF sənədindən metaməlumatları çıxarın
Metadata includes very important information about the PDF document and its contents such as Author, copyright information, creator, Creation Date and more. PDFParser gives developers the power to extract metadata from a PDF document. Once the document is parsed you can easily retrieve all details from the PDF file.
PHP API vasitəsilə PDF-dən metaməlumatları çıxarın
// Metadata Extraction from PDF
$metaData = $pdf->getDetails();
Array
(
[Producer] => Adobe Acrobat
[CreatedOn] => 2022-01-28T16:36:11+00:00
[Pages] => 35
)
Xüsusi PDF səhifəsindən mətni çıxarın
PDFParser, tərtibatçılara az miqdarda koddan istifadə edərək asanlıqla xüsusi səhifələrdən mətn çıxarmağa imkan verir. API tərtibatçılara PDF sənədinin hər səhifəsini ayrıca idarə etmək imkanı verir. Tərtibatçılar səhifələr sırasını təkrarlaya və seçdikləri səhifədən mətni əldə edə bilərlər. Massivin sırası PDF sənədinin sırası ilə eynidir.
PHP vasitəsilə PDF-dən Mətni çıxarın
// Extract Text from PDF via PHP
$text = $pdf->getText();
// or extract the text of a specific page (in this case the first page)
$text = $pdf->getPages()[0]->getText();