Създавайте прост и чист HTML от Microsoft® Word Docs с Mammoth
Семантично конвертирайте Word в HTML, без да се притеснявате, че съдържанието ще бъде изтрито.
Какво е Mammoth?
Mammoth е лесен за използване, прост и безпроблемен пакет, който може да се използва за преобразуване на Word документи, генерирани от Google Docs, Microsoft Word и LibreOffice, в HTML. Като конвертор на Doc към HTML с отворен код, Mammoth е полезен за семантично конвертиране на всеки документ, без да се фокусира върху използвания стил, цвят или шрифтове.
Mammoth предоставя уеб демонстрации, за да видите как ще преобразува документи в HTML, но една от най-добрите характеристики на този конвертор на Doc в HTML са многото платформи, които поддържа, включително WordPress, Java/JVM, .NET и Python през PyPI. Ако имате сложни документи, създадени с много стилове и цветови характеристики, може да е възможно да откриете несъответствие между крайния резултат и входния файл.
Независимо от това, за прости документи на Word, които трябва да бъдат конвертирани в HTML, Mammoth върши работата.
Първи стъпки с Mammoth
Препоръчителният начин за инсталиране на библиотека Mammoth е чрез npm. Моля, използвайте следната команда за гладка инсталация
Инсталирайте Mammoth чрез npm
npm install mammoth
Конвертирайте Microsoft® Word в HTML чрез безплатен JavaScript API
Mommoth е JavaScript API с отворен код за безплатно конвертиране на Word в HTML. Предоставя много функции за форматиране и редактиране на документи на Word, когато са били преобразувани в HTML, като добавяне на заглавия, списъци и изображения, курсив и удебелен шрифт, добавяне на нови редове и много други. Всички изображения в word doc се генерират в HTML резултата по подразбиране. Можете също така да извлечете необработен текст от всеки документ, като използвате функцията mammoth.extractRawText, но тя ще игнорира форматирането от оригиналния документ.
Конвертирайте съществуващ .docx файл в HTML
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
Карта на стилове от Word към HTML чрез JavaScript API
В по-голямата си част Mammoth картографира обичайните DOCX стилове на Microsoft Word от оригинален документ на Word в крайния HTML резултат. Елементи като Заглавие 1 в Word се преобразуват в H1 в HTML. Въпреки това, Mammoth предоставя много функции за конвертиране на стилове от Word doc в HTML.
Персонализирана карта на стила
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);