Tạo HTML đơn giản và sạch sẽ từ Microsoft ® Word Docs với Mammoth
Chuyển đổi ngữ nghĩa Word thành HTML mà không lo nội dung bị xóa.
Mammoth là gì?
Mammoth là một gói dễ sử dụng, đơn giản, không phức tạp, có thể được sử dụng để chuyển đổi tài liệu Word được tạo từ Google Docs, Microsoft Word và LibreOffice thành HTML. Là một công cụ chuyển đổi Doc sang HTML mã nguồn mở, Mammoth rất hữu ích để chuyển đổi ngữ nghĩa bất kỳ tài liệu nào mà không cần tập trung vào kiểu dáng, màu sắc hoặc phông chữ được sử dụng.
Mammoth cung cấp các bản trình diễn web để xem nó sẽ chuyển đổi tài liệu thành HTML như thế nào, tuy nhiên, một trong những tính năng tốt nhất của trình chuyển đổi Tài liệu sang HTML này là nhiều nền tảng mà nó hỗ trợ bao gồm WordPress, Java / JVM, .NET và Python thông qua PyPI. Nếu bạn có các tài liệu phức tạp được tạo với nhiều kiểu dáng và đặc điểm màu sắc, có thể tìm thấy sự không khớp giữa kết quả cuối cùng và tệp đầu vào.
Bất kể, đối với các tài liệu Word đơn giản cần được chuyển đổi thành HTML, Mammoth sẽ hoàn thành công việc.
Bắt đầu với Mammoth
Cách được khuyến nghị để cài đặt thư viện Mammoth là thông qua npm. Vui lòng sử dụng lệnh sau để cài đặt suôn sẻ
Cài đặt Mammoth qua npm
npm install mammoth
Chuyển đổi Microsoft ® Word sang HTML thông qua API JavaScript miễn phí
Mommoth là một API JavaScript mã nguồn mở để chuyển đổi Word sang HTML miễn phí. Nó cung cấp nhiều tính năng để định dạng và chỉnh sửa tài liệu Word khi chúng đã được chuyển đổi thành HTML như thêm Tiêu đề, Danh sách và hình ảnh, phông chữ in nghiêng và in đậm, thêm dấu ngắt dòng, v.v. Tất cả hình ảnh trong word doc được tạo trong kết quả HTML theo mặc định. Bạn cũng có thể trích xuất văn bản thô từ bất kỳ tài liệu nào bằng cách sử dụng hàm mammoth.extractRawText, tuy nhiên, nó sẽ bỏ qua định dạng từ tài liệu gốc.
Chuyển đổi tệp .docx hiện có sang HTML
var mammoth = require("mammoth");
mammoth.convertToHtml({path: "path/to/document.docx"})
.then(function(result){
var html = result.value; // The generated HTML
var messages = result.messages; // Any messages, such as warnings during conversion
})
.done();
Các kiểu ánh xạ từ Word sang HTML thông qua API JavaScript
Đối với hầu hết các phần, Mammoth ánh xạ các kiểu DOCX phổ biến của Microsoft Word từ một tài liệu Word gốc vào kết quả cuối cùng của HTML. Các phần tử như Heading 1 trong Word được chuyển đổi thành H1 trong HTML. Tuy nhiên, Mammoth cung cấp nhiều chức năng để chuyển đổi kiểu từ Word doc sang HTML.
Bản đồ phong cách tùy chỉnh
var mammoth = require("mammoth");
var options = {
styleMap: [
"p[style-name='Section Title'] => h1:fresh",
"p[style-name='Subsection Title'] => h2:fresh"
]
};
mammoth.convertToHtml({path: "path/to/document.docx"}, options);