ワープロ ドキュメントを作成するための C# .NET ライブラリ

オープン ソースの C# .NET API を使用すると、ソフトウェア開発者は Microsoft Word、Google Docs、LibreOffice ドキュメントを無料でロードして HTML に変換できます。

Dotnet-Mammoth とは何ですか?

現代の情報交換の世界では、ドキュメントをある形式から別の形式にシームレスに変換する機能が最も重要になっています。 アーカイブ、共有、あるいは単にデータの整合性を維持する場合でも、信頼できるドキュメント変換ツールがあれば大きな違いが生まれます。 ここで Dotnet-Mammoth ライブラリが活躍し、ドキュメントを簡単に変換するための強力で多用途のソリューションを提供します。 ライブラリを使用すると、ユーザーは歴史的文書や重要な記録をアクセス可能で検索可能な HTML ファイルに変換できます。

Dotnet-Mammot ライブラリは、人気のある mammoth.js JavaScript ライブラリの .NET ラッパーです。 その主な目的は、複雑なドキュメント (主に DOCX および DOC ファイル) を HTML に変換するプロセスを簡素化し、異なる形式間のスムーズな移行を可能にすることです。 これは、Web アプリケーションやコンテンツ管理システムなど、HTML が優先されるアプリケーションでドキュメントを扱う場合に特に便利です。 見出し、リスト、カスタマイズ可能なマッピングのサポート、表の書式設定、脚注と文末脚注、画像、リンク、改行、テキスト ボックス、コメント、太字/斜体/下線、取り消し線などの機能がサポートされています。

Dotnet-Mammoth ライブラリは、.NET アプリケーション内で堅牢かつ正確なドキュメント変換機能を必要とするソフトウェア開発者にとって貴重な資産であることがわかります。 Word 文書を簡単にインポートし、書式を維持したまま Web サイトやブログに公開します。 複雑なスタイル、使いやすさ、構成の容易さのサポートにより、ドキュメント変換を処理するための頼りになる選択肢として際立っています。 ライブラリの機能を活用することで、開発者は、視覚的および構造的な整合性を維持しながら、複雑なドキュメントをシームレスに変換する可能性の世界を開くことができます。

Previous Next

Dotnet-Mammoth の使用を開始する

Dotnet-Mammoth をインストールする推奨方法は、NuGet を使用することです。 スムーズにインストールするには、次のコマンドを使用してください。

NuGet から Dotnet-Mammoth をインストールする

 Install-Package Mammoth
GitHub から直接ダウンロードすることもできます。

C# を使用した Word ドキュメントの HTML への変換

オープン ソースの Dotnet-Mammoth ライブラリを使用すると、ソフトウェア開発者は、Microsoft Word DOCX ドキュメントを読み込んで、.NET アプリケーション内でクリーンで正確な HTML に変換することができます。 このライブラリは Microsoft Word ドキュメント (.docx 形式と .doc 形式の両方) の処理に優れており、幅広いドキュメントを扱うアプリケーションにとって理想的な選択肢です。 文書変換においては驚異的な精度を誇ります。 テキストコンテンツだけでなく、見出し、リスト、表、さらには埋め込み画像などのさまざまなスタイル要素も細心の注意を払って翻訳されます。 次の例は、ソフトウェア開発者が C# コマンドを使用して Word ドキュメントを読み込んで HTML ファイル形式に変換する方法を示しています。

C# API 経由で Word ドキュメントを HTML ファイルに変換する方法

using DotnetMammoth;

class Program
{
    static void Main(string[] args)
    {
        var converter = new DocumentConverter();
        var result = converter.ConvertToHtml("path/to/document.docx");
        
        Console.WriteLine(result.Value);
    }
}

テキストの抽出と複雑なドキュメントの処理

オープン ソースの Dotnet-Mammoth ライブラリは、C# アプリケーション内で複雑なドキュメントを処理するための完全なサポートを提供しています。 ドキュメントによっては、複雑な書式設定、表、画像などが含まれ、非常に複雑になる場合があります。 このライブラリはこの複雑さに効果的に対処し、複雑なレイアウトを持つドキュメントでも正確に変換されるようにします。 ExtractRawText を使用すると、ドキュメントの生のテキストを抽出することも非常に簡単です。 次の例は、ソフトウェア開発者が .NET アプリケーション内の Word .docx ドキュメントからテキストを抽出する方法を示しています。

C# アプリ内で Word ドキュメントの生のテキストを抽出する方法

var converter = new DocumentConverter();
var result = converter.ExtractRawText("document.docx");
var html = result.Value; // The raw text
var warnings = result.Warnings; // Any warnings during conversion

精度、保存、カスタム スタイル

ドキュメントを変換する際の主な関心事の 1 つは、元のコンテンツの忠実性を維持することです。 Dotnet-Mammoth ライブラリはこの点で優れており、ソース ドキュメントの書式設定、スタイル、構造を結果として得られる HTML でできるだけ正確に保持するよう努めています。 このライブラリは、変換プロセス中にカスタム スタイルを適用するオプションを提供し、結果の HTML がアプリケーションの設計標準と一致するようにします。 このレベルのカスタマイズにより、さまざまなプラットフォーム間でのコンテンツの一貫性が強化されます。

 日本