Word から画像を抽出し、GroupDocs.Editor Java で編集可能なドキュメントを作成する

今日の急速に変化する企業環境において、プログラムで Word から画像を抽出 できる能力は画期的です。Word を HTML に変換Word から HTML を生成、または Java スタイルで Word ドキュメントを編集 したい場合でも、GroupDocs.Editor for Java は信頼性が高く高性能な方法でこれらのタスクを自動化します。このガイドでは、環境設定から高度な編集まで必要なすべてを順に解説し、レポート生成の自動化Word ドキュメントのバッチ処理 を数分で構築できるようにします。

クイック回答

  • Word ファイルをロードするための主要クラスは何ですか? Editor
  • 編集用の HTML マークアップを返すメソッドはどれですか? edit()EditableDocument を返します
  • Word ドキュメントから画像を抽出するには? EditableDocumentgetAllResources() を使用します
  • 編集したコンテンツをディスクに保存できますか? はい、EditableDocumentsave() を呼び出します
  • 開発にライセンスは必要ですか? テスト用には無料トライアルまたは一時ライセンスで動作しますが、本番環境ではフルライセンスが必要です

“Word から画像を抽出” とは何ですか?

Word から画像を抽出するとは、.docx ファイルをロードし、編集可能な HTML 表現に変換した上で、埋め込まれたすべての画像、フォント、スタイルシートを取り出すことを指します。これにより各リソースを完全に制御でき、別々に保存したり CDN に再ホストしたり、別のドキュメントに埋め込んだりできます。

なぜ GroupDocs.Editor for Java を使用するのか?

  • フル機能の Word サポート – Microsoft Office を使用せずに編集、抽出、変換が可能です。
  • シームレスな HTML 変換 – Web ベースのエディタや CMS 統合に最適です。
  • 堅牢なリソース処理 – 1 回の呼び出しで画像、フォント、CSS を取得できます。
  • スケーラブルなパフォーマンス – バッチ処理や大規模レポート生成に理想的です。
  • 便利な Java API – Java 8 以降および一般的な IDE と自然に連携します。

前提条件

  • Java Development Kit (JDK) 8 以上。
  • IntelliJ IDEA や Eclipse などの IDE。
  • 基本的な Java の知識と Maven の使用経験。

必要なライブラリ

プロジェクトに GroupDocs.Editor ライブラリを含めます。Maven を使用して依存関係として追加してください:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/editor/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-editor</artifactId>
      <version>25.3</version>
   </dependency>
</dependencies>

あるいは、最新バージョンを直接 GroupDocs.Editor for Java releases からダウンロードしてください。

ライセンス取得

GroupDocs.Editor を使用するには、無料トライアルで開始するか、一時ライセンスをリクエストするか、フルライセンスを購入できます。ライブラリは評価用にすぐに使用でき、プロダクションライセンスへ切り替える場合はライセンスファイルを更新するだけです。

GroupDocs.Editor Java を使用して編集可能なドキュメントを作成する方法

インストール

  1. 依存関係を追加pom.xml に上記の Maven スニペットが含まれていることを確認します。
  2. JAR をダウンロード – 手動設定を好む場合は、公式の GroupDocs site から最新の JAR を取得してください。
  3. ライセンスを設定GroupDocs.Editor.lic ファイルを resources フォルダーに配置するか、プログラムで設定します。

基本的な初期化

環境が整ったら、Word ファイルへのパスを指定して Editor クラスのインスタンスを作成できます:

import com.groupdocs.editor.Editor;

// Initialize Editor with a sample Word document
Editor editor = new Editor("YOUR_DOCUMENT_DIRECTORY/sample.docx");

このシンプルなコード一行で、ドキュメントのロード、編集、保存が可能な完全なエディタが手に入ります。

ステップバイステップガイド

ステップ 1: ドキュメントを EditableDocument としてロードする

ドキュメントを EditableDocument としてロードすることは、あらゆる変更への最初のステップです。

import com.groupdocs.editor.Editor;
import com.groupdocs.editor.EditableDocument;

// Load the document into an EditableDocument
Editor editor = new Editor("YOUR_DOCUMENT_DIRECTORY/sample.docx");
EditableDocument beforeEdit = editor.edit();
  • Editor – ファイル I/O とフォーマット検出を処理します。
  • EditableDocument – ドキュメントを編集可能な HTML 形式で表現します。

ステップ 2: Word コンテンツを編集する(how to edit word)

これで HTML 文字列を操作したり、プレースホルダーを置換したり、スタイルを更新したりできます。変更後は save() を呼び出して永続化します。

ステップ 3: 画像やその他のリソースを抽出する

GroupDocs.Editor を使用すると、埋め込まれたすべてのリソースを簡単に取り出すことができ、これが Word から画像を抽出 する方法そのものです。

import com.groupdocs.editor.htmlcss.resources.IHtmlResource;
import java.util.List;

// Extract embedded HTML, images, fonts, and CSS
String allAsHtmlInsideOneString = beforeEdit.getEmbeddedHtml();
List<IHtmlResource> allResources = beforeEdit.getAllResources();

// Accessing specific resources
List<String> stylesheets = beforeEdit.getCssContent();
  • getEmbeddedHtml() – 完全な HTML マークアップを返します。
  • getAllResources() – 元の Word ファイルに埋め込まれたすべての画像、フォント、スタイルシートのリストを提供します。
  • **extract images from word** – allResourcesを走査してImageResource` 型のオブジェクトを取得するだけです。

ステップ 4: HTML マークアップ内の外部リンクを調整する

ドキュメントにカスタムハンドラ(例: CDN)を指す必要があるリンクが含まれている場合、リアルタイムで書き換えることができます。

String customImagesRequesthandlerUri = "http://example.com/ImagesHandler/id=";
String htmlMarkup = beforeEdit.getContentString(customImagesRequesthandlerUri);
  • getContentString() – すべての画像参照に指定された URI プレフィックスを注入し、画像の配信先を制御できます。

ステップ 5: 編集したドキュメントをディスクに保存する

すべての編集とリソース調整が完了したら、結果を HTML ファイルに書き戻します(後で DOCX に再変換することも可能です)。

// Save the edited document as an HTML file
beforeEdit.save("YOUR_OUTPUT_DIRECTORY/output.html");
  • save() – 編集された HTML と関連リソースを指定フォルダーに永続化します。

ステップ 6: 解放状態を確認する

特に batch process word docs の場合、適切なリソース管理が重要です。

String res = !beforeEdit.isDisposed() ? "not" : "already";
  • isDisposed() – ドキュメントのネイティブリソースが解放されていれば true を返します。使用後は必ず大きなドキュメントを解放してください。

ステップ 7: HTML から EditableDocument を作成する

既存の HTML ファイルや生のマークアップから開始することもでき、convert word to html のシナリオに便利です。

import com.groupdocs.editor.EditableDocument;

// Create EditableDocument from file and markup
EditableDocument afterEditFromFile = EditableDocument.fromFile("YOUR_OUTPUT_DIRECTORY/output.html");
EditableDocument afterEditFromMarkup = EditableDocument.fromMarkup(htmlMarkup, allResources);
  • fromFile() – 以前 save() で保存された HTML ファイルをロードします。
  • fromMarkup() – 文字列とそのリソースリストから直接 EditableDocument を構築します。

GroupDocs.Editor を使用した Word から HTML への変換方法

edit() メソッドはロードされた .docx を自動的に HTML 表現に変換します。その後、getEmbeddedHtml() または getContentString() を使用して generate html from word の出力を取得でき、ウェブページやメールに埋め込んだり、後で使用するために保存したりできます。

GroupDocs.Editor を使用した Word ドキュメントのバッチ処理

数十から数百のテンプレートを処理する必要がある場合、上記の手順をループまたは CompletableFuture パイプラインでラップします。メモリ使用量を抑えるため、各ドキュメント処理後に dispose() を呼び出す(または GC に任せる)ことを忘れないでください。

よくある問題と解決策

  • 大きなドキュメントで OutOfMemoryError が発生 – すべてをメモリにロードせずにリソースをストリームし、使用後はすぐに各 EditableDocument を解放してください。
  • 変換後に画像が表示されない – 正しい URI プレフィックスを getContentString() に渡すか、抽出したリソースを対象フォルダーにコピーしてください。
  • ライセンスが認識されないGroupDocs.Editor.lic ファイルがクラスパス上にあること、または Editor 作成前にプログラムでライセンスを設定していることを確認してください。

よくある質問

Q: GroupDocs.Editor Java で PDF を編集できますか?
A: はい、GroupDocs.Editor は PDF を含むさまざまな形式をサポートしています。具体的なメソッドは API reference をご確認ください。

Q: 大きなドキュメントを効率的に処理するには?
A: EditableDocument インスタンスを速やかに解放するなどのリソース管理手法や、Java の CompletableFuture を使った並列処理を活用してください。

Q: GroupDocs.Editor はすべての Java IDE と互換性がありますか?
A: はい、IntelliJ IDEA や Eclipse などの一般的な IDE で動作します。

Q: 多数のファイルを処理する際、extract images from word の最適な方法は何ですか?
A: EditableDocument.getAllResources() をループし、ImageResource オブジェクトをフィルタリングします。抽出した画像は専用フォルダーに保存するか、随時 CDN にアップロードしてください。

Q: 編集した HTML を DOCX ファイルに戻すことはできますか?
A: もちろん可能です。変更後に EditableDocument.saveAsDocx("path/to/output.docx") を使用してください。

結論

これで、GroupDocs.Editor for Java を使用して Word から画像を抽出Word コンテンツを編集Word を HTML に変換、そして 編集可能なドキュメントを生成するための完全なエンドツーエンドの手順が把握できました。これらの手法により、強力なドキュメント中心のアプリケーションを構築し、レポート生成の自動化 を自信を持って実現できます。

次のステップ

  • 動的プレースホルダー(例: {{CustomerName}})を含むテンプレートの編集を試してみてください。
  • DOCX への再保存用 API(EditableDocument.saveAsDocx())を調査してください。
  • このワークフローを Spring Boot サービスに統合し、オンデマンドでドキュメントを生成できるようにします。

最終更新日: 2026-02-21
テスト環境: GroupDocs.Editor 25.3 for Java
作者: GroupDocs