從 Word 中提取圖片並使用 GroupDocs.Editor Java 建立可編輯文件

在當今快速變化的企業環境中,能以程式方式 extract images from Word 檔案是一個顛覆性的功能。無論您需要 convert Word to HTMLgenerate HTML from Word,或以 edit Word document Java‑style 方式編輯 Word 文件,GroupDocs.Editor for Java 都提供可靠且高效的自動化解決方案。本指南將一步步說明從環境設定到進階編輯的全部內容,讓您能在數分鐘內建立能 automate report generationbatch process Word docs 的解決方案。

快速解答

  • 載入 Word 檔案的主要類別是什麼? Editor
  • 哪個方法會回傳用於編輯的 HTML 標記? edit() returns an EditableDocument
  • 如何從 Word 文件中提取圖片? Use getAllResources() on the EditableDocument
  • 我可以將編輯後的內容儲存回磁碟嗎? Yes, call save() on the EditableDocument
  • 開發時需要授權嗎? A free trial or temporary license works for testing; a full license is required for production

「extract images from word」是什麼?

從 Word 中提取圖片是指載入 .docx 檔案,將其轉換為可編輯的 HTML 表示,然後抽取所有嵌入的圖片、字型或樣式表。這讓您能完全掌控每個資源,進而將它們分別儲存、重新放置於 CDN,或嵌入其他文件中。

為何使用 GroupDocs.Editor for Java?

  • Full‑featured Word support – 無需 Microsoft Office 即可編輯、抽取與轉換。
  • Seamless HTML conversion – 非常適合基於網頁的編輯器或 CMS 整合。
  • Robust resource handling – 一次呼叫即可取得圖片、字型與 CSS。
  • Scalable performance – 適用於批次處理與大規模報告產生。
  • Convenient Java API – 可自然搭配 Java 8+ 及常見 IDE 使用。

前置條件

  • Java Development Kit (JDK) 8 或更新版本。
  • 如 IntelliJ IDEA 或 Eclipse 等 IDE。
  • 基本的 Java 知識與 Maven 使用經驗。

必要函式庫

在專案中加入 GroupDocs.Editor 函式庫。使用 Maven 將其作為相依性加入:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/editor/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-editor</artifactId>
      <version>25.3</version>
   </dependency>
</dependencies>

或者,直接從 GroupDocs.Editor for Java releases 下載最新版本。

取得授權

使用 GroupDocs.Editor 時,您可以先使用免費試用、申請臨時授權,或購買正式授權。此函式庫可即時用於評估,切換至正式授權只需更新授權檔案即可。

如何使用 GroupDocs.Editor Java 建立可編輯文件

安裝

  1. Add Dependency – 確認 pom.xml 包含上述的 Maven 片段。
  2. Download JAR – 若您偏好手動設定,請從官方 GroupDocs site 下載最新的 JAR。
  3. Configure License – 將您的 GroupDocs.Editor.lic 檔案放置於 resources 資料夾,或以程式方式設定。

基本初始化

環境就緒後,您即可使用 Word 檔案路徑實例化 Editor 類別:

import com.groupdocs.editor.Editor;

// Initialize Editor with a sample Word document
Editor editor = new Editor("YOUR_DOCUMENT_DIRECTORY/sample.docx");

這行簡單的程式碼即提供完整功能的編輯器,能載入、編輯與儲存文件。

步驟說明

步驟 1:將文件載入為 EditableDocument

將文件載入為 EditableDocument 是進行任何修改的第一步。

import com.groupdocs.editor.Editor;
import com.groupdocs.editor.EditableDocument;

// Load the document into an EditableDocument
Editor editor = new Editor("YOUR_DOCUMENT_DIRECTORY/sample.docx");
EditableDocument beforeEdit = editor.edit();
  • Editor – 處理檔案 I/O 與格式偵測。
  • EditableDocument – 以可編輯的 HTML 形式表示文件。

步驟 2:編輯 Word 內容(how to edit word)

現在您可以操作 HTML 字串、替換佔位符或更新樣式。變更完成後,呼叫 save() 以永久保存。

步驟 3:提取圖片與其他資源

GroupDocs.Editor 可輕鬆抽取所有嵌入的資源,這正是 extract images from Word 的方式。

import com.groupdocs.editor.htmlcss.resources.IHtmlResource;
import java.util.List;

// Extract embedded HTML, images, fonts, and CSS
String allAsHtmlInsideOneString = beforeEdit.getEmbeddedHtml();
List<IHtmlResource> allResources = beforeEdit.getAllResources();

// Accessing specific resources
List<String> stylesheets = beforeEdit.getCssContent();
  • getEmbeddedHtml() – 回傳完整的 HTML 標記。
  • getAllResources() – 提供原始 Word 檔案中所有嵌入的圖片、字型或樣式表的清單。
  • **extract images from word** – 只需遍歷 allResources,篩選出 ImageResource` 類型的物件。

步驟 4:調整 HTML 標記中的外部連結

如果文件中包含需指向自訂處理程式(例如 CDN)的連結,您可以即時重新寫入。

String customImagesRequesthandlerUri = "http://example.com/ImagesHandler/id=";
String htmlMarkup = beforeEdit.getContentString(customImagesRequesthandlerUri);
  • getContentString() – 為所有圖片參考注入提供的 URI 前綴,讓您能控制圖片的提供來源。

步驟 5:將編輯後的文件儲存至磁碟

完成所有編輯與資源調整後,將結果寫回 HTML 檔案(或稍後再轉回 DOCX)。

// Save the edited document as an HTML file
beforeEdit.save("YOUR_OUTPUT_DIRECTORY/output.html");
  • save() – 將編輯後的 HTML 及任何相關資源保存至指定資料夾。

步驟 6:檢查釋放狀態

適當的資源管理至關重要,尤其在 batch process word docs 時。

String res = !beforeEdit.isDisposed() ? "not" : "already";
  • isDisposed() – 若文件的原生資源已釋放則回傳 true。完成後務必釋放大型文件。

步驟 7:從 HTML 建立 EditableDocument

您也可以從現有的 HTML 檔案或原始標記開始,這在 convert word to html 情境中相當便利。

import com.groupdocs.editor.EditableDocument;

// Create EditableDocument from file and markup
EditableDocument afterEditFromFile = EditableDocument.fromFile("YOUR_OUTPUT_DIRECTORY/output.html");
EditableDocument afterEditFromMarkup = EditableDocument.fromMarkup(htmlMarkup, allResources);
  • fromFile() – 載入先前由 save() 儲存的 HTML 檔案。
  • fromMarkup() – 直接從字串與其資源清單建立 EditableDocument

如何使用 GroupDocs.Editor 將 Word 轉換為 HTML

edit() 方法會自動將載入的 .docx 轉換為 HTML 表示。之後您可使用 getEmbeddedHtml()getContentString() 取得 generate html from word 的輸出,該輸出可嵌入網頁、電子郵件,或儲存以供日後使用。

使用 GroupDocs.Editor 批次處理 Word 文件

當需要處理數十或數百個範本時,請將上述步驟包在迴圈或 CompletableFuture 流程中。記得在每個文件處理完畢後呼叫 dispose()(或讓 GC 處理),以降低記憶體使用量。

常見問題與解決方案

  • Large documents cause OutOfMemoryError – 請以串流方式處理資源,而非一次載入全部至記憶體;完成後立即釋放每個 EditableDocument
  • Images not appearing after conversion – 請確認將正確的 URI 前綴傳遞給 getContentString(),或將抽取的資源複製至目標資料夾。
  • License not recognized – 請確認 GroupDocs.Editor.lic 檔案位於 classpath,或在建立 Editor 前以程式方式設定授權。

常見問答

Q: 可以使用 GroupDocs.Editor Java 編輯 PDF 嗎?
A: 可以,GroupDocs.Editor 支援包括 PDF 在內的多種格式。請參閱 API reference 以取得具體方法。

Q: 如何有效處理大型文件?
A: 可使用資源管理技巧,例如及時釋放 EditableDocument 實例,並利用 Java 的 CompletableFuture 並行處理檔案。

Q: GroupDocs.Editor 與所有 Java IDE 相容嗎?
A: 是的,與常見的 IDE 如 IntelliJ IDEA 與 Eclipse 均相容。

Q: 在處理大量檔案時,extract images from word 的最佳方法是什麼?
A: 迭代 EditableDocument.getAllResources(),篩選出 ImageResource 物件;將其存放於專屬資料夾或即時上傳至 CDN。

Q: 能將編輯後的 HTML 轉回 DOCX 檔案嗎?
A: 當然可以。變更完成後,使用 EditableDocument.saveAsDocx("path/to/output.docx") 即可。

結論

您現在已掌握完整的端對端操作說明,了解如何 extract images from Wordedit Word 內容、convert Word to HTML,以及使用 GroupDocs.Editor for Java generate editable documents。這些技巧讓您能自信地打造強大的文件導向應用程式,並 automate report generation

後續步驟

  • 嘗試編輯含有動態佔位符的範本(例如 {{CustomerName}})。
  • 探索 API 以儲存回 DOCX(EditableDocument.saveAsDocx())。
  • 將工作流程整合至 Spring Boot 服務,以實現即時文件產生。

最後更新: 2026-02-21
測試環境: GroupDocs.Editor 25.3 for Java
作者: GroupDocs