從 Word 中提取圖片並使用 GroupDocs.Editor Java 建立可編輯文件
在當今快速變化的企業環境中,能以程式方式 extract images from Word 檔案是一個顛覆性的功能。無論您需要 convert Word to HTML、generate HTML from Word,或以 edit Word document Java‑style 方式編輯 Word 文件,GroupDocs.Editor for Java 都提供可靠且高效的自動化解決方案。本指南將一步步說明從環境設定到進階編輯的全部內容,讓您能在數分鐘內建立能 automate report generation 與 batch process Word docs 的解決方案。
快速解答
- 載入 Word 檔案的主要類別是什麼?
Editor - 哪個方法會回傳用於編輯的 HTML 標記?
edit()returns anEditableDocument - 如何從 Word 文件中提取圖片? Use
getAllResources()on theEditableDocument - 我可以將編輯後的內容儲存回磁碟嗎? Yes, call
save()on theEditableDocument - 開發時需要授權嗎? A free trial or temporary license works for testing; a full license is required for production
「extract images from word」是什麼?
從 Word 中提取圖片是指載入 .docx 檔案,將其轉換為可編輯的 HTML 表示,然後抽取所有嵌入的圖片、字型或樣式表。這讓您能完全掌控每個資源,進而將它們分別儲存、重新放置於 CDN,或嵌入其他文件中。
為何使用 GroupDocs.Editor for Java?
- Full‑featured Word support – 無需 Microsoft Office 即可編輯、抽取與轉換。
- Seamless HTML conversion – 非常適合基於網頁的編輯器或 CMS 整合。
- Robust resource handling – 一次呼叫即可取得圖片、字型與 CSS。
- Scalable performance – 適用於批次處理與大規模報告產生。
- Convenient Java API – 可自然搭配 Java 8+ 及常見 IDE 使用。
前置條件
- Java Development Kit (JDK) 8 或更新版本。
- 如 IntelliJ IDEA 或 Eclipse 等 IDE。
- 基本的 Java 知識與 Maven 使用經驗。
必要函式庫
在專案中加入 GroupDocs.Editor 函式庫。使用 Maven 將其作為相依性加入:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/editor/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-editor</artifactId>
<version>25.3</version>
</dependency>
</dependencies>
或者,直接從 GroupDocs.Editor for Java releases 下載最新版本。
取得授權
使用 GroupDocs.Editor 時,您可以先使用免費試用、申請臨時授權,或購買正式授權。此函式庫可即時用於評估,切換至正式授權只需更新授權檔案即可。
如何使用 GroupDocs.Editor Java 建立可編輯文件
安裝
- Add Dependency – 確認
pom.xml包含上述的 Maven 片段。 - Download JAR – 若您偏好手動設定,請從官方 GroupDocs site 下載最新的 JAR。
- Configure License – 將您的
GroupDocs.Editor.lic檔案放置於 resources 資料夾,或以程式方式設定。
基本初始化
環境就緒後,您即可使用 Word 檔案路徑實例化 Editor 類別:
import com.groupdocs.editor.Editor;
// Initialize Editor with a sample Word document
Editor editor = new Editor("YOUR_DOCUMENT_DIRECTORY/sample.docx");
這行簡單的程式碼即提供完整功能的編輯器,能載入、編輯與儲存文件。
步驟說明
步驟 1:將文件載入為 EditableDocument
將文件載入為 EditableDocument 是進行任何修改的第一步。
import com.groupdocs.editor.Editor;
import com.groupdocs.editor.EditableDocument;
// Load the document into an EditableDocument
Editor editor = new Editor("YOUR_DOCUMENT_DIRECTORY/sample.docx");
EditableDocument beforeEdit = editor.edit();
Editor– 處理檔案 I/O 與格式偵測。EditableDocument– 以可編輯的 HTML 形式表示文件。
步驟 2:編輯 Word 內容(how to edit word)
現在您可以操作 HTML 字串、替換佔位符或更新樣式。變更完成後,呼叫 save() 以永久保存。
步驟 3:提取圖片與其他資源
GroupDocs.Editor 可輕鬆抽取所有嵌入的資源,這正是 extract images from Word 的方式。
import com.groupdocs.editor.htmlcss.resources.IHtmlResource;
import java.util.List;
// Extract embedded HTML, images, fonts, and CSS
String allAsHtmlInsideOneString = beforeEdit.getEmbeddedHtml();
List<IHtmlResource> allResources = beforeEdit.getAllResources();
// Accessing specific resources
List<String> stylesheets = beforeEdit.getCssContent();
getEmbeddedHtml()– 回傳完整的 HTML 標記。getAllResources()– 提供原始 Word 檔案中所有嵌入的圖片、字型或樣式表的清單。- **
extract images from word** – 只需遍歷allResources,篩選出ImageResource` 類型的物件。
步驟 4:調整 HTML 標記中的外部連結
如果文件中包含需指向自訂處理程式(例如 CDN)的連結,您可以即時重新寫入。
String customImagesRequesthandlerUri = "http://example.com/ImagesHandler/id=";
String htmlMarkup = beforeEdit.getContentString(customImagesRequesthandlerUri);
getContentString()– 為所有圖片參考注入提供的 URI 前綴,讓您能控制圖片的提供來源。
步驟 5:將編輯後的文件儲存至磁碟
完成所有編輯與資源調整後,將結果寫回 HTML 檔案(或稍後再轉回 DOCX)。
// Save the edited document as an HTML file
beforeEdit.save("YOUR_OUTPUT_DIRECTORY/output.html");
save()– 將編輯後的 HTML 及任何相關資源保存至指定資料夾。
步驟 6:檢查釋放狀態
適當的資源管理至關重要,尤其在 batch process word docs 時。
String res = !beforeEdit.isDisposed() ? "not" : "already";
isDisposed()– 若文件的原生資源已釋放則回傳true。完成後務必釋放大型文件。
步驟 7:從 HTML 建立 EditableDocument
您也可以從現有的 HTML 檔案或原始標記開始,這在 convert word to html 情境中相當便利。
import com.groupdocs.editor.EditableDocument;
// Create EditableDocument from file and markup
EditableDocument afterEditFromFile = EditableDocument.fromFile("YOUR_OUTPUT_DIRECTORY/output.html");
EditableDocument afterEditFromMarkup = EditableDocument.fromMarkup(htmlMarkup, allResources);
fromFile()– 載入先前由save()儲存的 HTML 檔案。fromMarkup()– 直接從字串與其資源清單建立EditableDocument。
如何使用 GroupDocs.Editor 將 Word 轉換為 HTML
edit() 方法會自動將載入的 .docx 轉換為 HTML 表示。之後您可使用 getEmbeddedHtml() 或 getContentString() 取得 generate html from word 的輸出,該輸出可嵌入網頁、電子郵件,或儲存以供日後使用。
使用 GroupDocs.Editor 批次處理 Word 文件
當需要處理數十或數百個範本時,請將上述步驟包在迴圈或 CompletableFuture 流程中。記得在每個文件處理完畢後呼叫 dispose()(或讓 GC 處理),以降低記憶體使用量。
常見問題與解決方案
- Large documents cause OutOfMemoryError – 請以串流方式處理資源,而非一次載入全部至記憶體;完成後立即釋放每個
EditableDocument。 - Images not appearing after conversion – 請確認將正確的 URI 前綴傳遞給
getContentString(),或將抽取的資源複製至目標資料夾。 - License not recognized – 請確認
GroupDocs.Editor.lic檔案位於 classpath,或在建立Editor前以程式方式設定授權。
常見問答
Q: 可以使用 GroupDocs.Editor Java 編輯 PDF 嗎?
A: 可以,GroupDocs.Editor 支援包括 PDF 在內的多種格式。請參閱 API reference 以取得具體方法。
Q: 如何有效處理大型文件?
A: 可使用資源管理技巧,例如及時釋放 EditableDocument 實例,並利用 Java 的 CompletableFuture 並行處理檔案。
Q: GroupDocs.Editor 與所有 Java IDE 相容嗎?
A: 是的,與常見的 IDE 如 IntelliJ IDEA 與 Eclipse 均相容。
Q: 在處理大量檔案時,extract images from word 的最佳方法是什麼?
A: 迭代 EditableDocument.getAllResources(),篩選出 ImageResource 物件;將其存放於專屬資料夾或即時上傳至 CDN。
Q: 能將編輯後的 HTML 轉回 DOCX 檔案嗎?
A: 當然可以。變更完成後,使用 EditableDocument.saveAsDocx("path/to/output.docx") 即可。
結論
您現在已掌握完整的端對端操作說明,了解如何 extract images from Word、edit Word 內容、convert Word to HTML,以及使用 GroupDocs.Editor for Java generate editable documents。這些技巧讓您能自信地打造強大的文件導向應用程式,並 automate report generation。
後續步驟
- 嘗試編輯含有動態佔位符的範本(例如
{{CustomerName}})。 - 探索 API 以儲存回 DOCX(
EditableDocument.saveAsDocx())。 - 將工作流程整合至 Spring Boot 服務,以實現即時文件產生。
最後更新: 2026-02-21
測試環境: GroupDocs.Editor 25.3 for Java
作者: GroupDocs