6-02-21
Tested With: GroupDocs.Editor 25.3 for Java
Author: GroupDocs
Translate labels but keep dates.
Last Updated: 2026-02-21 (keep) maybe keep English label? Should translate: “Cập nhật lần cuối:” but keep format? Probably translate.
Tested With: -> “Kiểm tra với:”.
Author: -> “Tác giả:”.
Now produce final markdown with all translations.
Make sure to keep code block placeholders unchanged.
Let’s craft final answer.# Trích xuất hình ảnh từ Word và tạo tài liệu có thể chỉnh sửa với GroupDocs.Editor Java
Trong môi trường doanh nghiệp hiện đại, khả năng trích xuất hình ảnh từ Word một cách lập trình là một yếu tố thay đổi cuộc chơi. Dù bạn cần chuyển đổi Word sang HTML, tạo HTML từ Word, hoặc chỉnh sửa tài liệu Word kiểu Java, GroupDocs.Editor cho Java cung cấp cho bạn một cách đáng tin cậy, hiệu suất cao để tự động hoá các tác vụ này. Trong hướng dẫn này, chúng tôi sẽ đi qua mọi thứ bạn cần—từ cài đặt môi trường đến chỉnh sửa nâng cao—để bạn có thể bắt đầu xây dựng các giải pháp tự động tạo báo cáo và xử lý hàng loạt tài liệu Word trong vài phút.
Quick Answers
- Lớp chính để tải tệp Word là gì?
Editor - Phương thức nào trả về markup HTML để chỉnh sửa?
edit()trả về mộtEditableDocument - Làm thế nào để trích xuất hình ảnh từ tài liệu Word? Sử dụng
getAllResources()trênEditableDocument - Tôi có thể lưu nội dung đã chỉnh sửa trở lại đĩa không? Có, gọi
save()trênEditableDocument - Tôi có cần giấy phép cho việc phát triển không? Bản dùng thử miễn phí hoặc giấy phép tạm thời hoạt động cho việc thử nghiệm; giấy phép đầy đủ cần thiết cho môi trường sản xuất
What is “extract images from word”?
Việc trích xuất hình ảnh từ Word có nghĩa là tải một tệp .docx, chuyển đổi nó thành một biểu diễn HTML có thể chỉnh sửa, và sau đó lấy ra mọi hình ảnh, phông chữ hoặc stylesheet được nhúng. Điều này cho bạn kiểm soát hoàn toàn từng tài nguyên để có thể lưu chúng riêng biệt, lưu trữ lại trên CDN, hoặc nhúng chúng vào tài liệu khác.
Why use GroupDocs.Editor for Java?
- Hỗ trợ Word đầy đủ tính năng – chỉnh sửa, trích xuất và chuyển đổi mà không cần Microsoft Office.
- Chuyển đổi HTML liền mạch – hoàn hảo cho các trình soạn thảo web hoặc tích hợp CMS.
- Xử lý tài nguyên mạnh mẽ – lấy hình ảnh, phông chữ và CSS trong một lần gọi.
- Hiệu năng mở rộng – lý tưởng cho xử lý hàng loạt và tạo báo cáo quy mô lớn.
- API Java tiện lợi – hoạt động tự nhiên với Java 8+ và các IDE phổ biến.
Prerequisites
- Java Development Kit (JDK) 8 hoặc mới hơn.
- Một IDE như IntelliJ IDEA hoặc Eclipse.
- Kiến thức cơ bản về Java và quen thuộc với Maven.
Required Libraries
Bao gồm thư viện GroupDocs.Editor vào dự án của bạn. Sử dụng Maven để thêm nó như một phụ thuộc:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/editor/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-editor</artifactId>
<version>25.3</version>
</dependency>
</dependencies>
Hoặc, tải phiên bản mới nhất trực tiếp từ GroupDocs.Editor for Java releases.
License Acquisition
Để sử dụng GroupDocs.Editor, bạn có thể bắt đầu với bản dùng thử miễn phí, yêu cầu giấy phép tạm thời, hoặc mua giấy phép đầy đủ. Thư viện hoạt động ngay sau khi cài đặt cho mục đích đánh giá, và việc chuyển sang giấy phép sản xuất chỉ cần cập nhật tệp giấy phép.
How to create an editable document using GroupDocs.Editor Java
Installation
- Thêm phụ thuộc – đảm bảo
pom.xmlchứa đoạn mã Maven ở trên. - Tải JAR – nếu bạn thích cài đặt thủ công, tải JAR mới nhất từ GroupDocs site.
- Cấu hình giấy phép – đặt tệp
GroupDocs.Editor.liccủa bạn vào thư mục resources hoặc thiết lập nó bằng mã.
Basic Initialization
Khi môi trường đã sẵn sàng, bạn có thể khởi tạo lớp Editor với đường dẫn tới tệp Word của mình:
import com.groupdocs.editor.Editor;
// Initialize Editor with a sample Word document
Editor editor = new Editor("YOUR_DOCUMENT_DIRECTORY/sample.docx");
Dòng đơn giản này cung cấp cho bạn một trình chỉnh sửa đầy đủ chức năng, có khả năng tải, chỉnh sửa và lưu tài liệu.
Step‑by‑Step Guide
Step 1: Load the document as an EditableDocument
Việc tải tài liệu dưới dạng EditableDocument là bước đầu tiên cho bất kỳ sửa đổi nào.
import com.groupdocs.editor.Editor;
import com.groupdocs.editor.EditableDocument;
// Load the document into an EditableDocument
Editor editor = new Editor("YOUR_DOCUMENT_DIRECTORY/sample.docx");
EditableDocument beforeEdit = editor.edit();
Editor– xử lý I/O tệp và phát hiện định dạng.EditableDocument– đại diện cho tài liệu dưới dạng HTML có thể chỉnh sửa.
Step 2: Edit Word content (how to edit word)
Bạn có thể thao tác chuỗi HTML, thay thế các placeholder, hoặc cập nhật style. Sau khi thay đổi, gọi save() để lưu lại.
Step 3: Extract images and other resources
GroupDocs.Editor làm cho việc lấy ra mọi tài nguyên nhúng trở nên dễ dàng, chính là cách bạn trích xuất hình ảnh từ Word.
import com.groupdocs.editor.htmlcss.resources.IHtmlResource;
import java.util.List;
// Extract embedded HTML, images, fonts, and CSS
String allAsHtmlInsideOneString = beforeEdit.getEmbeddedHtml();
List<IHtmlResource> allResources = beforeEdit.getAllResources();
// Accessing specific resources
List<String> stylesheets = beforeEdit.getCssContent();
getEmbeddedHtml()– trả về toàn bộ markup HTML.getAllResources()– cung cấp danh sách mọi hình ảnh, phông chữ hoặc stylesheet được nhúng trong tệp Word gốc.extract images from word– chỉ cần lặp quaallResourcesđể tìm các đối tượng loạiImageResource.
Step 4: Adjust external links in the HTML markup
Nếu tài liệu của bạn chứa các liên kết cần trỏ tới một trình xử lý tùy chỉnh (ví dụ, CDN), bạn có thể viết lại chúng ngay lập tức.
String customImagesRequesthandlerUri = "http://example.com/ImagesHandler/id=";
String htmlMarkup = beforeEdit.getContentString(customImagesRequesthandlerUri);
getContentString()– chèn tiền tố URI được cung cấp cho tất cả các tham chiếu hình ảnh, cho phép bạn kiểm soát nơi hình ảnh được phục vụ.
Step 5: Save the edited document to disk
Sau tất cả các chỉnh sửa và điều chỉnh tài nguyên, ghi kết quả trở lại tệp HTML (hoặc chuyển lại thành DOCX sau này).
// Save the edited document as an HTML file
beforeEdit.save("YOUR_OUTPUT_DIRECTORY/output.html");
save()– lưu HTML đã chỉnh sửa và bất kỳ tài nguyên liên kết nào vào thư mục chỉ định.
Step 6: Check the disposal state
Quản lý tài nguyên đúng cách là rất quan trọng, đặc biệt khi xử lý hàng loạt tài liệu Word.
String res = !beforeEdit.isDisposed() ? "not" : "already";
isDisposed()– trả vềtruenếu các tài nguyên gốc của tài liệu đã được giải phóng. Luôn giải phóng các tài liệu lớn khi bạn hoàn thành.
Step 7: Create an EditableDocument from HTML
Bạn cũng có thể bắt đầu từ một tệp HTML hiện có hoặc markup thô, rất tiện cho các trường hợp chuyển đổi Word sang HTML.
import com.groupdocs.editor.EditableDocument;
// Create EditableDocument from file and markup
EditableDocument afterEditFromFile = EditableDocument.fromFile("YOUR_OUTPUT_DIRECTORY/output.html");
EditableDocument afterEditFromMarkup = EditableDocument.fromMarkup(htmlMarkup, allResources);
fromFile()– tải tệp HTML đã được lưu trước đó bằngsave().fromMarkup()– tạo mộtEditableDocumenttrực tiếp từ một chuỗi và danh sách tài nguyên của nó.
How to Convert Word to HTML with GroupDocs.Editor
Phương thức edit() tự động chuyển đổi .docx đã tải thành một biểu diễn HTML. Bạn có thể sử dụng getEmbeddedHtml() hoặc getContentString() để lấy đầu ra generate html from word, có thể nhúng vào trang web, email, hoặc lưu trữ để sử dụng sau.
Batch Process Word Docs Using GroupDocs.Editor
Khi bạn cần xử lý hàng chục hoặc hàng trăm mẫu, hãy gói các bước trên trong một vòng lặp hoặc pipeline CompletableFuture. Nhớ gọi dispose() (hoặc để GC xử lý) sau mỗi tài liệu để giảm mức sử dụng bộ nhớ.
Common Issues and Solutions
- Tài liệu lớn gây OutOfMemoryError – truyền tài nguyên thay vì tải toàn bộ vào bộ nhớ; giải phóng mỗi
EditableDocumentngay khi bạn hoàn thành. - Hình ảnh không hiển thị sau khi chuyển đổi – đảm bảo bạn truyền đúng tiền tố URI vào
getContentString()hoặc sao chép các tài nguyên đã trích xuất vào thư mục đích. - Giấy phép không được công nhận – xác minh rằng tệp
GroupDocs.Editor.licnằm trên classpath hoặc thiết lập giấy phép bằng mã trước khi tạoEditor.
Frequently Asked Questions
Q: Tôi có thể chỉnh sửa PDF bằng GroupDocs.Editor Java không?
A: Có, GroupDocs.Editor hỗ trợ nhiều định dạng bao gồm PDF. Kiểm tra API reference để biết các phương thức cụ thể.
Q: Làm thế nào để xử lý tài liệu lớn một cách hiệu quả?
A: Sử dụng các kỹ thuật quản lý tài nguyên như giải phóng nhanh các instance của EditableDocument và xử lý tệp song song bằng CompletableFuture của Java.
Q: GroupDocs.Editor có tương thích với mọi IDE Java không?
A: Có, nó hoạt động với các IDE phổ biến như IntelliJ IDEA và Eclipse.
Q: Cách tốt nhất để trích xuất hình ảnh từ word khi xử lý nhiều tệp là gì?
A: Lặp qua EditableDocument.getAllResources() và lọc các đối tượng ImageResource; lưu chúng vào một thư mục riêng hoặc tải lên CDN khi tiến hành.
Q: Tôi có thể chuyển HTML đã chỉnh sửa lại thành tệp DOCX không?
A: Chắc chắn. Sử dụng EditableDocument.saveAsDocx("path/to/output.docx") sau khi thực hiện các thay đổi.
Conclusion
Bạn đã có một hướng dẫn toàn diện, từ đầu đến cuối về cách trích xuất hình ảnh từ Word, chỉnh sửa nội dung Word, chuyển đổi Word sang HTML, và tạo tài liệu có thể chỉnh sửa bằng GroupDocs.Editor cho Java. Những kỹ thuật này cho phép bạn xây dựng các ứng dụng tập trung vào tài liệu mạnh mẽ và tự động tạo báo cáo một cách tự tin.
Next Steps
- Thử chỉnh sửa một mẫu với các placeholder động (ví dụ,
{{CustomerName}}). - Khám phá API để lưu lại dưới dạng DOCX (
EditableDocument.saveAsDocx()). - Tích hợp quy trình vào dịch vụ Spring Boot để tạo tài liệu theo yêu cầu.
Cập nhật lần cuối: 2026-02-21
Kiểm tra với: GroupDocs.Editor 25.3 for Java
Tác giả: GroupDocs