:** GroupDocs
Translate labels:
Last Updated: -> “Poslední aktualizace:”
Tested With: -> “Testováno s:”
Author: -> “Autor:”
But keep dates unchanged.
Now ensure we preserve all markdown formatting, code block placeholders, links, tables.
Also note there is a table with markdown syntax; we need to keep pipe separators.
Now produce final output.# Jak extrahovat zdroje z dokumentů Word pomocí GroupDocs.Editor pro Java
Pokud hledáte jak extrahovat zdroje z Word souborů programově, jste na správném místě. V tomto průvodci vás provedeme načtením dokumentu Word v Javě, jeho úpravou a získáním obrázků, fontů a CSS — přesně kroky, které potřebujete k automatizaci pipeline pro zpracování dokumentů.
Co se naučíte:
- Jak načíst Word dokument v Javě pomocí GroupDocs.Editor
- Jak extrahovat obrázky v Javě a další vložené prostředky
- Jak extrahovat CSS v Javě pro opětovné použití stylování
- Nejlepší postupy pro uložení těchto zdrojů na disk
- Reálné scénáře, kde extrakce zdrojů šetří čas a úsilí
Připravení zefektivnit svůj workflow s dokumenty? Pojďme na to!
Rychlé odpovědi
- Co znamená “jak extrahovat zdroje”? Jedná se o programové získání obrázků, fontů, CSS atd. z Word souboru.
- Která knihovna to v Javě řeší? GroupDocs.Editor pro Java.
- Potřebuji licenci? Bezplatná zkušební verze funguje pro testování; pro produkci je vyžadována plná licence.
- Mohu zpracovávat soubory DOCX i DOC? Ano — obě jsou podporovány.
- Je to bezpečné pro velké dokumenty? Ano, ale zvažte dávkové zpracování a správné uvolňování paměti.
Co je extrakce zdrojů v dokumentech Word?
Extrakce zdrojů je proces získávání vložených položek — jako jsou obrázky, vlastní fonty a stylové listy — z Word souboru, aby mohly být znovu použity, archivovány nebo transformovány pro jiné aplikace.
Proč použít GroupDocs.Editor pro Java?
GroupDocs.Editor poskytuje vysoceúrovňové API, které abstrahuje složitosti formátu Office Open XML. Umožňuje vám soustředit se na jak extrahovat zdroje bez nutnosti pracovat s nízkoúrovňovým ZIP zpracováním nebo XML parsováním.
Předpoklady
- Maven (nebo přímé stažení JAR) pro správu závislostí.
- JDK 8+ nainstalovaný na vašem vývojovém počítači.
- IDE jako IntelliJ IDEA nebo Eclipse pro úpravu a spouštění Java kódu.
Nastavení GroupDocs.Editor pro Java
Přidejte repozitář a závislost do vašeho pom.xml:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/editor/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-editor</artifactId>
<version>25.3</version>
</dependency>
</dependencies>
Nejnovější JAR můžete také stáhnout z GroupDocs.Editor for Java releases.
Získání licence
- Bezplatná zkušební verze: Ideální pro prozkoumání API.
- Dočasná licence: Získejte ji na GroupDocs Temporary License Page.
- Plná licence: Zakupte pro neomezené používání v produkci.
Základní inicializace
Vytvořte instanci Editor, která ukazuje na váš Word soubor:
String inputFilePath = "YOUR_DOCUMENT_DIRECTORY";
Editor editor = new Editor(inputFilePath, new WordProcessingLoadOptions());
Jak extrahovat zdroje z dokumentu Word
Níže rozdělíme implementaci do tří logických kroků: načtení/úprava, extrakce a uložení.
Krok 1: Načtení a příprava dokumentu pro úpravy
// Initialize editor and edit options
String inputFilePath = "YOUR_DOCUMENT_DIRECTORY";
Editor editor = new Editor(inputFilePath, new WordProcessingLoadOptions());
WordProcessingEditOptions editOptions = new WordProcessingEditOptions();
editOptions.setFontExtraction(FontExtractionOptions.ExtractAll);
EditableDocument beforeEdit = editor.edit(editOptions);
Příznak FontExtractionOptions.ExtractAll zaručuje, že každý vložený font je k dispozici pro extrakci.
Krok 2: Extrahovat obrázky, fonty a stylové listy
List<IImageResource> images = beforeEdit.getImages();
List<FontResourceBase> fonts = beforeEdit.getFonts();
List<CssText> stylesheets = beforeEdit.getCss();
Tyto tři volání vám poskytují kolekce každého typu zdroje, připravené k dalšímu zpracování.
Krok 3: Uložit extrahované zdroje na disk
String outputFolderPath = "YOUR_OUTPUT_DIRECTORY";
for (int i = 0; i < images.size(); i++) {
IImageResource oneImage = images.get(i);
File outputFile = new File(outputFolderPath + oneImage.getFilenameWithExtension());
oneImage.save(outputFile.getAbsolutePath());
}
for (int i = 0; i < fonts.size(); i++) {
FontResourceBase oneFont = fonts.get(i);
File outputFile = new File(outputFolderPath + oneFont.getFilenameWithExtension());
oneFont.save(outputFile.getAbsolutePath());
}
for (int i = 0; i < stylesheets.size(); i++) {
CssText oneStylesheet = stylesheets.get(i);
File outputFile = new File(outputFolderPath + oneStylesheet.getFilenameWithExtension());
oneStylesheet.save(outputFile.getAbsolutePath());
}
Každá smyčka zapisuje odpovídající zdroj do outputFolderPath, zachovávajíc původní názvy souborů.
Krok 4: Získat obsah zdroje přímo (volitelné)
Pokud potřebujete surová bajty nebo řetězec Base64 — například pro vložení obrázku do HTML e‑mailu — použijte:
InputStream ms = images.get(0).getByteContent(); // raw bytes
String base64EncodedResource = images.get(0).getTextContent(); // Base64 string
Časté problémy a řešení
| Issue | Why it Happens | Fix |
|---|---|---|
| OutOfMemoryError u velkých souborů | Zdroje jsou načítány do paměti najednou. | Zpracovávejte dokumenty v menších dávkách a po každém souboru zavolejte editor.dispose(). |
| Chybějící fonty po extrakci | Extrakce fontů byla v možnostech vypnuta. | Ujistěte se, že je nastaveno editOptions.setFontExtraction(FontExtractionOptions.ExtractAll). |
| Obrázky uloženy se špatnou příponou | Některé obrázky postrádají správnou detekci MIME typu. | Ověřte oneImage.getFilenameWithExtension() před uložením; v případě potřeby přejmenujte. |
Často kladené otázky
Q: Je GroupDocs.Editor kompatibilní se všemi formáty souborů Word?
A: Ano, podporuje DOCX, DOC a další formáty Microsoft Word.
Q: Mohu extrahovat zdroje z dokumentů chráněných heslem?
A: Rozhodně. Heslo poskytněte pomocí WordProcessingLoadOptions při vytváření Editor.
Q: Jak si API vede s velmi velkými dokumenty?
A: Je optimalizováno pro rychlost, ale u obrovských souborů doporučujeme dokument rozdělit nebo zpracovávat sekce postupně.
Q: Můžu to integrovat se Spring Boot nebo jinými Java frameworky?
A: Ano. API je nezávislé na frameworku; stačí zahrnout závislost a injektovat Editor tam, kde je potřeba.
Q: Co když potřebuji extrahovat jen obrázky a ne fonty ani CSS?
A: Zavolejte jen beforeEdit.getImages() a vynechejte kroky extrakce fontů/CSS.
Závěr
Nyní máte kompletní, připravený průvodce jak extrahovat zdroje z dokumentů Word pomocí GroupDocs.Editor pro Java. Načtením dokumentu, nastavením možností úprav a iterací přes vrácené kolekce zdrojů můžete snadno automatizovat archivaci, tvorbu šablon a generování dynamického obsahu.
Další kroky:
- Experimentujte s různými
WordProcessingEditOptionspro jemné doladění extrakce. - Kombinujte tento workflow s cloudovým SDK úložiště pro přímé nahrávání zdrojů do S3 nebo Azure Blob.
- Prozkoumejte konverzní API GroupDocs pro převod extrahovaných aktiv do jiných formátů.
Poslední aktualizace: 2026-02-16
Testováno s: GroupDocs.Editor 25.3 for Java
Autor: GroupDocs