Képek kinyerése dokumentumokból és erőforrások szűrése a GroupDocs.Parser Java-val
A képek kinyerése dokumentumokból gyakori követelmény dokumentumfeldolgozó csővezetékek építésekor. Ebben az útmutatóban megtudja, hogyan kell képeket kinyerni dokumentumokból a GroupDocs.Parser for Java használatával, és hogyan lehet szűrni az erőforrásokat, hogy csak a szükséges fájlok legyenek betöltve. Lépésről lépésre bemutatjuk a könyvtár beállítását, egy egyedi ExternalResourceHandler létrehozását, és a szűrési logika alkalmazását, hogy alkalmazása gyors és biztonságos legyen.
Gyors válaszok
- Mi a GroupDocs.Parser feladata? Dokumentumformátumok széles skáláját elemzi, és hozzáférést biztosít a szöveghez, képekhez és egyéb beágyazott erőforrásokhoz.
- Kihagyhatom a nem kívánt képeket? Igen – egy egyedi
ExternalResourceHandlermegvalósításával eldöntheti, mely erőforrásokat tölti be. - Mely Maven verzió szükséges? Használja a GroupDocs.Parser Java 25.5 vagy újabb verziót.
- Szükségem van licencre? Egy ingyenes próba a kiértékeléshez elegendő; a termeléshez állandó licenc szükséges.
- Ez a megközelítés szálbiztos? Az elemző objektumok nincsenek megosztva szálak között; minden szálnak hozzon létre egy új
Parserpéldányt.
Mi az a „képek kinyerése dokumentumokból”?
Amikor egy dokumentum beágyazott képeket, diagramokat vagy egyéb médiát tartalmaz, a „képek kinyerése dokumentumokból” azt jelenti, hogy programozottan lekéri ezeket a bináris fájlokat, hogy tárolja, megjelenítse vagy tovább feldolgozza őket az eredeti fájlon kívül.
Miért szűrje az erőforrásokat képek kinyerése közben?
Az erőforrások szűrése segít:
- Csökkenteni a memóriahasználatot nagy vagy irreleváns fájlok figyelmen kívül hagyásával.
- A biztonság javítása azzal, hogy megakadályozza a potenciálisan veszélyes tartalom betöltését.
- Felgyorsítani a feldolgozást, különösen nagy dokumentumok esetén, amelyek sok beágyazott objektumot tartalmaznak.
Előfeltételek
- Java Development Kit (JDK) – 8 vagy újabb verzió.
- Maven – a függőségek kezeléséhez.
- Alapvető ismeretek a Java I/O-val és a kivételkezeléssel.
A GroupDocs.Parser beállítása Java-hoz
Adja hozzá a GroupDocs tárolót és a parser függőséget a pom.xml fájlhoz:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/parser/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>25.5</version>
</dependency>
</dependencies>
Alternatívaként töltse le a legújabb verziót a GroupDocs.Parser for Java releases oldalról.
Licenc beszerzése
- Ingyenes próba – a fő funkciók költség nélkül való felfedezése.
- Ideiglenes licenc – a teljes funkcionalitás feloldása kiértékelés közben.
- Megvásárolt licenc – kereskedelmi bevetéshez szükséges.
Hogyan szűrje az erőforrásokat képek kinyerése közben
1. lépés: Egyedi kezelő létrehozása
Definiáljon egy osztályt, amely kiterjeszti az ExternalResourceHandler-t. Az onLoading metódusban dönthet arról, mely erőforrásokat tartja meg.
import com.groupdocs.parser.options.ExternalResourceHandler;
import com.groupdocs.parser.data.ExternalResourceLoadingArgs;
class Handler extends ExternalResourceHandler {
@Override
public void onLoading(ExternalResourceLoadingArgs args) {
if (!args.getUri().endsWith("installation.png")) {
args.setSkipped(true);
}
super.onLoading(args);
}
}
2. lépés: ParserSettings konfigurálása a kezelővel
Adja át a Handler példányát a ParserSettings-nek, és használja a dokumentum megnyitásakor.
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
import com.groupdocs.parser.exceptions.IOException;
import com.groupdocs.parser.options.ParserSettings;
public class LoadExternalResources {
public static void run() throws IOException {
ParserSettings settings = new ParserSettings(new Handler());
try (Parser parser = new Parser("YOUR_DOCUMENT_DIRECTORY", settings)) {
Iterable<PageImageArea> images = parser.getImages();
for (PageImageArea image : images) {
System.out.println(image.getFileType());
}
}
}
}
3. lépés: A szűrési logika finomhangolása
Ha összetettebb szabályokra van szüksége – például képméret, formátum vagy URI-minta alapján történő szűrésre – bővítse az onLoading metódust ennek megfelelően:
@Override
public void onLoading(ExternalResourceLoadingArgs args) {
if (!args.getUri().endsWith("installation.png")) {
args.setSkipped(true);
}
}
Gyakorlati alkalmazások
- Dokumentumkezelő rendszerek – csak a szükséges képeket húzza ki a beolvasott szerződésekből, hogy bélyegképeket generáljon.
- Adatkinyerő szolgáltatások – hagyja ki a díszítő grafikákat, és a hasznos adatokat tartalmazó diagramokra koncentráljon.
- Webkaparó eszközök – szűrje ki a nyomkövető pixeleket, miközben értelmes médiát szerez be HTML‑alapú dokumentumokból.
Teljesítményfontosságú szempontok
- Korai szűrés: Alkalmazza az egyedi kezelőt az erőforrások iterálása előtt, hogy elkerülje a nem kívánt adatok memóriába töltését.
- Gyors felszabadítás: Használjon try‑with‑resources (
try (Parser parser = …)) szintaxist a natív erőforrások felszabadításához. - Aszinkron feldolgozás: Nagy kötegek esetén dolgozza fel a dokumentumokat párhuzamos streamekben, miközben minden
Parserpéldányt egyetlen szálra korlátozza.
Gyakori problémák és megoldások
| Issue | Why it Happens | Fix |
|---|---|---|
| Nincsenek visszaadott képek | A kezelő véletlenül minden erőforrást kihagy | Ellenőrizze az if feltételt, és győződjön meg róla, hogy a args.setSkipped(true) csak a nem kívánt URI-k esetén kerül meghívásra. |
IOException nagy fájlok esetén | Nem elegendő heap memória | Növelje a JVM heap méretét (-Xmx2g), vagy dolgozza fel az oldalakat kisebb darabokban. |
| A licenc nem ismerhető fel | Próba DLL használata termelési kóddal | Adja meg a helyes licencfájl útvonalát a License.setLicense("path/to/license") hívással. |
Gyakran ismételt kérdések
Q: Mi a fő célja egy egyedi ExternalResourceHandler használatának?
A: Lehetővé teszi, hogy szabályozza, mely külső erőforrások kerülnek betöltésre, ezáltal növelve a biztonságot és a teljesítményt a felesleges fájlok szűrésével.
Q: Használhatom a GroupDocs.Parser for Java-t licenc nélkül?
A: Igen, elérhető egy ingyenes próba, de egyes fejlett funkciók korlátozottak lehetnek, amíg nem szerez ideiglenes vagy megvásárolt licencet.
Q: Hogyan kezeljem a kivételeket a GroupDocs.Parser használata közben?
A: A parsing hívásokat try‑catch blokkokba kell helyezni IOException és egyéb specifikus kivételek esetén, hogy hibákat elegánsan kezeljen.
Q: Mik a gyakori buktatók az erőforrások szűrésekor?
A: Hibás URI-ellenőrzések elhagyhatják a szükséges fájlokat; használjon naplózást vagy breakpoint-okat a feltételek ellenőrzéséhez.
Q: Lehet nem‑HTML dokumentumokat is feldolgozni a GroupDocs.Parser for Java-val?
A: Természetesen – a GroupDocs.Parser támogatja a PDF-eket, Word, Excel, PowerPoint és számos más formátumot.
Következő lépések
Mélyedjen el a könyvtárban a API Reference felfedezésével, vagy kísérletezzen további beállításokkal, például a ParserSettings.setDetectTables(true)-val a táblázatok kinyeréséhez.
Last Updated: 2025-12-29
Tested With: GroupDocs.Parser 25.5 for Java
Author: GroupDocs
Erőforrások
- Dokumentáció: GroupDocs.Parser Documentation
- API referencia: API Details
- Letöltések: Latest Versions