Hogyan használjuk a GroupDocs-ot Java OCR indexeléshez az Aspose-szal
Ebben az útmutatóban felfedezheti, hogyan használja a GroupDocs-ot, hogy OCR‑alapú keresést adjon Java alkalmazásaihoz. A GroupDocs.Search és az Aspose.OCR kombinálásával a képalapú tartalmat kereshető szöveggé alakíthatja, így a dokumentumkezelő rendszerek sokkal hasznosabbá válnak. Lépésről‑lépésre bemutatjuk a beállítást, indexelést, keresést és az egyedi OCR integrációt, mind világos példákkal.
Gyors válaszok
- Melyik könyvtár biztosítja az OCR indexelést? GroupDocs.Search párosítva az Aspose.OCR-rel.
- Melyik Java verzió szükséges? JDK 8 vagy újabb.
- Szükségem van licencre? Elérhető egy ingyenes próba, a termeléshez fizetett licenc szükséges.
- Indexelhetek különálló és beágyazott képeket is? Igen, engedélyezze mindkét opciót az
IndexingOptions-ban. - Támogatott a több szálas feldolgozás? Igen, párhuzamosíthatja az indexelést nagy adathalmazok esetén.
Mi az OCR indexelés a GroupDocs-szal?
Az OCR indexelés a képekből (beleértve a beolvasott PDF-eket) szöveget nyer ki, és egy kereshető indexben tárolja. A GroupDocs.Search kezeli az indexelést és a lekérdezés végrehajtását, míg az Aspose.OCR végzi a tényleges karakterfelismerést.
Miért használjuk a GroupDocs-ot Java OCR indexeléshez?
- Magas pontosság az Aspose fejlett OCR motorjának köszönhetően.
- Zökkenőmentes Java integráció Maven vagy közvetlen JAR fájlok segítségével.
- Rugalmas konfiguráció különálló vagy beágyazott képekhez.
- Skálázható teljesítmény több szálas feldolgozással és memóriaoptimalizálással.
Előfeltételek
- GroupDocs.Search ≥ 25.4
- Aspose.OCR (legújabb verzió)
- JDK 8+ és egy IDE (IntelliJ, Eclipse, NetBeans)
- Alapvető Java ismeretek; a Maven hasznos, de nem kötelező
A GroupDocs.Search beállítása Java-hoz
Maven használata
Adja hozzá a tárolót és a függőséget a pom.xml-hez:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Közvetlen letöltés
Alternatívaként töltse le a GroupDocs.Search legújabb Java verzióját a GroupDocs releases oldalról.
Licenc beszerzése
- Ingyenes próba – minden funkció kipróbálása költség nélkül.
- Ideiglenes licenc – meghosszabbított tesztelési időszak.
- Vásárlás – szükséges a termelési környezethez.
Alapvető inicializálás és beállítás
Hozzon létre egy index mappát, és inicializálja az Index objektumot:
import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);
Hogyan használjuk a GroupDocs-ot OCR indexeléshez
Index létrehozása
Először állítsa be a mappát, amely az index fájlokat tárolja:
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);
OCR indexelési beállítások konfigurálása
Engedélyezze az OCR-t a különálló és beágyazott képekhez, és csatlakoztasson egy egyedi OCR csatlakozót:
import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());
Dokumentumok indexelése
Adja hozzá a forrásdokumentumokat (PDF-ek, Word fájlok, képek stb.) az indexhez:
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);
Keresés egy indexben
Futtasson keresési lekérdezést az indexelt tartalomra:
import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);
OCR csatlakozó megvalósítása
Használja az Aspose.OCR-t a képek szövegének felismeréséhez. Valósítsa meg a IOcrConnector interfészt a következő módon:
import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;
public class OcrConnector implements IOcrConnector {
@Override
public final String recognize(OcrContext context) {
if (null == context.getImageLocation()) {
throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
}
BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
AsposeOCR api = new AsposeOCR();
String text = api.RecognizePage(image);
return text;
}
}
Gyakorlati alkalmazások
- Dokumentumkezelő rendszerek – gyors visszakeresés a beolvasott képeket tartalmazó dokumentumok között.
- Archívum visszakeresés – történelmi feljegyzések megtalálása hatalmas archívumokban.
- Jogi dokumentumelemzés – szerződések és bizonyítékok keresése, amelyek beolvasott aláírásokat vagy diagramokat tartalmaznak.
- Orvosi feljegyzések keresése – beteg űrlapok, laboreredmények és röntgen annotációk indexelése.
Teljesítmény szempontok
- Index mérete – hagyja ki a felesleges metaadatokat, hogy az index karcsú maradjon.
- Több szálas feldolgozás – nagy kötegeket párhuzamosan dolgozzon fel az indexelés felgyorsításához.
- Memória kezelés – figyelje a JVM heapet nagy felbontású képek kezelésekor.
Gyakori problémák és megoldások
- Licenc hibák – győződjön meg arról, hogy a megfelelő licencfájl az alkalmazás munkakönyvtárában van.
- Hiányzó képek – ellenőrizze, hogy a kép útvonalak elérhetők és a támogatott formátumok (PNG, JPEG, BMP) használatban vannak.
- Memóriahiány – növelje a JVM heapet (
-Xmx) vagy dolgozzon kisebb kötegekkel.
Gyakran ismételt kérdések
Q: Hogyan oldjam meg a licencelési problémákat a GroupDocs.Search-nél?
A: Szerezzen be egy ideiglenes licencet a GroupDocs weboldaláról, hogy feloldja a teljes funkciókészletet.
Q: Mi a legjobb módja a nagy dokumentumok indexelésének?
A: Használjon több szálas feldolgozást és kötegelt feldolgozást a teljesítmény javításához és a memória terhelés csökkentéséhez.
Q: Testreszabhatom tovább az OCR beállításokat a GroupDocs.Search-ben?
A: Igen, az IndexingOptions lehetővé teszi az OCR viselkedés finomhangolását, például a nyelvválasztást és a kép előfeldolgozást.
Q: Melyek a gyakori hibaelhárítási tippek a GroupDocs.Search használatakor?
A: Ellenőrizze újra a könyvtár útvonalakat, győződjön meg arról, hogy minden függőség jelen van, és tekintse át a napló kimenetet a hiányzó fájlokért.
Q: Hogyan integrálhatom az Aspose.OCR-t a meglévő Java alkalmazásomba?
A: Valósítsa meg a IOcrConnector interfészt a fent bemutatott módon, ügyelve arra, hogy helyesen kezelje a kép bemenetet.
Források
Utoljára frissítve: 2026-01-11
Tesztelve a következőkkel: GroupDocs.Search 25.4, Aspose.OCR legújabb kiadás
Szerző: GroupDocs