Hogyan használjuk a GroupDocs-ot Java OCR indexeléshez az Aspose-szal

Ebben az útmutatóban felfedezheti, hogyan használja a GroupDocs-ot, hogy OCR‑alapú keresést adjon Java alkalmazásaihoz. A GroupDocs.Search és az Aspose.OCR kombinálásával a képalapú tartalmat kereshető szöveggé alakíthatja, így a dokumentumkezelő rendszerek sokkal hasznosabbá válnak. Lépésről‑lépésre bemutatjuk a beállítást, indexelést, keresést és az egyedi OCR integrációt, mind világos példákkal.

Gyors válaszok

  • Melyik könyvtár biztosítja az OCR indexelést? GroupDocs.Search párosítva az Aspose.OCR-rel.
  • Melyik Java verzió szükséges? JDK 8 vagy újabb.
  • Szükségem van licencre? Elérhető egy ingyenes próba, a termeléshez fizetett licenc szükséges.
  • Indexelhetek különálló és beágyazott képeket is? Igen, engedélyezze mindkét opciót az IndexingOptions-ban.
  • Támogatott a több szálas feldolgozás? Igen, párhuzamosíthatja az indexelést nagy adathalmazok esetén.

Mi az OCR indexelés a GroupDocs-szal?

Az OCR indexelés a képekből (beleértve a beolvasott PDF-eket) szöveget nyer ki, és egy kereshető indexben tárolja. A GroupDocs.Search kezeli az indexelést és a lekérdezés végrehajtását, míg az Aspose.OCR végzi a tényleges karakterfelismerést.

Miért használjuk a GroupDocs-ot Java OCR indexeléshez?

  • Magas pontosság az Aspose fejlett OCR motorjának köszönhetően.
  • Zökkenőmentes Java integráció Maven vagy közvetlen JAR fájlok segítségével.
  • Rugalmas konfiguráció különálló vagy beágyazott képekhez.
  • Skálázható teljesítmény több szálas feldolgozással és memóriaoptimalizálással.

Előfeltételek

  • GroupDocs.Search ≥ 25.4
  • Aspose.OCR (legújabb verzió)
  • JDK 8+ és egy IDE (IntelliJ, Eclipse, NetBeans)
  • Alapvető Java ismeretek; a Maven hasznos, de nem kötelező

A GroupDocs.Search beállítása Java-hoz

Maven használata

Adja hozzá a tárolót és a függőséget a pom.xml-hez:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Közvetlen letöltés

Alternatívaként töltse le a GroupDocs.Search legújabb Java verzióját a GroupDocs releases oldalról.

Licenc beszerzése

  • Ingyenes próba – minden funkció kipróbálása költség nélkül.
  • Ideiglenes licenc – meghosszabbított tesztelési időszak.
  • Vásárlás – szükséges a termelési környezethez.

Alapvető inicializálás és beállítás

Hozzon létre egy index mappát, és inicializálja az Index objektumot:

import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);

Hogyan használjuk a GroupDocs-ot OCR indexeléshez

Index létrehozása

Először állítsa be a mappát, amely az index fájlokat tárolja:

String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);

OCR indexelési beállítások konfigurálása

Engedélyezze az OCR-t a különálló és beágyazott képekhez, és csatlakoztasson egy egyedi OCR csatlakozót:

import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());

Dokumentumok indexelése

Adja hozzá a forrásdokumentumokat (PDF-ek, Word fájlok, képek stb.) az indexhez:

String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);

Keresés egy indexben

Futtasson keresési lekérdezést az indexelt tartalomra:

import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);

OCR csatlakozó megvalósítása

Használja az Aspose.OCR-t a képek szövegének felismeréséhez. Valósítsa meg a IOcrConnector interfészt a következő módon:

import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;

public class OcrConnector implements IOcrConnector {
    @Override
    public final String recognize(OcrContext context) {
        if (null == context.getImageLocation()) {
            throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
        }
        
        BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
        AsposeOCR api = new AsposeOCR();
        String text = api.RecognizePage(image);
        return text;
    }
}

Gyakorlati alkalmazások

  1. Dokumentumkezelő rendszerek – gyors visszakeresés a beolvasott képeket tartalmazó dokumentumok között.
  2. Archívum visszakeresés – történelmi feljegyzések megtalálása hatalmas archívumokban.
  3. Jogi dokumentumelemzés – szerződések és bizonyítékok keresése, amelyek beolvasott aláírásokat vagy diagramokat tartalmaznak.
  4. Orvosi feljegyzések keresése – beteg űrlapok, laboreredmények és röntgen annotációk indexelése.

Teljesítmény szempontok

  • Index mérete – hagyja ki a felesleges metaadatokat, hogy az index karcsú maradjon.
  • Több szálas feldolgozás – nagy kötegeket párhuzamosan dolgozzon fel az indexelés felgyorsításához.
  • Memória kezelés – figyelje a JVM heapet nagy felbontású képek kezelésekor.

Gyakori problémák és megoldások

  • Licenc hibák – győződjön meg arról, hogy a megfelelő licencfájl az alkalmazás munkakönyvtárában van.
  • Hiányzó képek – ellenőrizze, hogy a kép útvonalak elérhetők és a támogatott formátumok (PNG, JPEG, BMP) használatban vannak.
  • Memóriahiány – növelje a JVM heapet (-Xmx) vagy dolgozzon kisebb kötegekkel.

Gyakran ismételt kérdések

Q: Hogyan oldjam meg a licencelési problémákat a GroupDocs.Search-nél?
A: Szerezzen be egy ideiglenes licencet a GroupDocs weboldaláról, hogy feloldja a teljes funkciókészletet.

Q: Mi a legjobb módja a nagy dokumentumok indexelésének?
A: Használjon több szálas feldolgozást és kötegelt feldolgozást a teljesítmény javításához és a memória terhelés csökkentéséhez.

Q: Testreszabhatom tovább az OCR beállításokat a GroupDocs.Search-ben?
A: Igen, az IndexingOptions lehetővé teszi az OCR viselkedés finomhangolását, például a nyelvválasztást és a kép előfeldolgozást.

Q: Melyek a gyakori hibaelhárítási tippek a GroupDocs.Search használatakor?
A: Ellenőrizze újra a könyvtár útvonalakat, győződjön meg arról, hogy minden függőség jelen van, és tekintse át a napló kimenetet a hiányzó fájlokért.

Q: Hogyan integrálhatom az Aspose.OCR-t a meglévő Java alkalmazásomba?
A: Valósítsa meg a IOcrConnector interfészt a fent bemutatott módon, ügyelve arra, hogy helyesen kezelje a kép bemenetet.

Források


Utoljára frissítve: 2026-01-11
Tesztelve a következőkkel: GroupDocs.Search 25.4, Aspose.OCR legújabb kiadás
Szerző: GroupDocs