Hoe GroupDocs voor Java OCR‑indexering te gebruiken met Aspose

In deze gids ontdek je hoe je GroupDocs kunt gebruiken om OCR‑aangedreven zoeken toe te voegen aan je Java‑applicaties. Door GroupDocs.Search te combineren met Aspose.OCR kun je op afbeeldingen gebaseerde inhoud omzetten in doorzoekbare tekst, waardoor documentbeheersystemen veel bruikbaarder worden. We lopen stap‑voor‑stap door de installatie, indexering, zoeken en aangepaste OCR‑integratie, met duidelijke voorbeelden.

Snelle antwoorden

  • Welke bibliotheek biedt OCR‑indexering? GroupDocs.Search in combinatie met Aspose.OCR.
  • Welke Java‑versie is vereist? JDK 8 of hoger.
  • Heb ik een licentie nodig? Een gratis proefversie is beschikbaar; een betaalde licentie is vereist voor productie.
  • Kan ik zowel losse als ingesloten afbeeldingen indexeren? Ja, schakel beide opties in IndexingOptions.
  • Wordt multi‑threading ondersteund? Ja, je kunt indexering paralleliseren voor grote datasets.

Wat is OCR‑indexering met GroupDocs?

OCR‑indexering haalt tekst uit afbeeldingen (inclusief gescande PDF‑bestanden) en slaat deze op in een doorzoekbare index. GroupDocs.Search verzorgt de indexering en het uitvoeren van queries, terwijl Aspose.OCR de feitelijke tekenherkenning uitvoert.

Waarom GroupDocs voor Java OCR‑indexering gebruiken?

  • Hoge nauwkeurigheid dankzij de geavanceerde OCR‑engine van Aspose.
  • Naadloze Java‑integratie via Maven of directe JAR‑bestanden.
  • Flexibele configuratie voor losse of ingesloten afbeeldingen.
  • Schaalbare prestaties met multi‑threading en geheugenoptimalisaties.

Vereisten

  • GroupDocs.Search ≥ 25.4
  • Aspose.OCR (nieuwste versie)
  • JDK 8+ en een IDE (IntelliJ, Eclipse, NetBeans)
  • Basiskennis van Java; Maven is handig maar niet verplicht

GroupDocs.Search voor Java instellen

Maven gebruiken

Voeg de repository en afhankelijkheid toe aan je pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Direct downloaden

Download anders de nieuwste versie van GroupDocs.Search voor Java via GroupDocs releases.

Licentie‑acquisitie

  • Gratis proefversie – verken alle functies zonder kosten.
  • Tijdelijke licentie – verlengde testperiode.
  • Aankoop – vereist voor productie‑implementaties.

Basisinitialisatie en -instelling

Maak een indexmap aan en initialiseert het Index‑object:

import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);

Hoe GroupDocs voor OCR‑indexering te gebruiken

Een index maken

Stel eerst de map in die de indexbestanden zal bevatten:

String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);

OCR‑indexeringsopties instellen

Schakel OCR in voor zowel losse als ingesloten afbeeldingen en koppel een aangepaste OCR‑connector:

import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());

Documenten indexeren

Voeg je bron‑documenten (PDF‑s, Word‑bestanden, afbeeldingen, enz.) toe aan de index:

String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);

Zoeken in een index

Voer een zoekopdracht uit op de geïndexeerde inhoud:

import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);

Een OCR‑connector implementeren

Gebruik Aspose.OCR om tekst uit afbeeldingen te herkennen. Implementeer de IOcrConnector‑interface zoals hieronder weergegeven:

import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;

public class OcrConnector implements IOcrConnector {
    @Override
    public final String recognize(OcrContext context) {
        if (null == context.getImageLocation()) {
            throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
        }
        
        BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
        AsposeOCR api = new AsposeOCR();
        String text = api.RecognizePage(image);
        return text;
    }
}

Praktische toepassingen

  1. Documentbeheersystemen – snelle terugvinden van documenten met gescande afbeeldingen.
  2. Archief‑opvraging – historische records vinden binnen enorme archieven.
  3. Juridische documentanalyse – zoeken in contracten en bewijsmateriaal met gescande handtekeningen of diagrammen.
  4. Zoeken in medische dossiers – patiëntformulieren, laboratoriumresultaten en röntgen‑annotaties indexeren.

Prestatie‑overwegingen

  • Indexgrootte – sluit onnodige metadata uit om de index slank te houden.
  • Multi‑Threading – verwerk grote batches parallel om de indexering te versnellen.
  • Geheugenbeheer – houd de JVM‑heap in de gaten bij het verwerken van afbeeldingen met hoge resolutie.

Veelvoorkomende problemen en oplossingen

  • Licentiefouten – zorg dat het juiste licentiebestand in de werkmap van de applicatie staat.
  • Ontbrekende afbeeldingen – controleer of afbeeldingspaden toegankelijk zijn en ondersteunde formaten (PNG, JPEG, BMP) hebben.
  • Out‑Of‑Memory – vergroot de JVM‑heap (-Xmx) of verwerk documenten in kleinere batches.

Veelgestelde vragen

Q: Hoe los ik licentieproblemen op met GroupDocs.Search?
A: Verkrijg een tijdelijke licentie via de GroupDocs‑website om alle functies te ontgrendelen.

Q: Wat is de beste manier om grote document‑indexering aan te pakken?
A: Maak gebruik van multi‑threading en batch‑verwerking om de prestaties te verbeteren en de geheugenbelasting te verlagen.

Q: Kan ik OCR‑instellingen verder aanpassen in GroupDocs.Search?
A: Ja, IndexingOptions laat je OCR‑gedrag fijn afstemmen, zoals taalkeuze en beeldvoorbewerking.

Q: Welke algemene tips zijn er voor probleemoplossing bij het gebruik van GroupDocs.Search?
A: Controleer directory‑paden, verifieer dat alle afhankelijkheden aanwezig zijn, en bekijk de log‑output voor ontbrekende bestanden.

Q: Hoe kan ik Aspose.OCR integreren in mijn bestaande Java‑applicatie?
A: Implementeer de IOcrConnector‑interface zoals hierboven gedemonstreerd, en zorg dat je afbeeldingsinvoer correct afhandelt.

Resources


Laatst bijgewerkt: 2026-01-11
Getest met: GroupDocs.Search 25.4, Aspose.OCR nieuwste release
Auteur: GroupDocs