Hoe GroupDocs voor Java OCR‑indexering te gebruiken met Aspose
In deze gids ontdek je hoe je GroupDocs kunt gebruiken om OCR‑aangedreven zoeken toe te voegen aan je Java‑applicaties. Door GroupDocs.Search te combineren met Aspose.OCR kun je op afbeeldingen gebaseerde inhoud omzetten in doorzoekbare tekst, waardoor documentbeheersystemen veel bruikbaarder worden. We lopen stap‑voor‑stap door de installatie, indexering, zoeken en aangepaste OCR‑integratie, met duidelijke voorbeelden.
Snelle antwoorden
- Welke bibliotheek biedt OCR‑indexering? GroupDocs.Search in combinatie met Aspose.OCR.
- Welke Java‑versie is vereist? JDK 8 of hoger.
- Heb ik een licentie nodig? Een gratis proefversie is beschikbaar; een betaalde licentie is vereist voor productie.
- Kan ik zowel losse als ingesloten afbeeldingen indexeren? Ja, schakel beide opties in
IndexingOptions. - Wordt multi‑threading ondersteund? Ja, je kunt indexering paralleliseren voor grote datasets.
Wat is OCR‑indexering met GroupDocs?
OCR‑indexering haalt tekst uit afbeeldingen (inclusief gescande PDF‑bestanden) en slaat deze op in een doorzoekbare index. GroupDocs.Search verzorgt de indexering en het uitvoeren van queries, terwijl Aspose.OCR de feitelijke tekenherkenning uitvoert.
Waarom GroupDocs voor Java OCR‑indexering gebruiken?
- Hoge nauwkeurigheid dankzij de geavanceerde OCR‑engine van Aspose.
- Naadloze Java‑integratie via Maven of directe JAR‑bestanden.
- Flexibele configuratie voor losse of ingesloten afbeeldingen.
- Schaalbare prestaties met multi‑threading en geheugenoptimalisaties.
Vereisten
- GroupDocs.Search ≥ 25.4
- Aspose.OCR (nieuwste versie)
- JDK 8+ en een IDE (IntelliJ, Eclipse, NetBeans)
- Basiskennis van Java; Maven is handig maar niet verplicht
GroupDocs.Search voor Java instellen
Maven gebruiken
Voeg de repository en afhankelijkheid toe aan je pom.xml:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Direct downloaden
Download anders de nieuwste versie van GroupDocs.Search voor Java via GroupDocs releases.
Licentie‑acquisitie
- Gratis proefversie – verken alle functies zonder kosten.
- Tijdelijke licentie – verlengde testperiode.
- Aankoop – vereist voor productie‑implementaties.
Basisinitialisatie en -instelling
Maak een indexmap aan en initialiseert het Index‑object:
import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);
Hoe GroupDocs voor OCR‑indexering te gebruiken
Een index maken
Stel eerst de map in die de indexbestanden zal bevatten:
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);
OCR‑indexeringsopties instellen
Schakel OCR in voor zowel losse als ingesloten afbeeldingen en koppel een aangepaste OCR‑connector:
import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());
Documenten indexeren
Voeg je bron‑documenten (PDF‑s, Word‑bestanden, afbeeldingen, enz.) toe aan de index:
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);
Zoeken in een index
Voer een zoekopdracht uit op de geïndexeerde inhoud:
import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);
Een OCR‑connector implementeren
Gebruik Aspose.OCR om tekst uit afbeeldingen te herkennen. Implementeer de IOcrConnector‑interface zoals hieronder weergegeven:
import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;
public class OcrConnector implements IOcrConnector {
@Override
public final String recognize(OcrContext context) {
if (null == context.getImageLocation()) {
throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
}
BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
AsposeOCR api = new AsposeOCR();
String text = api.RecognizePage(image);
return text;
}
}
Praktische toepassingen
- Documentbeheersystemen – snelle terugvinden van documenten met gescande afbeeldingen.
- Archief‑opvraging – historische records vinden binnen enorme archieven.
- Juridische documentanalyse – zoeken in contracten en bewijsmateriaal met gescande handtekeningen of diagrammen.
- Zoeken in medische dossiers – patiëntformulieren, laboratoriumresultaten en röntgen‑annotaties indexeren.
Prestatie‑overwegingen
- Indexgrootte – sluit onnodige metadata uit om de index slank te houden.
- Multi‑Threading – verwerk grote batches parallel om de indexering te versnellen.
- Geheugenbeheer – houd de JVM‑heap in de gaten bij het verwerken van afbeeldingen met hoge resolutie.
Veelvoorkomende problemen en oplossingen
- Licentiefouten – zorg dat het juiste licentiebestand in de werkmap van de applicatie staat.
- Ontbrekende afbeeldingen – controleer of afbeeldingspaden toegankelijk zijn en ondersteunde formaten (PNG, JPEG, BMP) hebben.
- Out‑Of‑Memory – vergroot de JVM‑heap (
-Xmx) of verwerk documenten in kleinere batches.
Veelgestelde vragen
Q: Hoe los ik licentieproblemen op met GroupDocs.Search?
A: Verkrijg een tijdelijke licentie via de GroupDocs‑website om alle functies te ontgrendelen.
Q: Wat is de beste manier om grote document‑indexering aan te pakken?
A: Maak gebruik van multi‑threading en batch‑verwerking om de prestaties te verbeteren en de geheugenbelasting te verlagen.
Q: Kan ik OCR‑instellingen verder aanpassen in GroupDocs.Search?
A: Ja, IndexingOptions laat je OCR‑gedrag fijn afstemmen, zoals taalkeuze en beeldvoorbewerking.
Q: Welke algemene tips zijn er voor probleemoplossing bij het gebruik van GroupDocs.Search?
A: Controleer directory‑paden, verifieer dat alle afhankelijkheden aanwezig zijn, en bekijk de log‑output voor ontbrekende bestanden.
Q: Hoe kan ik Aspose.OCR integreren in mijn bestaande Java‑applicatie?
A: Implementeer de IOcrConnector‑interface zoals hierboven gedemonstreerd, en zorg dat je afbeeldingsinvoer correct afhandelt.
Resources
Laatst bijgewerkt: 2026-01-11
Getest met: GroupDocs.Search 25.4, Aspose.OCR nieuwste release
Auteur: GroupDocs