Come utilizzare GroupDocs per l’OCR indexing in Java con Aspose

In questa guida scoprirai come utilizzare GroupDocs per aggiungere la ricerca basata su OCR alle tue applicazioni Java. Combinando GroupDocs.Search con Aspose.OCR, puoi trasformare i contenuti basati su immagini in testo ricercabile, rendendo i sistemi di gestione documentale molto più utili. Ti guideremo attraverso la configurazione, l’indicizzazione, la ricerca e l’integrazione OCR personalizzata, il tutto con esempi chiari passo‑a‑passo.

Risposte rapide

  • Quale libreria fornisce l’indicizzazione OCR? GroupDocs.Search paired with Aspose.OCR.
  • Quale versione di Java è richiesta? JDK 8 or higher.
  • È necessaria una licenza? A free trial is available; a paid license is required for production.
  • Posso indicizzare sia immagini separate che incorporate? Yes, enable both options in IndexingOptions.
  • Il multi‑threading è supportato? Yes, you can parallelize indexing for large data sets.

Cos’è l’indicizzazione OCR con GroupDocs?

L’indicizzazione OCR estrae il testo dalle immagini (inclusi PDF scansionati) e lo memorizza in un indice ricercabile. GroupDocs.Search gestisce l’indicizzazione e l’esecuzione delle query, mentre Aspose.OCR esegue il riconoscimento dei caratteri.

Perché utilizzare GroupDocs per l’indicizzazione OCR in Java?

  • Alta precisione grazie al motore OCR avanzato di Aspose.
  • Integrazione Java senza soluzione di continuità tramite Maven o JAR diretti.
  • Configurazione flessibile per immagini separate o incorporate.
  • Prestazioni scalabili con multi‑threading e ottimizzazioni della memoria.

Prerequisiti

  • GroupDocs.Search ≥ 25.4
  • Aspose.OCR (latest version)
  • JDK 8+ and an IDE (IntelliJ, Eclipse, NetBeans)
  • Basic Java knowledge; Maven is helpful but not mandatory

Configurazione di GroupDocs.Search per Java

Utilizzo di Maven

Add the repository and dependency to your pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Download diretto

In alternativa, scarica l’ultima versione di GroupDocs.Search per Java da GroupDocs releases.

Acquisizione della licenza

  • Free Trial – explore all features without cost.
  • Temporary License – extended testing period.
  • Purchase – required for production deployments.

Inizializzazione e configurazione di base

Create an index folder and initialize the Index object:

import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);

Come utilizzare GroupDocs per l’indicizzazione OCR

Creazione di un indice

First, set up the folder that will hold the index files:

String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);

Configurazione delle opzioni di indicizzazione OCR

Enable OCR for both separate and embedded images, and plug in a custom OCR connector:

import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());

Indicizzazione dei documenti

Add your source documents (PDFs, Word files, images, etc.) to the index:

String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);

Ricerca in un indice

Run a search query against the indexed content:

import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);

Implementazione di un connettore OCR

Use Aspose.OCR to recognize text from images. Implement the IOcrConnector interface as shown:

import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;

public class OcrConnector implements IOcrConnector {
    @Override
    public final String recognize(OcrContext context) {
        if (null == context.getImageLocation()) {
            throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
        }
        
        BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
        AsposeOCR api = new AsposeOCR();
        String text = api.RecognizePage(image);
        return text;
    }
}

Applicazioni pratiche

  1. Document Management Systems – fast retrieval of documents containing scanned images.
  2. Archival Retrieval – locate historical records within massive archives.
  3. Legal Document Analysis – search contracts and evidence that include scanned signatures or diagrams.
  4. Medical Records Search – index patient forms, lab results, and X‑ray annotations.

Considerazioni sulle prestazioni

  • Index Size – exclude unnecessary metadata to keep the index lean.
  • Multi‑Threading – process large batches in parallel to speed up indexing.
  • Memory Management – monitor JVM heap when handling high‑resolution images.

Problemi comuni e soluzioni

  • License Errors – ensure the correct license file is placed in the application’s working directory.
  • Missing Images – verify image paths are accessible and supported formats (PNG, JPEG, BMP).
  • Out‑Of‑Memory – increase JVM heap (-Xmx) or process documents in smaller batches.

Domande frequenti

Q: Come risolvere i problemi di licenza con GroupDocs.Search?
A: Ottieni una licenza temporanea dal sito GroupDocs per sbloccare tutte le funzionalità.

Q: Qual è il modo migliore per gestire l’indicizzazione di grandi documenti?
A: Utilizza il multi‑threading e l’elaborazione a batch per migliorare le prestazioni e ridurre la pressione sulla memoria.

Q: Posso personalizzare ulteriormente le impostazioni OCR in GroupDocs.Search?
A: Sì, IndexingOptions consente di regolare finemente il comportamento OCR, come la selezione della lingua e la pre‑elaborazione delle immagini.

Q: Quali sono alcuni consigli comuni per la risoluzione dei problemi quando si utilizza GroupDocs.Search?
A: Verifica nuovamente i percorsi delle directory, assicurati che tutte le dipendenze siano presenti e controlla l’output dei log per eventuali file mancanti.

Q: Come posso integrare Aspose.OCR nella mia applicazione Java esistente?
A: Implementa l’interfaccia IOcrConnector come mostrato sopra, assicurandoti di gestire correttamente l’input delle immagini.

Risorse


Last Updated: 2026-01-11
Tested With: GroupDocs.Search 25.4, Aspose.OCR latest release
Author: GroupDocs