Så använder du GroupDocs för Java OCR-indexering med Aspose

I den här guiden kommer du att upptäcka hur du använder GroupDocs för att lägga till OCR‑driven sökning i dina Java‑applikationer. Genom att kombinera GroupDocs.Search med Aspose.OCR kan du omvandla bildbaserat innehåll till sökbar text, vilket gör dokumenthanteringssystem mycket mer användbara. Vi går igenom installation, indexering, sökning och anpassad OCR‑integration, allt med tydliga, steg‑för‑steg‑exempel.

Snabba svar

  • Vilket bibliotek tillhandahåller OCR-indexering? GroupDocs.Search i kombination med Aspose.OCR.
  • Vilken Java‑version krävs? JDK 8 eller högre.
  • Behöver jag en licens? En gratis provperiod finns tillgänglig; en betald licens krävs för produktion.
  • Kan jag indexera både separata och inbäddade bilder? Ja, aktivera båda alternativen i IndexingOptions.
  • Stöds multi‑threading? Ja, du kan parallellisera indexeringen för stora datamängder.

Vad är OCR-indexering med GroupDocs?

OCR-indexering extraherar text från bilder (inklusive skannade PDF‑filer) och lagrar den i ett sökbart index. GroupDocs.Search hanterar indexeringen och frågeutförandet, medan Aspose.OCR utför den faktiska teckenigenkänningen.

Varför använda GroupDocs för Java OCR-indexering?

  • Hög noggrannhet tack vare Asposes avancerade OCR‑motor.
  • Sömlös Java‑integration via Maven eller direkta JAR‑filer.
  • Flexibel konfiguration för separata eller inbäddade bilder.
  • Skalbar prestanda med multi‑threading och minnesoptimeringar.

Förutsättningar

  • GroupDocs.Search ≥ 25.4
  • Aspose.OCR (senaste versionen)
  • JDK 8+ och en IDE (IntelliJ, Eclipse, NetBeans)
  • Grundläggande Java‑kunskaper; Maven är hjälpsamt men inte obligatoriskt

Konfigurera GroupDocs.Search för Java

Använd Maven

Lägg till repository och beroende i din pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Direkt nedladdning

Alternativt, ladda ner den senaste versionen av GroupDocs.Search för Java från GroupDocs releases.

Licensanskaffning

  • Gratis provperiod – utforska alla funktioner utan kostnad.
  • Tillfällig licens – förlängd testperiod.
  • Köp – krävs för produktionsdistributioner.

Grundläggande initiering och konfiguration

Skapa en indexmapp och initiera Index‑objektet:

import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);

Så använder du GroupDocs för OCR-indexering

Skapa ett index

Först, konfigurera mappen som ska innehålla indexfilerna:

String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);

Ställa in OCR-indexeringsalternativ

Aktivera OCR för både separata och inbäddade bilder, och anslut en anpassad OCR‑kopplare:

import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());

Indexera dokument

Lägg till dina källdokument (PDF‑filer, Word‑filer, bilder osv.) i indexet:

String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);

Söka i ett index

Kör en sökfråga mot det indexerade innehållet:

import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);

Implementera en OCR‑kopplare

Använd Aspose.OCR för att känna igen text från bilder. Implementera IOcrConnector‑gränssnittet som visas:

import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;

public class OcrConnector implements IOcrConnector {
    @Override
    public final String recognize(OcrContext context) {
        if (null == context.getImageLocation()) {
            throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
        }
        
        BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
        AsposeOCR api = new AsposeOCR();
        String text = api.RecognizePage(image);
        return text;
    }
}

Praktiska tillämpningar

  1. Dokumenthanteringssystem – snabb hämtning av dokument som innehåller skannade bilder.
  2. Arkivhämtning – hitta historiska handlingar i enorma arkiv.
  3. Juridisk dokumentanalys – sök i avtal och bevis som innehåller skannade signaturer eller diagram.
  4. Sökning i medicinska journaler – indexera patientformulär, laboratorieresultat och röntgenanteckningar.

Prestandaöverväganden

  • Indexstorlek – uteslut onödig metadata för att hålla indexet kompakt.
  • Multi‑Threading – bearbeta stora batcher parallellt för att snabba upp indexeringen.
  • Minneshantering – övervaka JVM‑heap när du hanterar högupplösta bilder.

Vanliga problem och lösningar

  • Licensfel – se till att rätt licensfil är placerad i applikationens arbetskatalog.
  • Saknade bilder – verifiera att bildvägar är åtkomliga och att formatet stöds (PNG, JPEG, BMP).
  • Out‑Of‑Memory – öka JVM‑heap (-Xmx) eller bearbeta dokument i mindre batcher.

Vanliga frågor

Q: Hur löser jag licensproblem med GroupDocs.Search?
A: Skaffa en tillfällig licens från GroupDocs webbplats för att låsa upp alla funktioner.

Q: Vad är det bästa sättet att hantera stor dokumentindexering?
A: Använd multi‑threading och batch‑bearbetning för att förbättra prestanda och minska minnesbelastningen.

Q: Kan jag anpassa OCR‑inställningarna ytterligare i GroupDocs.Search?
A: Ja, IndexingOptions låter dig finjustera OCR‑beteendet, såsom språkval och bildförbehandling.

Q: Vilka är vanliga felsökningstips när man använder GroupDocs.Search?
A: Dubbelkolla katalogvägar, verifiera att alla beroenden finns och granska loggutdata för saknade filer.

Q: Hur kan jag integrera Aspose.OCR med min befintliga Java‑applikation?
A: Implementera IOcrConnector‑gränssnittet som demonstrerats ovan och se till att du hanterar bildinmatning korrekt.

Resurser


Senast uppdaterad: 2026-01-11
Testad med: GroupDocs.Search 25.4, Aspose.OCR senaste release
Författare: GroupDocs