Jak používat GroupDocs pro Java OCR indexování s Aspose
V tomto průvodci se dozvíte jak používat GroupDocs k přidání vyhledávání poháněného OCR do vašich Java aplikací. Kombinací GroupDocs.Search s Aspose.OCR můžete převést obsah založený na obrázcích na prohledávatelný text, což výrazně zvyšuje užitečnost systémů pro správu dokumentů. Provedeme vás nastavením, indexováním, vyhledáváním a vlastním OCR integrací, vše s jasnými, krok‑za‑krokem příklady.
Rychlé odpovědi
- Která knihovna poskytuje OCR indexování? GroupDocs.Search ve spojení s Aspose.OCR.
- Jaká verze Javy je vyžadována? JDK 8 nebo vyšší.
- Potřebuji licenci? K dispozici je bezplatná zkušební verze; pro produkční nasazení je vyžadována placená licence.
- Mohu indexovat jak samostatné, tak vložené obrázky? Ano, povolte obě možnosti v
IndexingOptions. - Je podporováno vícevláknové zpracování? Ano, můžete paralelizovat indexování pro velké datové sady.
Co je OCR indexování s GroupDocs?
OCR indexování extrahuje text z obrázků (včetně skenovaných PDF) a ukládá jej do prohledávatelného indexu. GroupDocs.Search se stará o samotné indexování a provádění dotazů, zatímco Aspose.OCR provádí rozpoznávání znaků.
Proč používat GroupDocs pro Java OCR indexování?
- Vysoká přesnost díky pokročilému OCR enginu od Aspose.
- Bezproblémová integrace do Javy pomocí Maven nebo přímých JAR souborů.
- Flexibilní konfigurace pro samostatné i vložené obrázky.
- Škálovatelný výkon s podporou vícevláknového zpracování a optimalizací paměti.
Požadavky
- GroupDocs.Search ≥ 25.4
- Aspose.OCR (nejnovější verze)
- JDK 8+ a IDE (IntelliJ, Eclipse, NetBeans)
- Základní znalost Javy; Maven je užitečný, ale není povinný
Nastavení GroupDocs.Search pro Java
Použití Maven
Přidejte repozitář a závislost do souboru pom.xml:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Přímé stažení
Alternativně si stáhněte nejnovější verzi GroupDocs.Search pro Java z GroupDocs releases.
Získání licence
- Free Trial – prozkoumejte všechny funkce zdarma.
- Temporary License – prodloužené testovací období.
- Purchase – vyžadováno pro produkční nasazení.
Základní inicializace a nastavení
Vytvořte složku pro index a inicializujte objekt Index:
import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);
Jak používat GroupDocs pro OCR indexování
Vytvoření indexu
Nejprve nastavte složku, která bude obsahovat soubory indexu:
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);
Nastavení možností OCR indexování
Povolte OCR pro samostatné i vložené obrázky a připojte vlastní OCR konektor:
import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());
Indexování dokumentů
Přidejte své zdrojové dokumenty (PDF, Word, obrázky atd.) do indexu:
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);
Vyhledávání v indexu
Spusťte vyhledávací dotaz proti indexovanému obsahu:
import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);
Implementace OCR konektoru
Použijte Aspose.OCR k rozpoznání textu z obrázků. Implementujte rozhraní IOcrConnector podle ukázky:
import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;
public class OcrConnector implements IOcrConnector {
@Override
public final String recognize(OcrContext context) {
if (null == context.getImageLocation()) {
throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
}
BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
AsposeOCR api = new AsposeOCR();
String text = api.RecognizePage(image);
return text;
}
}
Praktické aplikace
- Systémy pro správu dokumentů – rychlé vyhledávání dokumentů obsahujících skenované obrázky.
- Archivní vyhledávání – nalezení historických záznamů v masivních archivech.
- Analýza právních dokumentů – vyhledávání smluv a důkazů, které zahrnují skenované podpisy nebo diagramy.
- Vyhledávání v lékařských záznamech – indexování pacientských formulářů, laboratorních výsledků a anotací rentgenových snímků.
Úvahy o výkonu
- Velikost indexu – vyloučte zbytečná metadata, aby byl index co nejmenší.
- Vícevláknové zpracování – zpracovávejte velké dávky paralelně pro zrychlení indexování.
- Správa paměti – monitorujte haldu JVM při práci s vysoce rozlišenými obrázky.
Časté problémy a řešení
- Chyby licence – ujistěte se, že správný licenční soubor je umístěn v pracovním adresáři aplikace.
- Chybějící obrázky – ověřte, že cesty k obrázkům jsou přístupné a formáty jsou podporovány (PNG, JPEG, BMP).
- Out‑Of‑Memory – zvyšte haldu JVM (
-Xmx) nebo zpracovávejte dokumenty v menších dávkách.
Často kladené otázky
Q: Jak vyřešit problémy s licencí v GroupDocs.Search?
A: Získejte dočasnou licenci na GroupDocs website, která odemkne všechny funkce.
Q: Jak nejlépe zvládnout indexování velkých dokumentů?
A: Využijte vícevláknové zpracování a dávkové zpracování pro zvýšení výkonu a snížení zatížení paměti.
Q: Můžu dále přizpůsobit nastavení OCR v GroupDocs.Search?
A: Ano, IndexingOptions umožňuje jemně doladit chování OCR, například výběr jazyka a předzpracování obrázků.
Q: Jaké jsou běžné tipy pro řešení problémů při používání GroupDocs.Search?
A: Zkontrolujte cesty ke složkám, ověřte, že jsou všechny závislosti přítomny, a prohlédněte výstup logu pro chybějící soubory.
Q: Jak integrovat Aspose.OCR do existující Java aplikace?
A: Implementujte rozhraní IOcrConnector podle výše uvedeného příkladu a zajistěte správné zpracování vstupních obrázků.
Zdroje
Poslední aktualizace: 2026-01-11
Testováno s: GroupDocs.Search 25.4, Aspose.OCR nejnovější vydání
Autor: GroupDocs