GroupDocs for Java OCR インデックスを Aspose と共に使用する方法

このガイドでは、GroupDocs を使用して Java アプリケーションに OCR 機能付き検索を追加する方法を紹介します。GroupDocs.Search と Aspose.OCR を組み合わせることで、画像ベースのコンテンツを検索可能なテキストに変換し、文書管理システムの有用性を大幅に向上させます。セットアップ、インデックス作成、検索、カスタム OCR 統合の手順を、分かりやすいステップバイステップの例とともに解説します。

Quick Answers

  • どのライブラリが OCR インデックスを提供しますか? GroupDocs.Search と Aspose.OCR の組み合わせです。
  • 必要な Java バージョンは? JDK 8 以上。
  • ライセンスは必要ですか? 無料トライアルが利用可能です。製品版では有料ライセンスが必要です。
  • 個別画像と埋め込み画像の両方をインデックスできますか? はい、IndexingOptions で両方のオプションを有効にします。
  • マルチスレッドはサポートされていますか? はい、大規模データセット向けにインデックス作成を並列化できます。

GroupDocs の OCR インデックスとは?

OCR インデックスは、画像(スキャンした PDF も含む)からテキストを抽出し、検索可能なインデックスに格納します。GroupDocs.Search がインデックス作成とクエリ実行を担当し、Aspose.OCR が実際の文字認識を行います。

Java 用 GroupDocs の OCR インデックスを使用すべき理由

  • 高精度 – Aspose の高度な OCR エンジンによるもの。
  • シームレスな Java 統合 – Maven または直接 JAR で利用可能。
  • 柔軟な設定 – 個別画像または埋め込み画像のどちらでも対応。
  • スケーラブルなパフォーマンス – マルチスレッドとメモリ最適化に対応。

前提条件

  • GroupDocs.Search ≥ 25.4
  • Aspose.OCR(最新バージョン)
  • JDK 8+ と IDE(IntelliJ、Eclipse、NetBeans)
  • 基本的な Java 知識;Maven があれば便利ですが必須ではありません

GroupDocs.Search for Java の設定

Maven を使用する場合

pom.xml にリポジトリと依存関係を追加します。

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

直接ダウンロード

あるいは、GroupDocs releases から最新バージョンの GroupDocs.Search for Java をダウンロードしてください。

ライセンス取得

  • 無料トライアル – すべての機能を費用なしで試せます。
  • 一時ライセンス – テスト期間を延長できます。
  • 購入 – 本番環境での使用にはライセンスが必要です。

基本的な初期化と設定

インデックスフォルダーを作成し、Index オブジェクトを初期化します。

import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);

GroupDocs を使用した OCR インデックスの利用方法

インデックスの作成

まず、インデックスファイルを格納するフォルダーを設定します。

String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);

OCR インデックスオプションの設定

個別画像と埋め込み画像の両方で OCR を有効にし、カスタム OCR コネクタを組み込みます。

import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());

ドキュメントのインデックス作成

ソースドキュメント(PDF、Word、画像など)をインデックスに追加します。

String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);

インデックス内検索

インデックス化されたコンテンツに対して検索クエリを実行します。

import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);

OCR コネクタの実装

Aspose.OCR を使用して画像からテキストを認識します。以下のように IOcrConnector インターフェイスを実装してください。

import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;

public class OcrConnector implements IOcrConnector {
    @Override
    public final String recognize(OcrContext context) {
        if (null == context.getImageLocation()) {
            throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
        }
        
        BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
        AsposeOCR api = new AsposeOCR();
        String text = api.RecognizePage(image);
        return text;
    }
}

実用例

  1. 文書管理システム – スキャン画像を含む文書の高速検索。
  2. アーカイブ検索 – 大規模アーカイブ内の歴史的記録を特定。
  3. 法務文書分析 – スキャンされた署名や図面を含む契約書・証拠の検索。
  4. 医療記録検索 – 患者フォーム、検査結果、X 線注釈などのインデックス化。

パフォーマンス上の考慮点

  • インデックスサイズ – 不要なメタデータを除外してインデックスを軽量化。
  • マルチスレッド – 大量バッチを並列処理してインデックス作成を高速化。
  • メモリ管理 – 高解像度画像を扱う際は JVM ヒープを監視。

よくある問題と対策

  • ライセンスエラー – 正しいライセンスファイルがアプリケーションの作業ディレクトリに配置されていることを確認。
  • 画像が見つからない – 画像パスがアクセス可能で、サポート形式(PNG、JPEG、BMP)であることを確認。
  • メモリ不足 – JVM ヒープ (-Xmx) を増やすか、ドキュメントを小さなバッチに分割して処理。

FAQ

Q: GroupDocs.Search のライセンス問題を解決するには?
A: 完全機能を有効化するために、GroupDocs のウェブサイト から一時ライセンスを取得してください。

Q: 大量文書のインデックス作成に最適な方法は?
A: マルチスレッドとバッチ処理を活用して、パフォーマンスを向上させメモリ負荷を軽減します。

Q: GroupDocs.Search の OCR 設定をさらにカスタマイズできますか?
A: はい、IndexingOptions で言語選択や画像前処理など OCR 動作を細かく調整できます。

Q: GroupDocs.Search 使用時の一般的なトラブルシューティングは?
A: ディレクトリパスを再確認し、すべての依存関係が揃っているか確認し、ログ出力で欠損ファイルをチェックしてください。

Q: Aspose.OCR を既存の Java アプリに統合するには?
A: 上記のように IOcrConnector インターフェイスを実装し、画像入力を正しく処理するようにしてください。

リソース


最終更新日: 2026-01-11
テスト環境: GroupDocs.Search 25.4、Aspose.OCR 最新リリース
作成者: GroupDocs