GroupDocs OCR Redaction を使用した PDF の機密データマスク

今日のデジタル環境では、個人情報や機密情報の保護が最重要課題です。このチュートリアルでは、GroupDocs Redaction と Microsoft Azure OCR を組み合わせて PDF ファイルの 機密データをマスクする方法を学びます。このアプローチにより、スキャンされたページでも信頼性の高いテキスト認識が可能になり、PDF Java ドキュメントを正確にレダクトでき、プライバシー規制への準拠を確保します。

クイック回答

  • “mask sensitive data” とは何ですか? 特定された機密テキストをプレースホルダー(例: [REDACTED])に置き換えます。
  • どのライブラリが OCR を処理しますか? Microsoft Azure OCR コネクタで、GroupDocs Redaction を通じて使用します。
  • ライセンスは必要ですか? 評価には無料トライアルで動作しますが、本番環境では永続ライセンスが必要です。
  • スキャンした PDF をレダクトできますか? はい。OCR が隠れたテキストを抽出し、正規表現によるレダクションを適用します。
  • このソリューションは Java のみですか? 例は Java ベースですが、GroupDocs は .NET や他のプラットフォーム向けにも同様の API を提供しています。

OCR ベースのレダクションとは?

OCR ベースのレダクションは、まずドキュメントの各ページに対して光学文字認識(Optical Character Recognition)を実行し、テキスト画像を検索可能な文字列に変換します。テキストが検索可能になると、正規表現(regex)ルールを適用して機密情報(例: 社会保障番号、クレジットカード番号、個人識別子)を検出し、[REDACTED] のようなマスクに置き換えることができます。

なぜ Azure OCR と GroupDocs Redaction を使用するのか?

  • 高精度 スキャンした PDF や画像に対して。
  • シームレスな Java 統合 Maven または直接 JAR ダウンロードで。
  • 柔軟な正規表現エンジン 任意のデータタイプに対してカスタムパターンを定義できます。
  • スケーラブル 大量のドキュメントバッチに対応し、非同期処理オプションがあります。

前提条件

  • Java Development Kit (JDK) 8+ がインストールされていること。
  • Maven(依存関係管理を希望する場合)または手動で JAR をダウンロードできること。
  • Microsoft Azure OCR の認証情報(エンドポイントとサブスクリプションキー)。
  • 基本的な Java の知識と正規表現の理解。

Java 用 GroupDocs Redaction の設定

Maven 設定

pom.xml に GroupDocs リポジトリと依存関係を追加します:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/redaction/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-redaction</artifactId>
      <version>24.9</version>
   </dependency>
</dependencies>

直接ダウンロード

手動で JAR を管理したい場合は、GroupDocs.Redaction for Java releases から最新リリースを取得してください。

ライセンス取得

  • Free Trial – すべての機能を無料で試せます。
  • Temporary License – 評価期間を延長できます。
  • Full License – 本番向け機能を利用可能にします。

基本的な初期化と設定

import com.groupdocs.redaction.Redactor;
import com.groupdocs.redaction.RedactorSettings;
import com.groupdocs.redaction.options.LoadOptions;
import com.groupdocs.redaction.examples.java.helper_classes.MicrosoftAzureOcrConnector;

// Initialize the OCR connector with Microsoft Azure
RedactorSettings settings = new RedactorSettings(new MicrosoftAzureOcrConnector());

OCR レダクションで機密データをマスクする方法

手順 1: OCR 設定でドキュメントをロードする

import com.groupdocs.redaction.Redactor;
import com.groupdocs.redaction.options.LoadOptions;

// Load your document with OCR settings
try (Redactor redactor = new Redactor("YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF_FOR_4OCR.pdf", 
    new LoadOptions(), settings)) {
    // Further operations will go here
}
  • YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF_FOR_4OCR.pdf – PDF のパスに置き換えてください。
  • LoadOptions – デフォルトのロード設定です。必要に応じてカスタマイズできます。
  • settings – 以前作成した Azure OCR コネクタが含まれます。

手順 2: 正規表現レダクションを定義して適用する

import com.groupdocs.redaction.redactions.RegexRedaction;
import com.groupdocs.redaction.redactions.ReplacementOptions;

// Define the regex for sensitive data (e.g., Social Security Numbers)
RegexRedaction redaction = new RegexRedaction("\\b\\d{3}-\\d{2}-\\d{4}\\b", 
    new ReplacementOptions("[REDACTED]"));

// Apply redaction
redactor.apply(redaction);

// Save the document after redactions
redactor.save(new SaveOptions());
  • パターン \b\d{3}-\d{2}-\d{4}\b は米国の社会保障番号にマッチします。
  • ReplacementOptions("[REDACTED]") は各マッチをマスクに置き換え、実質的に 機密データをマスク します。

機密データマスクの一般的なユースケース

  1. Legal Document Management – 下書きを共有する前にクライアント識別子を非表示にします。
  2. Financial Reporting – 口座番号や取引 ID を保護します。
  3. Healthcare Records – HIPAA に準拠し、患者識別子をレダクトします。
  4. Government Publications – 公的記録から個人データを除去します。
  5. Corporate Contracts – 外部レビュー時に独自条項を隠します。

パフォーマンスのヒント

  • 正規表現の最適化 – 処理時間が増える過度に広いパターンを避けます。
  • メモリ管理Redactor インスタンスを速やかにクローズします(try‑with‑resources が自動で行います)。
  • 非同期実行 – バルク処理の場合、別スレッドでレダクションジョブを実行するか、タスクキューを使用します。

トラブルシューティング

  • Azure 認証情報エラーMicrosoftAzureOcrConnector のエンドポイント URL とサブスクリプションキーを再確認してください。
  • ドキュメントがロードされない – ファイルパスを確認し、PDF がパスワードで保護されていないか確認してください(または LoadOptions でパスワードを提供)。
  • レダクションが適用されない – まずシンプルな文字列で正規表現をテストしてください。ユニットテストで Pattern.compile を使用してマッチを確認します。

よくある質問

Q: OCR レダクションとは何ですか?
A: OCR レダクションは光学文字認識を使用して画像やスキャン PDF から隠れたテキストを抽出し、レダクションルールを適用してそのテキストをマスクします。

Q: Azure OCR なしで GroupDocs Redaction を使用できますか?
A: はい、可能ですが、OCR を使用すると、ネイティブなテキスト抽出が失敗するスキャンドキュメントで精度が大幅に向上します。

Q: 複雑な正規表現パターンはどう扱いますか?
A: サンドボックスで Java の Pattern クラスを使い、段階的に構築・テストしてから大規模ドキュメントに適用します。

Q: 典型的なパフォーマンスボトルネックは何ですか?
A: 大容量 PDF、過度に複雑な正規表現、同期的な OCR 呼び出しが処理を遅くします。バッチ処理や最適化されたパターンを検討してください。

Q: 実装に関するサポートはありますか?
A: もちろんです。コミュニティ支援は GroupDocs forum で、または GroupDocs サポートにお問い合わせください。

追加リソース


最終更新日: 2026-02-08
テスト環境: GroupDocs.Redaction 24.9 (Java)
作者: GroupDocs