使用 GroupDocs.Parser OCR 在 Java 中提取掃描 PDF 文字

在當今取掃描 PDF 文字是要數位化舊有紙本條GroupDocs.Parser 的 OCR 引擎都能提供所需工具。在本教學中,您將學會如何設定函式庫、為 OCR 定義精確的 快速回答

  • 「提取掃描 PDF 文字」是什麼意思? 將掃描 PDF 的視覺內容轉 **哪 Aspose OCR 連接器的 GroupDocs.Parser。
  • **需要授權嗎測試;正式環境需購買授權。
  • 可以限制 OCR 只在特定區域嗎? 可以 ─ 使用帶有 RectangleOcrOptions
  • 錯誤處理必要嗎? 必須;將 OCR 呼叫包在 try‑catch 區塊中以避免程式崩潰。

什麼是提取掃描 PDF 文字?

提取掃描 PDF 文字是將光學字符辨其轉換為機器可讀的文字。這使得搜尋、索引以及後續 Java 中使用 GroupDocs.Parser 進行 OCR? GroupDocs.Parser 提供域的功能。這可減少處理時間並提升準確只需要從文件的已知區段JDK 8 或更新版本)。

  • GroupDocs.Parser 函式庫 ─ 透過 Maven 安裝或直接下載。
  • 基本的 Java 知識 ─ 您應熟悉類別、try‑with‑resources 以及例外處理。

設定 GroupDocs.Parser(Java 版)

Maven 安裝

將以下儲存庫與相依性加入 pom.xml

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/parser/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>25.5</version>
   </dependency>
</dependencies>

直接下載

或者,從 GroupDocs.Parser for Java releases 下載最新版本。

取得授權

先使用免費試用,或申請臨時授權以取得完整功能。正式環境請購買永久授權。

基本初始化與設定

加入函式庫後,即可開始使用其 OCR 功能。

實作指南

如何使用定義矩形的方式提取掃描 PDF 文字

針對特定區域進行 OCR 可提升速度與準確度,尤其當您只需要 read image text java 從已知區域時。

步驟 1:設定 OCR 參數

建立指向 Aspose OCR 引擎的 parser 設定:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

步驟 2:初始化 Parser

開啟要處理的文件,並傳入剛才建立的設定:

try (Parser parser = new Parser("YOUR_DOCUMENT_DIRECTORY", settings)) {
    // Proceed to define OCR area and extract text.
}

步驟 3:定義 OCR 區域

指定包住目標文字的矩形:

OcrOptions ocrOptions = new OcrOptions(new Rectangle(0, 0, 400, 200));

此矩形左上角座標為 (0,0),寬 400 px、高 200 px。

步驟 4:設定文字選項

告訴 parser 在定義的矩形內使用 OCR:

TextOptions options = new TextOptions(false, true, ocrOptions);

false 會停用語言特定限制,true 則啟用 OCR 區域。

步驟 5:提取文字

從文件中讀取 OCR 處理後的文字:

try (TextReader reader = parser.getText(options)) {
    String resultText = reader == null ? "Text extraction isn't supported" : reader.readToEnd();
    // Use extracted text as needed.
}

步驟 6:OCR 處理的錯誤處理

將整個操作包在 try‑catch 區塊中,以捕捉任何問題:

try {
    // Include main OCR processing logic here (refer to previous section).
} catch (Exception ex) {
    System.out.println("An error occurs: " + ex.getMessage());
}

即使 OCR 引擎遇到未預期的格式,也能確保應用程式保持穩定。

實務應用

  1. 發票處理 ─ 自動從掃描發票中抽取關鍵欄位。
  2. 文件數位化 ─ 將紙本檔案轉換為可搜尋的 PDF。
  3. 資料輸入自動化 ─ 透過讀取表單中的 image text java,消除手動輸入。

效能考量

  • 資源使用 ─ 需留意記憶體佔用,特別是大型 PDF。
  • Java 記憶體管理 ─ 如範例所示使用 try‑with‑resources 及時關閉串流。
  • 批次處理 ─ 如有可能,將多份文件的 OCR 並行化。

常見問題與解決方案

問題解決方案
大檔案導致記憶體不足將頁面分批處理;必要時增加 JVM 堆積大小。
OCR 準確度低調整來源影像 DPI,或在 ParserSettings 中提供語言提示。
不支援的檔案格式確認檔案為支援的影像/PDF 類型;必要時先行轉檔。

常見問答

Q: 在 Java 開發中,什麼是 OCR?
A: 光學字符辨識(OCR)透過像 GroupDocs.Parser 這類函式庫,將文字影像轉換為機器編碼的字元。

Q: 如何為 OCR 抽取定義矩形區域?
A: 使用 OcrOptions 搭配 Rectangle 物件,設定目標區域的座標與大小。

Q: OCR 處理時常見的錯誤有哪些,該如何處理?
A: 常見錯誤包括不支援的格式或設定錯誤。將 OCR 呼叫包在 try‑catch 區塊中,以記錄並優雅恢復。

Q: 可以在沒有授權的情況下使用 GroupDocs.Parser 嗎?
A: 可使用免費試用版進行評估,但正式上線必須取得授權。

Q: 如何在 Java 應用程式中最佳化 OCR 效能?
A: 注重記憶體使用、批次處理,並將 OCR 限制在必要的區域。

資源


最後更新: 2026-02-03
測試環境: GroupDocs.Parser 25.5
作者: GroupDocs