使用 GroupDocs.Parser OCR 在 Java 中提取掃描 PDF 文字

在當今取掃描 PDF 文字是要數位化舊有紙本條GroupDocs.Parser 的 OCR 引擎都能提供所需工具。在本教學中，您將學會如何設定函式庫、為 OCR 定義精確的快速回答

「提取掃描 PDF 文字」是什麼意思？ 將掃描 PDF 的視覺內容轉 **哪 Aspose OCR 連接器的 GroupDocs.Parser。
**需要授權嗎測試；正式環境需購買授權。
可以限制 OCR 只在特定區域嗎？ 可以 ─ 使用帶有 Rectangle 的 OcrOptions。
錯誤處理必要嗎？ 必須；將 OCR 呼叫包在 try‑catch 區塊中以避免程式崩潰。

什麼是提取掃描 PDF 文字？

提取掃描 PDF 文字是將光學字符辨其轉換為機器可讀的文字。這使得搜尋、索引以及後續 Java 中使用 GroupDocs.Parser 進行 OCR？ GroupDocs.Parser 提供域的功能。這可減少處理時間並提升準確只需要從文件的已知區段JDK 8 或更新版本）。

GroupDocs.Parser 函式庫 ─ 透過 Maven 安裝或直接下載。
基本的 Java 知識 ─ 您應熟悉類別、try‑with‑resources 以及例外處理。

設定 GroupDocs.Parser（Java 版）

Maven 安裝

將以下儲存庫與相依性加入 pom.xml：

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/parser/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>25.5</version>
   </dependency>
</dependencies>

直接下載

或者，從 GroupDocs.Parser for Java releases 下載最新版本。

取得授權

先使用免費試用，或申請臨時授權以取得完整功能。正式環境請購買永久授權。

基本初始化與設定

加入函式庫後，即可開始使用其 OCR 功能。

實作指南

如何使用定義矩形的方式提取掃描 PDF 文字

針對特定區域進行 OCR 可提升速度與準確度，尤其當您只需要 read image text java 從已知區域時。

步驟 1：設定 OCR 參數

建立指向 Aspose OCR 引擎的 parser 設定：

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

步驟 2：初始化 Parser

開啟要處理的文件，並傳入剛才建立的設定：

try (Parser parser = new Parser("YOUR_DOCUMENT_DIRECTORY", settings)) {
    // Proceed to define OCR area and extract text.
}

步驟 3：定義 OCR 區域

指定包住目標文字的矩形：

OcrOptions ocrOptions = new OcrOptions(new Rectangle(0, 0, 400, 200));

此矩形左上角座標為 (0,0)，寬 400 px、高 200 px。

步驟 4：設定文字選項

告訴 parser 在定義的矩形內使用 OCR：

TextOptions options = new TextOptions(false, true, ocrOptions);

false 會停用語言特定限制，true 則啟用 OCR 區域。

步驟 5：提取文字

從文件中讀取 OCR 處理後的文字：

try (TextReader reader = parser.getText(options)) {
    String resultText = reader == null ? "Text extraction isn't supported" : reader.readToEnd();
    // Use extracted text as needed.
}

步驟 6：OCR 處理的錯誤處理

將整個操作包在 try‑catch 區塊中，以捕捉任何問題：

try {
    // Include main OCR processing logic here (refer to previous section).
} catch (Exception ex) {
    System.out.println("An error occurs: " + ex.getMessage());
}

即使 OCR 引擎遇到未預期的格式，也能確保應用程式保持穩定。

實務應用

發票處理 ─ 自動從掃描發票中抽取關鍵欄位。
文件數位化 ─ 將紙本檔案轉換為可搜尋的 PDF。
資料輸入自動化 ─ 透過讀取表單中的 image text java，消除手動輸入。

效能考量

資源使用 ─ 需留意記憶體佔用，特別是大型 PDF。
Java 記憶體管理 ─ 如範例所示使用 try‑with‑resources 及時關閉串流。
批次處理 ─ 如有可能，將多份文件的 OCR 並行化。

常見問題與解決方案

問題	解決方案
大檔案導致記憶體不足	將頁面分批處理；必要時增加 JVM 堆積大小。
OCR 準確度低	調整來源影像 DPI，或在 `ParserSettings` 中提供語言提示。
不支援的檔案格式	確認檔案為支援的影像/PDF 類型；必要時先行轉檔。

常見問答

Q: 在 Java 開發中，什麼是 OCR？
A: 光學字符辨識（OCR）透過像 GroupDocs.Parser 這類函式庫，將文字影像轉換為機器編碼的字元。

Q: 如何為 OCR 抽取定義矩形區域？
A: 使用 OcrOptions 搭配 Rectangle 物件，設定目標區域的座標與大小。

Q: OCR 處理時常見的錯誤有哪些，該如何處理？
A: 常見錯誤包括不支援的格式或設定錯誤。將 OCR 呼叫包在 try‑catch 區塊中，以記錄並優雅恢復。

Q: 可以在沒有授權的情況下使用 GroupDocs.Parser 嗎？
A: 可使用免費試用版進行評估，但正式上線必須取得授權。

Q: 如何在 Java 應用程式中最佳化 OCR 效能？
A: 注重記憶體使用、批次處理，並將 OCR 限制在必要的區域。

資源

文件說明： GroupDocs.Parser Documentation
API 參考： API Reference Guide
下載： Latest Releases
GitHub 倉庫： GroupDocs.Parser GitHub
免費支援： GroupDocs Forum
臨時授權： Obtain a Temporary License

最後更新： 2026-02-03
測試環境： GroupDocs.Parser 25.5
作者： GroupDocs