使用 GroupDocs.Parser OCR 在 Java 中提取掃描 PDF 文字
在當今取掃描 PDF 文字是要數位化舊有紙本條GroupDocs.Parser 的 OCR 引擎都能提供所需工具。在本教學中,您將學會如何設定函式庫、為 OCR 定義精確的 快速回答
- 「提取掃描 PDF 文字」是什麼意思? 將掃描 PDF 的視覺內容轉 **哪 Aspose OCR 連接器的 GroupDocs.Parser。
- **需要授權嗎測試;正式環境需購買授權。
- 可以限制 OCR 只在特定區域嗎? 可以 ─ 使用帶有
Rectangle的OcrOptions。 - 錯誤處理必要嗎? 必須;將 OCR 呼叫包在 try‑catch 區塊中以避免程式崩潰。
什麼是提取掃描 PDF 文字?
提取掃描 PDF 文字是將光學字符辨其轉換為機器可讀的文字。這使得搜尋、索引以及後續 Java 中使用 GroupDocs.Parser 進行 OCR? GroupDocs.Parser 提供域的功能。這可減少處理時間並提升準確只需要從文件的已知區段JDK 8 或更新版本)。
- GroupDocs.Parser 函式庫 ─ 透過 Maven 安裝或直接下載。
- 基本的 Java 知識 ─ 您應熟悉類別、try‑with‑resources 以及例外處理。
設定 GroupDocs.Parser(Java 版)
Maven 安裝
將以下儲存庫與相依性加入 pom.xml:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/parser/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>25.5</version>
</dependency>
</dependencies>
直接下載
或者,從 GroupDocs.Parser for Java releases 下載最新版本。
取得授權
先使用免費試用,或申請臨時授權以取得完整功能。正式環境請購買永久授權。
基本初始化與設定
加入函式庫後,即可開始使用其 OCR 功能。
實作指南
如何使用定義矩形的方式提取掃描 PDF 文字
針對特定區域進行 OCR 可提升速度與準確度,尤其當您只需要 read image text java 從已知區域時。
步驟 1:設定 OCR 參數
建立指向 Aspose OCR 引擎的 parser 設定:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
步驟 2:初始化 Parser
開啟要處理的文件,並傳入剛才建立的設定:
try (Parser parser = new Parser("YOUR_DOCUMENT_DIRECTORY", settings)) {
// Proceed to define OCR area and extract text.
}
步驟 3:定義 OCR 區域
指定包住目標文字的矩形:
OcrOptions ocrOptions = new OcrOptions(new Rectangle(0, 0, 400, 200));
此矩形左上角座標為 (0,0),寬 400 px、高 200 px。
步驟 4:設定文字選項
告訴 parser 在定義的矩形內使用 OCR:
TextOptions options = new TextOptions(false, true, ocrOptions);
false 會停用語言特定限制,true 則啟用 OCR 區域。
步驟 5:提取文字
從文件中讀取 OCR 處理後的文字:
try (TextReader reader = parser.getText(options)) {
String resultText = reader == null ? "Text extraction isn't supported" : reader.readToEnd();
// Use extracted text as needed.
}
步驟 6:OCR 處理的錯誤處理
將整個操作包在 try‑catch 區塊中,以捕捉任何問題:
try {
// Include main OCR processing logic here (refer to previous section).
} catch (Exception ex) {
System.out.println("An error occurs: " + ex.getMessage());
}
即使 OCR 引擎遇到未預期的格式,也能確保應用程式保持穩定。
實務應用
- 發票處理 ─ 自動從掃描發票中抽取關鍵欄位。
- 文件數位化 ─ 將紙本檔案轉換為可搜尋的 PDF。
- 資料輸入自動化 ─ 透過讀取表單中的 image text java,消除手動輸入。
效能考量
- 資源使用 ─ 需留意記憶體佔用,特別是大型 PDF。
- Java 記憶體管理 ─ 如範例所示使用 try‑with‑resources 及時關閉串流。
- 批次處理 ─ 如有可能,將多份文件的 OCR 並行化。
常見問題與解決方案
| 問題 | 解決方案 |
|---|---|
| 大檔案導致記憶體不足 | 將頁面分批處理;必要時增加 JVM 堆積大小。 |
| OCR 準確度低 | 調整來源影像 DPI,或在 ParserSettings 中提供語言提示。 |
| 不支援的檔案格式 | 確認檔案為支援的影像/PDF 類型;必要時先行轉檔。 |
常見問答
Q: 在 Java 開發中,什麼是 OCR?
A: 光學字符辨識(OCR)透過像 GroupDocs.Parser 這類函式庫,將文字影像轉換為機器編碼的字元。
Q: 如何為 OCR 抽取定義矩形區域?
A: 使用 OcrOptions 搭配 Rectangle 物件,設定目標區域的座標與大小。
Q: OCR 處理時常見的錯誤有哪些,該如何處理?
A: 常見錯誤包括不支援的格式或設定錯誤。將 OCR 呼叫包在 try‑catch 區塊中,以記錄並優雅恢復。
Q: 可以在沒有授權的情況下使用 GroupDocs.Parser 嗎?
A: 可使用免費試用版進行評估,但正式上線必須取得授權。
Q: 如何在 Java 應用程式中最佳化 OCR 效能?
A: 注重記憶體使用、批次處理,並將 OCR 限制在必要的區域。
資源
- 文件說明: GroupDocs.Parser Documentation
- API 參考: API Reference Guide
- 下載: Latest Releases
- GitHub 倉庫: GroupDocs.Parser GitHub
- 免費支援: GroupDocs Forum
- 臨時授權: Obtain a Temporary License
最後更新: 2026-02-03
測試環境: GroupDocs.Parser 25.5
作者: GroupDocs