使用 Aspose.OCR 与 GroupDocs.Parser 在 Java 中提取图像文本

您是否在寻找一种高效的方式在 Java 应用中 从图像文件中提取文本？在数字化时代，将文档图片转换为可搜索、可编辑的文本已成为必备功能。本教程将手把手演示如何结合 Aspose.OCR 与 GroupDocs.Parser for Java，实现对扫描文档文本的可靠转换为可用字符串。

我们将覆盖从库的配置到识别特定文本区域的全部步骤，并展示该集成在实际场景中的优势。

快速答疑

哪个库负责 OCR？ Aspose.OCR 提供高精度的光学字符识别。
哪个组件解析结果？ GroupDocs.Parser 从 OCR 输出中提取结构化数据。
最低 Java 版本？ JDK 8 或更高。
是否需要许可证？ 试用版可用于测试；完整许可证解锁全部功能。
可以处理流吗？ 可以——两款库均支持图像流，用于基于 Web 的上传。

什么是 “从图像提取文本”？

从图像提取文本是指将可视字符（例如扫描页或收据照片）转换为纯文本，以便代码进行操作、搜索或存储。OCR（光学字符识别）引擎分析像素模式，识别字形，并输出 Unicode 字符串。

为什么要将 Aspose.OCR 与 GroupDocs.Parser 结合使用？

准确性： Aspose.OCR 提供业界领先的识别率。
灵活性： GroupDocs.Parser 能处理 OCR 输出，检测页面布局，并返回表格或表单字段等结构化结果。
流式友好： 两个库均直接支持 InputStream，非常适合接收图像上传的 Web 服务。

前置条件

Java 开发工具包： 已安装 JDK 8+。
Maven： 推荐的构建工具（亦可手动管理 JAR）。
Aspose OCR 库： 将 JAR 添加到项目中。
GroupDocs.Parser for Java： 通过 Maven 引入（见下文）或下载 JAR。
基本的 Java 知识： 了解流、异常和集合的处理。

为 Java 配置 GroupDocs.Parser

Maven 配置

在 pom.xml 中添加仓库和依赖：

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/parser/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>25.5</version>
   </dependency>
</dependencies>

直接下载

如果不使用 Maven，可从 GroupDocs 发布页面获取最新 JAR。

许可证获取

有效许可证可解锁 Aspose OCR 与 GroupDocs.Parser 的全部功能。您可以先使用免费试用版，随后在供应商网站购买永久许可证。

基本初始化与设置

为 Aspose OCR 设置许可证：

import com.aspose.ocr.License;

// Initialize and set the Aspose OCR license
License license = new License();
license.setLicense("YOUR_LICENSE_PATH/AsposeOcrLicensePath");

初始化 GroupDocs.Parser： 确保 parser JAR 已在类路径中；基本使用无需额外代码。

实现指南

功能：从图像流识别文本

此方法允许直接将 InputStream（例如上传的文件）传入 OCR 引擎，并获取识别后的文本。

概览

该过程将输入流转换为 BufferedImage，可选地配置识别区域，然后调用 Aspose OCR 的 RecognizePage 方法。

步骤代码

创建 AsposeOCR 实例：

import com.aspose.ocr.AsposeOCR;

AsposeOCR api = new AsposeOCR();

将图像流读取为 BufferedImage：

import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;

BufferedImage image = ImageIO.read(imageStream);

配置识别设置（可选区域选择）：

import com.aspose.ocr.RecognitionSettings;

RecognitionSettings settings = new RecognitionSettings();

// Example: limit OCR to a specific rectangle
if (options != null && options.getRectangle() != null) {
    ArrayList<Rectangle> areas = new ArrayList<>();
    areas.add(new Rectangle(
        (int) options.getRectangle().getLeft(),
        (int) options.getRectangle().getTop(),
        (int) options.getRectangle().getSize().getWidth(),
        (int) options.getRectangle().getSize().getHeight()));
    settings.setRecognitionAreas(areas);
}

执行识别并处理警告：

import com.aspose.ocr.RecognitionResult;

RecognitionResult result = api.RecognizePage(image, settings);

if (options != null && options.getHandler() != null) {
    options.getHandler().onWarnings(pageIndex, result.warnings);
}

return result.recognitionText;

功能：从图像流识别文本区域

当需要获取每个文本块（例如表单中的独立字段）时，可启用区域检测。

概览

设置 detectAreas 可让 Aspose OCR 返回每个识别片段的边界矩形，随后可映射到您的数据模型。

步骤代码

启用区域检测：

RecognitionSettings settings = new RecognitionSettings();
settings.setDetectAreas(true);

（可选）定义特定区域 – 若只关注图像的某些部分，可复用前节的矩形逻辑。

执行 OCR 并收集区域信息：

import java.awt.Rectangle;
import java.util.ArrayList;

ArrayList<PageTextArea> areas = new ArrayList<>();
for (int i = 0; i < result.recognitionAreasRectangles.size(); i++) {
    Rectangle rect = result.recognitionAreasRectangles.get(i);
    String text = result.recognitionText;

    areas.add(new PageTextArea(
        text,
        new Page(pageIndex, pageSize),
        new Rectangle(
            new Point(rect.getX(), rect.getY()),
            new Size(rect.getWidth(), rect.getHeight()))));
}

return areas;

实际应用场景

文档管理系统： 为扫描的 PDF 建立索引，使用户能够全文搜索。
自动化数据录入： 从拍摄的收据或表单中提取字段。
内容数字化： 将印刷书籍或手册转换为可搜索的电子书。

性能考虑

批量处理： 将图像分批，以降低 JVM 开销。
图像质量： 更高的 DPI（300 dpi 以上）显著提升准确率。
内存管理： 及时释放 BufferedImage 对象，尤其在处理大批量时。

常见问题与故障排除

症状	可能原因	解决方案
字符乱码	低分辨率图像	使用更高分辨率的扫描（≥300 dpi）
未返回文本	图像格式错误（如 CMYK）	在 OCR 前转换为 RGB
内存溢出	图像过大	将图像分块处理或增大堆内存

常见问答

问：如何在 Maven 项目中安装 Aspose OCR？
答：将 Aspose OCR 依赖添加到 pom.xml（参见供应商的 Maven 仓库），或从 Aspose 官网下载 JAR 并放入类路径。

问：能从多页 PDF 中提取文本吗？
答：可以。先将每页 PDF 转为图像（例如使用 Aspose.PDF），再将得到的流传入上述 OCR 方法。

问：此方法能识别手写文字吗？
答：Aspose OCR 主要针对印刷文本。若需手写识别，请考虑专门的手写识别服务。

问：生产环境是否必须购买许可证？
答：试用许可证可用于评估，但正式部署建议购买完整许可证，以去除水印并解锁全部功能。

问：如何提升特定语言的识别准确度？
答：在 RecognitionSettings 中设置语言，例如 settings.setLanguage(Language.Spanish);，以引导引擎。

结论

通过将 Aspose.OCR 强大的识别引擎与 GroupDocs.Parser 灵活的解析能力相结合，您现在拥有一套可靠的 从图像文件中提取文本 以及 将扫描文档文本转换为结构化数据 的解决方案。尝试不同设置，将代码集成到服务层，即可让文档工作流实现全文搜索与自动化。

最后更新： 2026-01-29
测试环境： Aspose.OCR 23.12，GroupDocs.Parser 25.5
作者： Aspose