使用 GroupDocs.Viewer Java 从 PDF 中提取文本

介绍

从 PDF 中提取文本对于高效的数字文档管理至关重要。在本教程中,我们将演示如何使用 GroupDocs.Viewer Java 从 PDF 文件中无缝提取文本。

您将学到什么:

  • 为 Java 设置 GroupDocs.Viewer
  • 使用 GroupDocs.Viewer 强大的 API 提取文本
  • 处理文档中的多页和行提取
  • 优化大型 PDF 的性能

让我们从实现此功能所需的先决条件开始。

先决条件

在开始之前,请确保您已:

所需库:

  • GroupDocs.Viewer for Java:访问 25.2 或更高版本以获取基本功能。

环境设置要求:

  • 使用 Java 的开发环境(建议使用 JDK 1.8+)。
  • 安装 Maven 进行依赖管理。

知识前提:

  • 对 Java 编程有基本的了解。
  • 熟悉 Maven 是有益的,但不是强制性的。

为 Java 设置 GroupDocs.Viewer

整合 GroupDocs.查看器 使用 Maven 库开始从 PDF 中提取文本:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/viewer/java/</url>
   </repository>
</repositories>
<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-viewer</artifactId>
      <version>25.2</version>
   </dependency>
</dependencies>

许可证获取:

  • 免费试用:可用于探索 API 功能。
  • 临时执照:用于扩展测试能力。
  • 购买:商业用途所需。

基本初始化和设置

使用您的 PDF 文档路径初始化查看器对象,如下所示:

实施指南

让我们将文本提取分解为逻辑步骤:

初始化查看器对象

try (Viewer viewer = new Viewer("YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF")) {
    // 初始化完成,继续下一步。
}

这将初始化一个 Viewer 对象与您的目标 PDF 文件路径。

配置 ViewInfoOptions 以进行文本提取

ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView();
viewInfoOptions.setExtractText(true);

配置选项以启用 HTML 查看和文本提取,确保使用这些设置访问已处理的文档内容。

检索文档信息

PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions);

通过调用 getViewInfo,检索有关 PDF 页面和结构的详细信息。

遍历页面和行

for (Page page : viewInfo.getPages()) {
    for (Line line : page.getLines()) {
        System.out.println(line.getValue());
    }
}

循环遍历每一页和每一行以提取文本,以便进行进一步处理,例如将其保存到数据库。

故障排除提示:

  • 确保 PDF 文件路径正确。
  • 核实 setExtractText 如果遇到查看选项错误则启用。

实际应用

GroupDocs.Viewer 的功能远不止简单的文本提取。实际应用包括:

  1. 数据迁移:从旧的 PDF 档案中提取内容并将其迁移到现代数据库或云解决方案。
  2. 内容分析:使用提取的文本进行情感分析、关键字提取或其他见解。
  3. 文档管理系统(DMS):与 DMS 集成以实现自动文档索引和检索。

性能考虑

处理大型文档时:

  • 资源使用情况:监控内存使用情况,因为处理多个页面可能会耗费大量资源。
  • Java内存管理:管理对象生命周期 try-with-resources 有效地利用 Java 的垃圾收集功能。

结论

本指南向您展示了如何设置 GroupDocs.Viewer for Java 并高效地从 PDF 文件中提取文本。您可以探索 GroupDocs.Viewer 的其他功能,或将其与其他系统集成以实现复杂的工作流程。

常见问题解答部分

问:我可以在生产服务器上使用 GroupDocs.Viewer 吗?

- A: Yes, but ensure you have an appropriate license. A free trial is suitable only for testing purposes.

问:文本提取如何影响 PDF 元数据?

- A: Text extraction focuses on content; metadata remains intact unless explicitly modified.

问:除了 PDF 之外,GroupDocs.Viewer 还可以处理哪些文件格式?

- A: It supports a wide range of formats, including Word documents and Excel spreadsheets.

资源