使用 GroupDocs.Viewer Java 从 PDF 中提取文本

介绍

从 PDF 中提取文本对于高效的数字文档管理至关重要。在本教程中，我们将演示如何使用 GroupDocs.Viewer Java 从 PDF 文件中无缝提取文本。

您将学到什么：

为 Java 设置 GroupDocs.Viewer
使用 GroupDocs.Viewer 强大的 API 提取文本
处理文档中的多页和行提取
优化大型 PDF 的性能

让我们从实现此功能所需的先决条件开始。

先决条件

在开始之前，请确保您已：

所需库：

GroupDocs.Viewer for Java：访问 25.2 或更高版本以获取基本功能。

环境设置要求：

使用 Java 的开发环境（建议使用 JDK 1.8+）。
安装 Maven 进行依赖管理。

知识前提：

对 Java 编程有基本的了解。
熟悉 Maven 是有益的，但不是强制性的。

为 Java 设置 GroupDocs.Viewer

整合 GroupDocs.查看器 使用 Maven 库开始从 PDF 中提取文本：

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/viewer/java/</url>
   </repository>
</repositories>
<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-viewer</artifactId>
      <version>25.2</version>
   </dependency>
</dependencies>

许可证获取：

免费试用：可用于探索 API 功能。
临时执照：用于扩展测试能力。
购买：商业用途所需。

基本初始化和设置

使用您的 PDF 文档路径初始化查看器对象，如下所示：

实施指南

让我们将文本提取分解为逻辑步骤：

初始化查看器对象

try (Viewer viewer = new Viewer("YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF")) {
    // 初始化完成，继续下一步。
}

这将初始化一个 Viewer 对象与您的目标 PDF 文件路径。

配置 ViewInfoOptions 以进行文本提取

ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView();
viewInfoOptions.setExtractText(true);

配置选项以启用 HTML 查看和文本提取，确保使用这些设置访问已处理的文档内容。

检索文档信息

PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions);

通过调用 getViewInfo，检索有关 PDF 页面和结构的详细信息。

遍历页面和行

for (Page page : viewInfo.getPages()) {
    for (Line line : page.getLines()) {
        System.out.println(line.getValue());
    }
}

循环遍历每一页和每一行以提取文本，以便进行进一步处理，例如将其保存到数据库。

故障排除提示：

确保 PDF 文件路径正确。
核实 setExtractText 如果遇到查看选项错误则启用。

实际应用

GroupDocs.Viewer 的功能远不止简单的文本提取。实际应用包括：

数据迁移：从旧的 PDF 档案中提取内容并将其迁移到现代数据库或云解决方案。
内容分析：使用提取的文本进行情感分析、关键字提取或其他见解。
文档管理系统（DMS）：与 DMS 集成以实现自动文档索引和检索。

性能考虑

处理大型文档时：

资源使用情况：监控内存使用情况，因为处理多个页面可能会耗费大量资源。
Java内存管理：管理对象生命周期 try-with-resources 有效地利用 Java 的垃圾收集功能。

结论

本指南向您展示了如何设置 GroupDocs.Viewer for Java 并高效地从 PDF 文件中提取文本。您可以探索 GroupDocs.Viewer 的其他功能，或将其与其他系统集成以实现复杂的工作流程。

常见问题解答部分

问：我可以在生产服务器上使用 GroupDocs.Viewer 吗？

- A: Yes, but ensure you have an appropriate license. A free trial is suitable only for testing purposes.

问：文本提取如何影响 PDF 元数据？

- A: Text extraction focuses on content; metadata remains intact unless explicitly modified.

问：除了 PDF 之外，GroupDocs.Viewer 还可以处理哪些文件格式？

- A: It supports a wide range of formats, including Word documents and Excel spreadsheets.

资源

文档
API 参考
下载
购买
免费试用
临时执照
支持论坛我们希望本指南能够帮助您在项目中使用 GroupDocs.Viewer for Java。祝您编码愉快！