使用 GroupDocs.Viewer Java 從 PDF 中提取文本

介紹

從 PDF 中提取文字對於高效的數位文件管理至關重要。在本教程中,我們將示範如何使用 GroupDocs.Viewer Java 從 PDF 檔案中無縫提取文字。

您將學到什麼:

  • 為 Java 設定 GroupDocs.Viewer
  • 使用 GroupDocs.Viewer 強大的 API 提取文本
  • 處理文件中的多頁和行提取
  • 優化大型 PDF 的效能

讓我們從實現此功能所需的先決條件開始。

先決條件

在開始之前,請確保您已:

所需庫:

  • GroupDocs.Viewer for Java:請造訪 25.2 或更高版本以取得基本功能。

環境設定要求:

  • 使用 Java 的開發環境(建議使用 JDK 1.8+)。
  • 安裝 Maven 進行依賴管理。

知識前提:

  • 對 Java 程式設計有基本的了解。
  • 熟悉 Maven 是有益的,但不是強制性的。

為 Java 設定 GroupDocs.Viewer

整合 GroupDocs.檢視器 使用 Maven 庫開始從 PDF 中提取文字:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/viewer/java/</url>
   </repository>
</repositories>
<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-viewer</artifactId>
      <version>25.2</version>
   </dependency>
</dependencies>

許可證取得:

  • 免費試用:可用於探索 API 功能。
  • 臨時執照:用於擴展測試能力。
  • 購買:商業用途所需。

基本初始化和設定

使用您的 PDF 文件路徑初始化檢視器對象,如下所示:

實施指南

讓我們將文字擷取分解為邏輯步驟:

初始化檢視器對象

try (Viewer viewer = new Viewer("YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF")) {
    // 初始化完成,繼續下一步。
}

這將初始化一個 Viewer 物件與您的目標 PDF 檔案路徑。

配置 ViewInfoOptions 以進行文字擷取

ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView();
viewInfoOptions.setExtractText(true);

配置選項以啟用 HTML 檢視和文字擷取,確保使用這些設定存取已處理的文件內容。

檢索文件資訊

PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions);

透過調用 getViewInfo,檢索有關 PDF 頁面和結構的詳細資訊。

遍歷頁面和行

for (Page page : viewInfo.getPages()) {
    for (Line line : page.getLines()) {
        System.out.println(line.getValue());
    }
}

循環遍歷每一頁和每一行以提取文本,以便進行進一步處理,例如將其保存到資料庫。

故障排除提示:

  • 確保 PDF 檔案路徑正確。
  • 核實 setExtractText 如果遇到查看選項錯誤則啟用。

實際應用

GroupDocs.Viewer 的功能遠遠超過簡單的文字擷取。實際應用包括:

  1. 資料遷移:從舊的 PDF 檔案中提取內容並將其遷移到現代資料庫或雲端解決方案。
  2. 內容分析:使用提取的文字進行情緒分析、關鍵字提取或其他見解。
  3. 文件管理系統(DMS):與 DMS 整合以實現自動文件索引和檢索。

性能考慮

處理大型文件時:

  • 資源使用情況:監控記憶體使用情況,因為處理多個頁面可能會耗費大量資源。
  • Java記憶體管理:管理物件生命週期 try-with-resources 有效利用 Java 的垃圾收集功能。

結論

本指南向您展示如何設定 GroupDocs.Viewer for Java 並有效率地從 PDF 文件中提取文字。您可以探索 GroupDocs.Viewer 的其他功能,或將其與其他系統整合以實現複雜的工作流程。

常見問題部分

Q:我可以在生產伺服器上使用 GroupDocs.Viewer 嗎?

- A: Yes, but ensure you have an appropriate license. A free trial is suitable only for testing purposes.

Q:文字擷取如何影響 PDF 元資料?

- A: Text extraction focuses on content; metadata remains intact unless explicitly modified.

Q:除了 PDF 之外,GroupDocs.Viewer 還可以處理哪些文件格式?

- A: It supports a wide range of formats, including Word documents and Excel spreadsheets.

資源