使用 GroupDocs.Viewer Java 從 PDF 中提取文本

介紹

從 PDF 中提取文字對於高效的數位文件管理至關重要。在本教程中，我們將示範如何使用 GroupDocs.Viewer Java 從 PDF 檔案中無縫提取文字。

您將學到什麼：

為 Java 設定 GroupDocs.Viewer
使用 GroupDocs.Viewer 強大的 API 提取文本
處理文件中的多頁和行提取
優化大型 PDF 的效能

讓我們從實現此功能所需的先決條件開始。

先決條件

在開始之前，請確保您已：

所需庫：

GroupDocs.Viewer for Java：請造訪 25.2 或更高版本以取得基本功能。

環境設定要求：

使用 Java 的開發環境（建議使用 JDK 1.8+）。
安裝 Maven 進行依賴管理。

知識前提：

對 Java 程式設計有基本的了解。
熟悉 Maven 是有益的，但不是強制性的。

為 Java 設定 GroupDocs.Viewer

整合 GroupDocs.檢視器 使用 Maven 庫開始從 PDF 中提取文字：

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/viewer/java/</url>
   </repository>
</repositories>
<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-viewer</artifactId>
      <version>25.2</version>
   </dependency>
</dependencies>

許可證取得：

免費試用：可用於探索 API 功能。
臨時執照：用於擴展測試能力。
購買：商業用途所需。

基本初始化和設定

使用您的 PDF 文件路徑初始化檢視器對象，如下所示：

實施指南

讓我們將文字擷取分解為邏輯步驟：

初始化檢視器對象

try (Viewer viewer = new Viewer("YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF")) {
    // 初始化完成，繼續下一步。
}

這將初始化一個 Viewer 物件與您的目標 PDF 檔案路徑。

配置 ViewInfoOptions 以進行文字擷取

ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView();
viewInfoOptions.setExtractText(true);

配置選項以啟用 HTML 檢視和文字擷取，確保使用這些設定存取已處理的文件內容。

檢索文件資訊

PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions);

透過調用 getViewInfo，檢索有關 PDF 頁面和結構的詳細資訊。

遍歷頁面和行

for (Page page : viewInfo.getPages()) {
    for (Line line : page.getLines()) {
        System.out.println(line.getValue());
    }
}

循環遍歷每一頁和每一行以提取文本，以便進行進一步處理，例如將其保存到資料庫。

故障排除提示：

確保 PDF 檔案路徑正確。
核實 setExtractText 如果遇到查看選項錯誤則啟用。

實際應用

GroupDocs.Viewer 的功能遠遠超過簡單的文字擷取。實際應用包括：

資料遷移：從舊的 PDF 檔案中提取內容並將其遷移到現代資料庫或雲端解決方案。
內容分析：使用提取的文字進行情緒分析、關鍵字提取或其他見解。
文件管理系統（DMS）：與 DMS 整合以實現自動文件索引和檢索。

性能考慮

處理大型文件時：

資源使用情況：監控記憶體使用情況，因為處理多個頁面可能會耗費大量資源。
Java記憶體管理：管理物件生命週期 try-with-resources 有效利用 Java 的垃圾收集功能。

結論

本指南向您展示如何設定 GroupDocs.Viewer for Java 並有效率地從 PDF 文件中提取文字。您可以探索 GroupDocs.Viewer 的其他功能，或將其與其他系統整合以實現複雜的工作流程。

常見問題部分

Q：我可以在生產伺服器上使用 GroupDocs.Viewer 嗎？

- A: Yes, but ensure you have an appropriate license. A free trial is suitable only for testing purposes.

Q：文字擷取如何影響 PDF 元資料？

- A: Text extraction focuses on content; metadata remains intact unless explicitly modified.

Q：除了 PDF 之外，GroupDocs.Viewer 還可以處理哪些文件格式？

- A: It supports a wide range of formats, including Word documents and Excel spreadsheets.

資源

文件
API 參考
下載
購買
免費試用
臨時執照
支援論壇我們希望本指南能夠幫助您在專案中使用 GroupDocs.Viewer for Java。祝您編碼愉快！