使用 GroupDocs.Viewer Java 從 PDF 中提取文本
介紹
從 PDF 中提取文字對於高效的數位文件管理至關重要。在本教程中,我們將示範如何使用 GroupDocs.Viewer Java 從 PDF 檔案中無縫提取文字。
您將學到什麼:
- 為 Java 設定 GroupDocs.Viewer
- 使用 GroupDocs.Viewer 強大的 API 提取文本
- 處理文件中的多頁和行提取
- 優化大型 PDF 的效能
讓我們從實現此功能所需的先決條件開始。
先決條件
在開始之前,請確保您已:
所需庫:
- GroupDocs.Viewer for Java:請造訪 25.2 或更高版本以取得基本功能。
環境設定要求:
- 使用 Java 的開發環境(建議使用 JDK 1.8+)。
- 安裝 Maven 進行依賴管理。
知識前提:
- 對 Java 程式設計有基本的了解。
- 熟悉 Maven 是有益的,但不是強制性的。
為 Java 設定 GroupDocs.Viewer
整合 GroupDocs.檢視器 使用 Maven 庫開始從 PDF 中提取文字:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/viewer/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-viewer</artifactId>
<version>25.2</version>
</dependency>
</dependencies>
許可證取得:
- 免費試用:可用於探索 API 功能。
- 臨時執照:用於擴展測試能力。
- 購買:商業用途所需。
基本初始化和設定
使用您的 PDF 文件路徑初始化檢視器對象,如下所示:
實施指南
讓我們將文字擷取分解為邏輯步驟:
初始化檢視器對象
try (Viewer viewer = new Viewer("YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF")) {
// 初始化完成,繼續下一步。
}
這將初始化一個 Viewer
物件與您的目標 PDF 檔案路徑。
配置 ViewInfoOptions 以進行文字擷取
ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView();
viewInfoOptions.setExtractText(true);
配置選項以啟用 HTML 檢視和文字擷取,確保使用這些設定存取已處理的文件內容。
檢索文件資訊
PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions);
透過調用 getViewInfo
,檢索有關 PDF 頁面和結構的詳細資訊。
遍歷頁面和行
for (Page page : viewInfo.getPages()) {
for (Line line : page.getLines()) {
System.out.println(line.getValue());
}
}
循環遍歷每一頁和每一行以提取文本,以便進行進一步處理,例如將其保存到資料庫。
故障排除提示:
- 確保 PDF 檔案路徑正確。
- 核實
setExtractText
如果遇到查看選項錯誤則啟用。
實際應用
GroupDocs.Viewer 的功能遠遠超過簡單的文字擷取。實際應用包括:
- 資料遷移:從舊的 PDF 檔案中提取內容並將其遷移到現代資料庫或雲端解決方案。
- 內容分析:使用提取的文字進行情緒分析、關鍵字提取或其他見解。
- 文件管理系統(DMS):與 DMS 整合以實現自動文件索引和檢索。
性能考慮
處理大型文件時:
- 資源使用情況:監控記憶體使用情況,因為處理多個頁面可能會耗費大量資源。
- Java記憶體管理:管理物件生命週期
try-with-resources
有效利用 Java 的垃圾收集功能。
結論
本指南向您展示如何設定 GroupDocs.Viewer for Java 並有效率地從 PDF 文件中提取文字。您可以探索 GroupDocs.Viewer 的其他功能,或將其與其他系統整合以實現複雜的工作流程。
常見問題部分
Q:我可以在生產伺服器上使用 GroupDocs.Viewer 嗎?
- A: Yes, but ensure you have an appropriate license. A free trial is suitable only for testing purposes.
Q:文字擷取如何影響 PDF 元資料?
- A: Text extraction focuses on content; metadata remains intact unless explicitly modified.
Q:除了 PDF 之外,GroupDocs.Viewer 還可以處理哪些文件格式?
- A: It supports a wide range of formats, including Word documents and Excel spreadsheets.