從 PDF Java 提取文字:使用 GroupDocs.Search 建立文件索引

在本實作指南中,您將了解 如何從 PDF Java 應用程式提取文字,並將這些原始內容轉換為快速、全文可搜尋的索引。無論您是要建置內部知識庫、合約搜尋入口網站,或是自訂搜尋引擎,以下步驟都會帶您從 PDF 取出文字、序列化資料、建立索引,最後執行查詢。讓我們一起看看 GroupDocs.Search 如何讓整個流程順暢且具擴充性。

快速回答

  • 主要目的為何? 從 PDF Java 檔案提取文字,並使用 GroupDocs.Search 建立可搜尋的文件索引。
  • 使用哪個程式庫版本? GroupDocs.Search 25.4(或最新發行版)。
  • 需要授權嗎? 開發階段可使用免費試用版;正式上線需購買正式授權。
  • 可以索引 PDF 嗎? 可以——提取 PDF 文字後加入索引。
  • 如何執行搜尋? 在加入資料後使用 index.search(query) 方法。

什麼是文件索引?

文件索引是從您的檔案中抽取出的可搜尋詞彙的結構化集合。透過建立文件索引,您可以在大型資料庫中快速執行全文搜尋,顯著提升檢索速度與準確度。

為何在 Java 中使用 GroupDocs.Search?

  • 強韌的抽取功能 – 支援 PDF、Word、Excel 等多種格式。
  • 簡易的序列化 – 可將抽取的資料儲存為位元組陣列,以便日後重複使用。
  • 可擴充的索引 – 能高效索引百萬文件。
  • 功能強大的查詢語言 – 支援複雜的全文搜尋 Java 查詢。

前置條件

  • GroupDocs.Search for Java(版本 25.4 或更新)。
  • Java Development Kit (JDK),需與您的 GroupDocs 版本相容。
  • 如 IntelliJ IDEA 或 Eclipse 等 IDE。
  • 用於相依管理的 Maven。

設定 GroupDocs.Search for Java

首先,將程式庫加入您的專案。

Maven 設定
pom.xml 檔案中加入以下內容:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

直接下載
或是從 GroupDocs.Search for Java releases 下載最新版本。

取得授權

  • 免費試用 – 使用臨時授權測試所有功能。
  • 購買授權 – 獲得完整功能與優先支援。

步驟式實作

如何從 PDF(及其他文件)提取文字

抽取原始或格式化文字是建立文件索引的第一步。當您 從 PDF Java 提取文字 時,便為搜尋引擎提供可理解的內容。

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

提示: 若需要純文字且不保留格式,請設定 setUseRawTextExtraction(true)

如何序列化抽取的資料

序列化可讓您將抽取的資料儲存起來,以便日後建立索引。

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

如何反序列化抽取的資料

當您準備好建立索引時,將位元組陣列轉回物件。

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

如何建立文件索引

取得 deserializedData 後,即可建立保存可搜尋詞彙的索引。

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

如何將資料加入索引並執行搜尋

將資料加入索引並查詢,即完成 從 PDF Java 提取文字 的完整工作流程。

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

專業提示: 使用 index.search("your query", SearchOptions) 可微調相關性排序。

常見使用情境

  1. 文件管理系統 – 快速定位合約、發票或政策文件。
  2. 內容為本的搜尋引擎 – 為內部知識庫提供全文搜尋 Java 能力。
  3. 資料封存解決方案 – 索引歷史紀錄,實現即時檢索。

效能考量

  • 記憶體管理: 為大量文件批次調整 JVM 堆積大小。
  • 索引選項: 停用不必要的功能(例如詞項向量)以加速索引。
  • 定期更新: 保持 GroupDocs.Search 為最新版本,以獲得效能修補。

常見問與答

Q: 如何有效處理極大型 PDF 檔案?
A: 使用 Extractor 以串流方式讀取,分塊處理;必要時增大 JVM 堆積。

Q: 我可以自訂搜尋查詢語法嗎?
A: 可以——GroupDocs.Search 支援布林運算子、萬用字元與相近搜尋。

Q: 若序列化失敗該怎麼辦?
A: 確認所有物件皆實作 Serializable,並捕捉 IOException 以記錄細節。

Q: 能否只索引文件的特定區段?
A: 完全可以——在索引前設定 ExtractionOptions 以過濾頁面或區段。

Q: 如何升級至較新版本的 GroupDocs.Search?
A: 在 pom.xml 中更新版本號,然後執行 mvn clean install;請參考遷移指南以了解破壞性變更。

資源


最後更新: 2026-02-19
測試環境: GroupDocs.Search 25.4 for Java
作者: GroupDocs