使用 GroupDocs.Search for Java 建立文件索引：完整指南

在當今的數位時代，能夠快速 create document index 並高效搜尋，對任何組織而言都是顛覆性的。無論您是構建文件管理系統或自訂搜尋引擎，GroupDocs.Search for Java 都提供了提取文字、序列化資料以及輕鬆執行 full‑text search Java 操作的工具。本教學將逐步說明每個步驟——從提取 PDF 文字到將資料加入索引，再到搜尋已索引的文件。

快速解答

主要目的為何？ 使用 GroupDocs.Search for Java 建立可搜尋的文件索引。
使用哪個函式庫版本？ GroupDocs.Search 25.4 (or the latest release)。
是否需要授權？ A free trial works for development; a full license is required for production。
可以索引 PDF 嗎？ Yes—extract pdf text and add it to the index。
如何執行搜尋？ Use the index.search(query) method after adding data。

什麼是文件索引？

文件索引是一個從檔案中提取的可搜尋詞彙的結構化集合。透過建立文件索引，您可以在大型資料庫中快速執行 full‑text searches，顯著提升檢索速度與準確度。

為何使用 GroupDocs.Search for Java？

強大的抽取 – 支援 PDF、Word、Excel 等多種格式。
簡易序列化 – 將抽取的資料儲存為位元組陣列，以便日後重用。
可擴充的索引 – 高效索引數百萬份文件。
強大的查詢語言 – 支援複雜的 full‑text search Java 查詢。

前置條件

GroupDocs.Search for Java（版本 25.4 或更新）。
Java Development Kit (JDK) 與您的 GroupDocs 版本相容。
如 IntelliJ IDEA 或 Eclipse 等 IDE。
用於相依管理的 Maven。

設定 GroupDocs.Search for Java

首先，將函式庫加入您的專案。

Maven 設定
在您的 pom.xml 檔案中加入以下內容：

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

直接下載
或是從 GroupDocs.Search for Java releases 下載最新版本。

取得授權

免費試用 – 使用臨時授權測試所有功能。
購買 – 獲得完整存取權與優先支援。

步驟實作

如何從 PDF（及其他文件）抽取文字

抽取原始或格式化文字是建立文件索引的第一步。

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);

ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

提示： 若需要純文字且不含格式，請設定 setUseRawTextExtraction(true)。

如何序列化抽取的資料

序列化可讓您將抽取的資料儲存起來，以便日後索引。

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

如何反序列化抽取的資料

當您準備好建立索引時，將位元組陣列轉回物件。

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

如何建立文件索引

現在您已擁有 deserializedData，即可建立用來保存可搜尋詞彙的索引。

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

如何將資料加入索引並執行搜尋

將資料加入索引並查詢索引，即完成 create document index 工作流程。

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());

String query = "ipsum";
SearchResult result = index.search(query);

進階提示： 使用 index.search("your query", SearchOptions) 以微調相關性排名。

常見使用情境

文件管理系統 – 快速定位合約、發票或政策文件。
內容導向搜尋引擎 – 以 full‑text search Java 功能為內部知識庫提供動力。
資料歸檔解決方案 – 索引歷史紀錄，以即時檢索。

效能考量

記憶體管理： 為大量文件批次調整 JVM 堆積大小。
索引選項： 停用不必要的功能（例如 term vectors）以加速索引。
定期更新： 保持 GroupDocs.Search 為最新版本，以獲得效能修補。

常見問與答

Q: 如何有效處理非常大的 PDF 檔案？
A: 使用 Extractor 串流檔案並分塊處理；必要時亦可增加 JVM 堆積。

Q: 我可以自訂搜尋查詢語法嗎？
A: 可以——GroupDocs.Search 支援布林運算子、萬用字元與相近搜尋。

Q: 若序列化失敗該怎麼辦？
A: 確認所有物件皆實作 Serializable，並捕捉 IOException 以記錄細節。

Q: 能否只索引文件的特定部分？
A: 完全可以——在索引前設定 ExtractionOptions 以過濾頁面或章節。

Q: 如何升級至較新版本的 GroupDocs.Search？
A: 在 pom.xml 中更新版本號，然後執行 mvn clean install；請檢視遷移指南以了解破壞性變更。

資源

文件說明: GroupDocs Documentation
API 參考: GroupDocs API Reference
下載: GroupDocs Downloads
GitHub: GroupDocs GitHub Repository
免費支援: GroupDocs Forum
臨時授權: Obtain a Temporary License

最後更新： 2025-12-18
測試環境： GroupDocs.Search 25.4 for Java
作者： GroupDocs