將文件加入索引並在 GroupDocs.Search Java 中停用停用詞以提升搜尋精準度

您是否希望 add documents to index 同時確保不遺漏任何關鍵詞彙?本教學將指導您如何使用 GroupDocs.Search for Java 微調搜尋體驗。學會 disable stop words java 後,您將獲得更精確的搜尋查詢,並充分利用每個已索引的文件。

快速解答

  • “add documents to index” 是什麼意思? 它表示將您的來源檔案載入可搜尋的索引,以便能有效地查詢。
  • 為什麼要停用停用詞? 為了在搜尋時納入常見詞彙(例如 “on”、 “the”),當這些詞在您的領域中具有意義時。
  • 需要哪個版本的函式庫? GroupDocs.Search for Java 25.4 或更新版本。
  • 我需要授權嗎? 免費試用可用於評估;正式環境需購買永久授權。
  • 可以在 Maven 專案中使用嗎? 可以,只需加入下方的儲存庫與相依性。

“add documents to index” 在 GroupDocs.Search 中的意義

將文件加入索引即是將資料夾(或串流)中的檔案匯入搜尋引擎可快速查詢的資料結構。索引完成後,每個詞彙——包括通常被視為停用詞的詞——皆可被搜尋。

為什麼在 Java 中停用停用詞?

停用停用詞可讓每個標記皆被視為重要。這對於法律研究、電子商務商品目錄,或任何「on」或「by」等詞彙具備意義的情境都至關重要。

前置條件

  • 必要函式庫:GroupDocs.Search for Java 25.4(或更新版本)。
  • 開發環境:IntelliJ IDEA、Eclipse,或您偏好的任何 Java IDE。
  • 基礎知識:熟悉 Java 語法與索引概念。

設定 GroupDocs.Search for Java

Maven 安裝

如果您使用 Maven,請在 pom.xml 中加入以下內容:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

直接下載

亦可從 GroupDocs.Search for Java 版本發布 下載最新版本。

取得授權步驟

  • 免費試用 – 立即開始測試。
  • 臨時授權 – 取得時間限制的金鑰以獲得完整功能。
  • 購買 – 取得永久授權以供正式使用。

基本初始化與設定

建立 IndexSettings 實例以控制索引的行為:

import com.groupdocs.search.IndexSettings;

// Create an instance of IndexSettings
IndexSettings settings = new IndexSettings();

如何在 Java 中停用停用詞

以下程式碼可關閉內建的停用詞過濾器:

// Disable the use of stop words
tsettings.setUseStopWords(false);

參數setUseStopWords 接受布林值。
目的:確保每個詞彙——包括常見的停用詞——皆被索引且可搜尋。

如何將文件加入索引

定義輸出目錄

import com.groupdocs.search.Index;

// Define the path to the output directory for indexing
String indexFolder = "YOUR_OUTPUT_DIRECTORY\\IndexingWithStopWords";

// Create an index at the specified location with the configured settings
Index index = new Index(indexFolder, settings);

指定文件目錄

// Define the path to your document directory
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";

// Add all documents in the specified folder to the index
index.add(documentsFolder);

現在 YOUR_DOCUMENT_DIRECTORY 中的每個檔案皆已 add documents to index,並可供查詢。

執行搜尋查詢

import com.groupdocs.search.results.SearchResult;

// Define your search query
tString query = "on";

// Perform the search operation using the index and the specified query
SearchResult result = index.search(query);

由於已停用停用詞,搜尋時會將 "on" 這個詞納入考量,返回原本會被忽略的匹配結果。

實務應用

  1. 企業文件搜尋 – 確保關鍵術語不被過濾。
  2. 電子商務平台 – 透過索引商品說明中的每個詞彙,提升產品發現率。
  3. 法律研究工具 – 捕捉每個法律術語,即使是常被視為停用詞的詞彙。

效能考量

  • 最佳化建議:定期更新與修剪索引,以維持搜尋速度。
  • 資源使用:監控 JVM 堆積大小;大型索引可能需要調整垃圾回收設定。
  • Java 記憶體管理:使用高效資料結構,對於極大語料庫可考慮使用堆外儲存。

常見問題與解決方案

症狀可能原因解決方案
常見詞無結果setUseStopWords(true)(預設)如上所示,呼叫 setUseStopWords(false)
索引期間記憶體不足錯誤一次索引過多大型檔案分批索引檔案;增加 -Xmx JVM 參數。
搜尋返回過時資料新增檔案後未刷新索引呼叫 index.update() 或重新加入變更的文件。

常見問答

Q: 什麼是停用詞?
A: 停用詞是許多搜尋引擎為加快查詢而忽略的常見詞彙(例如 “the”、 “is”、 “on”)。停用它們即可將每個標記皆視為可搜尋。

Q: 為什麼在搜尋索引中停用停用詞?
A: 當需要精確片語匹配時——例如法律或技術文件——每個詞都有意義,必須包含停用詞。

Q: GroupDocs.Search 如何處理大型資料集?
A: 此函式庫使用最佳化的資料結構與增量索引,即使面對數百萬文件亦能保持低記憶體使用量。

Q: 我可以將 GroupDocs.Search 整合到其他 Java 應用程式嗎?
A: 可以,API 設計為易於嵌入任何基於 Java 的系統,從 Web 服務到桌面應用皆可。

Q: 若搜尋結果不夠精確該怎麼辦?
A: 確認索引已包含所有必要文件(add documents to index),如有需要請停用停用詞過濾,並在重大變更後考慮重新建構索引。

資源

透過本指南,您現在已了解如何 add documents to indexdisable stop words java,以在 Java 應用程式中提供更精確的搜尋結果。


最後更新: 2025-12-19
測試環境: GroupDocs.Search for Java 25.4
作者: GroupDocs