Java Full Text Search: Vytvoření indexu pomocí GroupDocs.Search

V dnešních aplikacích řízených daty je java full text search páteří každého systému, který potřebuje rychle najít informace v rozsáhlých kolekcích dokumentů. Využitím GroupDocs.Search for Java můžete vytvořit výkonný vyhledávací index, doladit abecední slovník a výrazně zlepšit relevanci vašich dotazů při search documents java. Tento průvodce vás provede každým krokem – od nastavení knihovny po přizpůsobení zpracování znaků – abyste mohli ve svých Java projektech poskytovat rychlé a přesné výsledky vyhledávání.

Rychlé odpovědi

  • What is “java full text search”? Je to proces vytváření indexu, který umožňuje rychlé textové dotazy napříč mnoha soubory v Java aplikaci.
  • Which library handles this out‑of‑the‑box? GroupDocs.Search for Java poskytuje připravené indexování, správu slovníku a provádění dotazů.
  • Do I need a license? Bezplatná zkušební verze je ideální pro hodnocení; pro produkční nasazení je vyžadována plná licence.
  • Can I customize character handling? Rozhodně – použijte abecední slovník k definování vlastních typů znaků.
  • Is Maven mandatory? Maven usnadňuje správu závislostí, ale můžete také stáhnout JAR přímo.

Co je java full text search a proč spravovat abecední slovník?

Index java full text search ukládá tokenizované reprezentace vašich dokumentů, což umožňuje okamžité vyhledávání slov nebo frází. Abecední slovník říká enginu, jak zacházet s každým znakem (písmeno, číslice, symbol), což přímo ovlivňuje tokenizaci a relevanci vyhledávání – zejména pro speciální symboly nebo jazykově specifická pravidla.

  • Speed: Indexy jsou uloženy na disku a načítány efektivně, což poskytuje dotazy pod sekundu.
  • Flexibility: Plná kontrola nad typy znaků vám umožní zpracovávat pomlčky, apostrofy nebo ne‑latinské skripty.
  • Scalability: Funguje s tisíci dokumenty bez ztráty výkonu.
  • Ease of Integration: Jednoduché nastavení pomocí Maven nebo přímého stažení vás rychle uvede do provozu.

Prerequisites

Požadované knihovny, verze a závislosti

  • GroupDocs.Search for Java (nejnovější vydání).
  • Základní znalost vývoje v Javě.

Požadavky na nastavení prostředí

Ujistěte se, že máte prostředí kompatibilní s Mavenem. Pokud Maven ještě není nainstalován, stáhněte jej z oficiální stránky: Apache Maven.

Předpoklady znalostí

Znalost syntaxe Javy a práce se soubory vám pomůže, ale níže uvedený krok‑za‑krokem průvodce pokrývá vše, co potřebujete.

Nastavení GroupDocs.Search pro Java

Maven konfigurace

Přidejte úložiště a závislost do souboru pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Přímé stažení

Pokud raději nepoužíváte Maven, stáhněte nejnovější JAR z oficiální stránky vydání: GroupDocs.Search for Java releases.

Kroky získání licence

  1. Free Trial – Začněte s trial verzí a prozkoumejte všechny funkce.
  2. Temporary License – Požádejte o dočasný klíč pro rozšířené testování.
  3. Full License – Zakupte produkční licenci pro neomezené použití.

Základní inicializace a nastavení

Vytvořte instanci Index, která ukazuje na složku, kde bude uložen vyhledávací index:

import com.groupdocs.search.*;

public class SearchIndexSetup {
    public static void main(String[] args) {
        String indexFolder = "YOUR_DOCUMENT_DIRECTORY\\Index";
        Index index = new Index(indexFolder);
    }
}

Průvodce implementací

Níže je kompletní průvodce nejčastějšími operacemi, které provedete při vytváření řešení java full text search.

Vytvoření nebo otevření indexu

Inicializujte nový index nebo otevřete existující:

import com.groupdocs.search.*;

String indexFolder = "YOUR_DOCUMENT_DIRECTORY\\Index";
Index index = new Index(indexFolder);
  • Parameters: indexFolder – cesta, kde jsou uloženy soubory indexu.
  • Purpose: Nastavuje vyhledávací prostředí pro následné indexování a dotazování.

Export abecedního slovníku do souboru

Uložte aktuální abecední slovník, abyste jej mohli později znovu použít nebo analyzovat:

import com.groupdocs.search.dictionaries.*;

String fileName = "YOUR_OUTPUT_DIRECTORY\\Alphabet.dat";
index.getDictionaries().getAlphabet().exportDictionary(fileName);
  • Parameters: fileName – cílový soubor pro exportovaný slovník.

Vymazání abecedního slovníku

Resetujte slovník do výchozího stavu před aplikací vlastních pravidel:

import com.groupdocs.search.dictionaries.*;

if (index.getDictionaries().getAlphabet().getCount() > 0) {
    index.getDictionaries().getAlphabet().clear();
}
  • Purpose: Odstraňuje všechny dříve definované typy znaků.

Import abecedního slovníku ze souboru

Obnovte dříve uloženou konfiguraci slovníku:

import com.groupdocs.search.dictionaries.*;

index.getDictionaries().getAlphabet().importDictionary(fileName);
  • Parameters: fileName – cesta k souboru .dat obsahujícímu slovník.

Nastavení typu znaku v abecedním slovníku

Přizpůsobte, jak jsou konkrétní znaky zpracovány během tokenizace:

import com.groupdocs.search.dictionaries.*;

if (index.getDictionaries().getAlphabet().getCharacterType('-') != CharacterType.Blended) {
    index.getDictionaries().getAlphabet().setRange(new char[] { '-' }, CharacterType.Blended);
}
  • Parameters: Znak ('-') a jeho nový CharacterType (např. Blended).
  • Why it matters: Úprava typů znaků zlepšuje relevanci vyhledávání pro hyphenované výrazy, ID nebo vlastní symboly.

Indexování dokumentů ze složky

Přidejte všechny soubory ze složky do vyhledávacího indexu:

import com.groupdocs.search.*;

String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder);
  • Parameters: documentsFolder – složka obsahující dokumenty, které chcete indexovat.

Vyhledávání v indexu

Proveďte dotaz a získejte odpovídající výsledky:

import com.groupdocs.search.results.*;

String query = "Elliot-Murray-Kynynmound";
SearchResult result = index.search(query);
  • Parameters: query – text, který hledáte.
  • Result: Objekt SearchResult obsahující nalezené dokumenty a úryvky.
  • Content Management Systems (CMS): Zrychlete vyhledávání článků a aktiv.
  • Legal Document Repositories: Rychle najděte klauzule nebo odkazy na případy.
  • Research Libraries: Indexujte tisíce prací pro okamžité vyhledávání klíčových slov.
  • E‑commerce Catalogs: Vylepšete vyhledávání produktů pomocí vlastní tokenizace.
  • Customer Support Portals: Umožněte agentům rychle najít relevantní tickety nebo články znalostní báze.

Úvahy o výkonu

  • Incremental Updates: Re‑indexujte pouze nové nebo změněné soubory, aby byl index aktuální bez úplného přestavování.
  • Query Optimization: Udržujte dotazy stručné; vyhýbejte se příliš obecným vyhledáváním s hvězdičkou.
  • Resource Monitoring: Sledujte využití paměti během velkého dávkového indexování – v případě potřeby upravte velikost haldy JVM.
  • Dictionary Size: Exportujte/importujte abecední slovník jen při jeho úpravě; zbytečné I/O může zpomalit start.

Často kladené otázky

Q: What are the prerequisites for using GroupDocs.Search?
A: Nainstalujte Javu, Maven (nebo stáhněte JAR) a přidejte závislost GroupDocs.Search.

Q: How do I obtain a license for production use?
A: Začněte s bezplatnou zkušební verzí, požádejte o dočasný klíč pro rozšířené testování a poté zakupte plnou licenci z portálu GroupDocs.

Q: Can I customize character types in the alphabet dictionary?
A: Ano – použijte setRange k přiřazení vlastních hodnot CharacterType libovolnému znaku nebo rozsahu.

Q: Is it possible to export and import the alphabet dictionary?
A: Rozhodně – použijte metody exportDictionary a importDictionary k uložení nebo sdílení konfigurací slovníku.

Q: Which version was this guide tested with?
A: Příklady byly ověřeny s GroupDocs.Search for Java verze 25.4.


Last Updated: 2026-02-21
Tested With: GroupDocs.Search for Java 25.4
Author: GroupDocs