Stop Words in Search: Add Documents to Index with GroupDocs.Search Java

Wenn Sie Dokumente zum Index hinzufügen möchten, während Sie sicherstellen, dass kein wichtiger Begriff – insbesondere häufige – ignoriert wird, sind Sie hier genau richtig. In diesem Leitfaden zeigen wir Ihnen, wie Sie Stop‑Words in der Suche deaktivieren können, indem Sie GroupDocs.Search für Java verwenden, sodass jedes Token (auch „on“, „by“ oder „the“) durchsuchbar wird und Ihre Ergebnisse deutlich genauer sind.

Quick Answers

  • Was bedeutet „add documents to index“? Es bedeutet, Ihre Quelldateien in einen durchsuchbaren Index zu laden, damit sie effizient abgefragt werden können.
  • Warum sollte ich Stop‑Words deaktivieren? Um gängige Wörter (z. B. „on“, „the“) in die Suche einzubeziehen, wenn diese Begriffe für Ihre Domäne bedeutungsvoll sind.
  • Welche Bibliotheksversion ist erforderlich? GroupDocs.Search für Java 25.4 oder neuer.
  • Benötige ich eine Lizenz? Eine kostenlose Testversion reicht für die Evaluierung; für den Produktionseinsatz ist eine permanente Lizenz erforderlich.
  • Kann ich das in einem Maven‑Projekt verwenden? Ja – fügen Sie einfach das Repository und die Abhängigkeit wie unten gezeigt hinzu.

Was sind Stop‑Words in der Suche und warum könnte man sie deaktivieren?

Stop‑Words sind häufig vorkommende Begriffe, die viele Suchmaschinen automatisch herausfiltern, um Abfragen zu beschleunigen. Während dies die Leistung bei generischen Web‑Suchen verbessert, kann es die Präzision in spezialisierten Bereichen – Rechtsverträge, E‑Commerce‑Kataloge oder technische Handbücher – beeinträchtigen, wo Wörter wie „on“, „by“ oder „as“ eine echte Bedeutung haben. Das Deaktivieren von Stop‑Words lässt Sie jedes Wort als bedeutungsvoll behandeln und stellt sicher, dass kein relevantes Dokument übersehen wird.

Wie funktioniert das Hinzufügen von Dokumenten zum Index in GroupDocs.Search?

Wenn Sie Dokumente hinzufügen, liest die Bibliothek jede Datei, tokenisiert deren Inhalt und speichert die Tokens in einer optimierten Datenstruktur (dem Index). Sobald die Dokumente indexiert sind, kann die Engine passende Dokumente in Millisekunden abrufen, selbst bei großen Sammlungen.

Voraussetzungen

  • Erforderliche Bibliotheken: GroupDocs.Search für Java 25.4 (oder neuer).
  • Entwicklungsumgebung: IntelliJ IDEA, Eclipse oder jede andere Java‑IDE Ihrer Wahl.
  • Grundkenntnisse: Vertrautheit mit Java‑Syntax und dem Konzept des Indexierens.

GroupDocs.Search für Java einrichten

Maven‑Installation

Wenn Sie Maven verwenden, fügen Sie Folgendes in Ihre pom.xml ein:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Direkter Download

Alternativ laden Sie die neueste Version von GroupDocs.Search for Java releases herunter.

Schritte zum Erwerb einer Lizenz

  • Free Trial – sofort mit dem Testen beginnen.
  • Temporary License – erhalten Sie einen zeitlich begrenzten Schlüssel für die volle Funktionalität.
  • Purchase – sichern Sie sich eine permanente Lizenz für den Produktionseinsatz.

Grundlegende Initialisierung und Einrichtung

Erzeugen Sie eine Instanz von IndexSettings, um das Verhalten des Indexes zu steuern:

import com.groupdocs.search.IndexSettings;

// Create an instance of IndexSettings
IndexSettings settings = new IndexSettings();

Wie man Stop‑Words in der Suche deaktiviert (Java)

Die folgende Zeile schaltet den integrierten Stop‑Word‑Filter aus:

// Disable the use of stop words
tsettings.setUseStopWords(false);

Parameter: setUseStopWords akzeptiert einen booleschen Wert.
Zweck: Stellt sicher, dass jedes Wort – einschließlich gängiger Stop‑Words – indexiert und durchsuchbar ist.

Wie man Dokumente zum Index hinzufügt

Definition des Ausgabeverzeichnisses

import com.groupdocs.search.Index;

// Define the path to the output directory for indexing
String indexFolder = "YOUR_OUTPUT_DIRECTORY\\IndexingWithStopWords";

// Create an index at the specified location with the configured settings
Index index = new Index(indexFolder, settings);

Angabe des Dokumentenverzeichnisses

// Define the path to your document directory
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";

// Add all documents in the specified folder to the index
index.add(documentsFolder);

Jetzt wird jede Datei in YOUR_DOCUMENT_DIRECTORY added documents to index und steht für Abfragen bereit.

Ausführen einer Suchabfrage

import com.groupdocs.search.results.SearchResult;

// Define your search query
tString query = "on";

// Perform the search operation using the index and the specified query
SearchResult result = index.search(query);

Da Stop‑Words deaktiviert sind, wird der Begriff "on" bei der Suche berücksichtigt und liefert Treffer, die sonst ignoriert würden.

Praktische Anwendungsfälle

  1. Enterprise Document Search – Sicherstellen, dass kritische Terminologie nicht herausgefiltert wird.
  2. E‑Commerce‑Plattformen – Produktfindung verbessern, indem jedes Wort in Produktbeschreibungen indexiert wird.
  3. Legal Research Tools – Jeden juristischen Begriff erfassen, selbst solche, die üblicherweise als Stop‑Words gelten.

Leistungsüberlegungen

  • Optimierungstipps: Aktualisieren und bereinigen Sie Ihren Index regelmäßig, um die Suchgeschwindigkeit hoch zu halten.
  • Ressourcennutzung: Überwachen Sie die JVM‑Heap‑Größe; große Indizes können eine Feinabstimmung der Garbage‑Collection‑Einstellungen erfordern.
  • Java‑Speicherverwaltung: Verwenden Sie effiziente Datenstrukturen und erwägen Sie Off‑Heap‑Speicher für sehr große Korpora.

Häufige Probleme und Lösungen

SymptomWahrscheinliche UrsacheLösung
Keine Ergebnisse für häufige WörtersetUseStopWords(true) (Standard)Rufen Sie setUseStopWords(false) wie oben gezeigt auf.
Out‑of‑Memory-Fehler beim IndexierenZu viele große Dateien gleichzeitig indexierenDateien stapelweise indexieren; erhöhen Sie die JVM‑Option -Xmx.
Suche liefert veraltete DatenIndex nach dem Hinzufügen neuer Dateien nicht aktualisiertRufen Sie index.update() auf oder fügen Sie die geänderten Dokumente erneut hinzu.

Häufig gestellte Fragen

F: Was sind Stoppwörter? A: Stoppwörter sind häufige Ausdrücke (z. B. „der“, „ist“, „auf“), die viele Suchmaschinen ignorieren, um Suchanfragen zu beschleunigen. Durch Deaktivieren der Stoppwörter wird jedes Token als suchbar behandelt.

F: Warum sollte man Stoppwörter in Suchindizes deaktivieren? A: Wenn eine exakte Übereinstimmung von Phrasen erforderlich ist – beispielsweise in juristischen oder technischen Dokumenten –, ist jedes Wort relevant. Daher müssen Stoppwörter verwendet werden.

F: Wie verarbeitet GroupDocs.Search große Datensätze? A: Die Bibliothek verwendet optimierte Datenstrukturen und inkrementelle Indizierung, um den Speicherverbrauch auch bei Millionen von Dokumenten gering zu halten.

F: Kann ich GroupDocs.Search in andere Java-Anwendungen integrieren? A: Ja, die API ist für die einfache Einbettung in jedes Java-basierte System konzipiert, von Webdiensten bis hin zu Desktop-Anwendungen.

F: Was kann ich tun, wenn meine Suchergebnisse nicht korrekt sind? A: Überprüfen Sie, ob der Index alle erforderlichen Dokumente enthält (‚Dokumente zum Index hinzufügen‘), deaktivieren Sie gegebenenfalls die Stoppwortfilterung und erwägen Sie, den Index nach größeren Änderungen neu zu erstellen.

Weitere Ressourcen

Durch Befolgen dieses Leitfadens wissen Sie jetzt, wie Sie add documents to index und stop words in search deaktivieren, um genauere Ergebnisse in Ihren Java‑Anwendungen zu erzielen.


Last Updated: 2026-02-19
Tested With: GroupDocs.Search for Java 25.4
Author: GroupDocs