Dokumente zum Index hinzufügen mit Chunk-basierter Suche in Java

In der heutigen datengetriebenen Welt ist es entscheidend, add documents to index schnell durchführen zu können und anschließend Chunk‑basierte Suchen auszuführen. Das ist für jede Anwendung wichtig, die große Dateisammlungen verarbeitet. Egal, ob Sie mit Rechtsverträgen, Kunden‑Support‑Archiven oder riesigen Forschungsbibliotheken arbeiten – dieses Tutorial zeigt Ihnen genau, wie Sie GroupDocs.Search für Java einrichten, um Dokumente effizient zu indexieren und relevante Informationen in handlichen Chunks abzurufen.

Was Sie lernen werden

Wie man einen Such‑Index in einem angegebenen Ordner erstellt.
Schritte zum add documents to index aus mehreren Quellen.
Konfiguration von Suchoptionen, um Chunk‑basierte Suche zu aktivieren.
Durchführung einer ersten und nachfolgenden Chunk‑basierter Suche.
Praxisbeispiele, bei denen Chunk‑basierte Dokumentensuche glänzt.

Schnellantworten

Was ist der erste Schritt? Einen Such‑Index‑Ordner erstellen.
Wie füge ich viele Dateien hinzu? index.add() für jeden Dokumenten‑Ordner verwenden.
Welche Option aktiviert die Chunk‑Suche? options.setChunkSearch(true).
Kann ich nach dem ersten Chunk weiter suchen? Ja, rufen Sie index.searchNext() mit dem Token auf.
Benötige ich eine Lizenz? Eine kostenlose Test‑ oder temporäre Lizenz reicht für die Entwicklung; für die Produktion ist eine Voll‑Lizenz erforderlich.

Voraussetzungen

Um diesem Leitfaden zu folgen, stellen Sie sicher, dass Sie:

Erforderliche Bibliotheken: GroupDocs.Search für Java 25.4 oder neuer.
Umgebungs‑Setup: Ein kompatibles Java Development Kit (JDK) installiert.
Kenntnis‑Voraussetzungen: Grundlegende Java‑Programmierung und Maven‑Kenntnisse.

GroupDocs.Search für Java einrichten

Um zu beginnen, integrieren Sie GroupDocs.Search in Ihr Projekt mittels Maven:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/search/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-search</artifactId>
      <version>25.4</version>
   </dependency>
</dependencies>

Alternativ laden Sie die neueste Version von GroupDocs.Search for Java releases herunter.

Lizenzbeschaffung

Um GroupDocs.Search auszuprobieren:

Free Trial – Kernfunktionen ohne Verpflichtung testen.
Temporary License – Erweiterter Zugriff für die Entwicklung.
Purchase – Voll‑Lizenz für den Produktionseinsatz.

Grundlegende Initialisierung und Setup

Erstellen Sie einen Index in dem Ordner, in dem die durchsuchbaren Daten gespeichert werden sollen:

import com.groupdocs.search.*;

public class CreateIndex {
    public static void main(String[] args) {
        String indexFolder = "YOUR_DOCUMENT_DIRECTORY\\output\\AdvancedUsage\\Searching\\SearchByChunks";
        // Creating an index in the specified folder
        Index index = new Index(indexFolder);
    }
}

Wie man Dokumente zum Index hinzufügt

Jetzt, wo der Index existiert, ist der nächste logische Schritt, add documents to index aus den Speicherorten Ihrer Dateien hinzuzufügen.

1. Erstellen eines Index

Übersicht: Ein Verzeichnis für den Such‑Index einrichten.

String indexFolder = "YOUR_DOCUMENT_DIRECTORY\\output\\AdvancedUsage\\Searching\\SearchByChunks";

Index index = new Index(indexFolder);

2. Dokumente zum Index hinzufügen

Übersicht: Dateien aus mehreren Quellordnern einbinden.

String documentsFolder1 = "YOUR_DOCUMENT_DIRECTORY";
String documentsFolder2 = "YOUR_DOCUMENT_DIRECTORY";
String documentsFolder3 = "YOUR_DOCUMENT_DIRECTORY";

index.add(documentsFolder1);
index.add(documentsFolder2);
index.add(documentsFolder3);

3. Suchoptionen für Chunk‑Suche konfigurieren

Aktivieren Sie die Chunk‑basierte Suche, indem Sie das Options‑Objekt anpassen.

SearchOptions options = new SearchOptions();

options.setChunkSearch(true);

4. Erste Chunk‑basierte Suche durchführen

Führen Sie die erste Abfrage mit den aktivierten Chunk‑Optionen aus.

String query = "invitation";

SearchResult result = index.search(query, options);

5. Chunk‑basierte Suche fortsetzen

Iterieren Sie über die verbleibenden Chunks, bis die Suche abgeschlossen ist.

while (result.getNextChunkSearchToken() != null) {
    result = index.searchNext(result.getNextChunkSearchToken());
}

Warum Chunk‑basierte Suche verwenden?

Chunk‑basierte Suche zerlegt massive Dokumentensammlungen in handhabbare Stücke, reduziert den Speicherverbrauch und beschleunigt die Antwortzeiten. Besonders vorteilhaft ist sie, wenn:

Legal Teams spezifische Klauseln in Tausenden von Verträgen finden müssen.
Customer Support Portale sofort relevante Knowledge‑Base‑Artikel bereitstellen sollen.
Researchers umfangreiche Datensätze durchsuchen, ohne ganze Dateien in den Speicher zu laden.

Leistungsüberlegungen

Speicherverwaltung – Weisen Sie ausreichend Heap‑Speicher (-Xmx) für große Indizes zu.
Ressourcen‑Monitoring – Behalten Sie die CPU‑Auslastung während Index‑ und Suchvorgängen im Auge.
Index‑Wartung – Rebuilden oder bereinigen Sie den Index regelmäßig, um veraltete Daten zu entfernen.

Häufige Stolperfallen & Fehlersuche

Problem	Warum es passiert	Lösung
`OutOfMemoryError` während des Indexierens	Heap‑Größe zu klein	JVM‑Heap erhöhen (`-Xmx2g` oder höher)
Keine Ergebnisse	Chunk‑Token nicht verarbeitet	Sicherstellen, dass die `while`‑Schleife bis `getNextChunkSearchToken()` `null` läuft
Langsame Suchleistung	Index nicht optimiert	`index.optimize()` nach Bulk‑Additionen ausführen

Häufig gestellte Fragen

F: Was ist Chunk‑basierte Suche?
A: Chunk‑basierte Suche teilt den Datensatz in kleinere Stücke, wodurch effiziente Abfragen über große Datenmengen möglich sind, ohne gesamte Dokumente in den Speicher zu laden.

F: Wie aktualisiere ich meinen Index mit neuen Dateien?
A: Rufen Sie einfach index.add() mit dem Pfad zu den neuen Dokumenten auf; der Index integriert sie automatisch.

F: Kann GroupDocs.Search verschiedene Dateiformate verarbeiten?
A: Ja, es unterstützt PDFs, DOCX, XLSX, PPTX und viele andere gängige Formate.

F: Was sind typische Leistungsengpässe?
A: Speicherbeschränkungen und nicht optimierte Indizes sind die häufigsten; ausreichend Heap zuweisen und den Index regelmäßig optimieren.

F: Wo finde ich ausführlichere Dokumentation?
A: Besuchen Sie die offizielle GroupDocs.Search Documentation für detaillierte Anleitungen und API‑Referenzen.

Ressourcen

Documentation: GroupDocs.Search for Java Docs
API Reference: GroupDocs.Search API Reference
Download: GroupDocs.Search Releases
GitHub: GroupDocs.Search GitHub Repository
Free Support: GroupDocs Forum
Temporary License: Obtain a Temporary License

Zuletzt aktualisiert: 2025-12-19
Getestet mit: GroupDocs.Search 25.4 für Java
Autor: GroupDocs