Vytvoření indexu dokumentů pomocí GroupDocs.Search pro Java: Kompletní průvodce

V dnešní digitální éře je schopnost vytvořit index dokumentů rychle a efektivně v něm vyhledávat průlomová pro každou organizaci. Ať už budujete systém pro správu dokumentů nebo vlastní vyhledávač, GroupDocs.Search pro Java vám poskytuje nástroje pro extrakci textu, serializaci dat a provádění full‑textových vyhledávacích operací v Javě s lehkostí. Tento tutoriál vás provede každým krokem – od extrakce textu z PDF po přidání dat do indexu a vyhledávání v indexovaných dokumentech.

Rychlé odpovědi

  • Jaký je hlavní účel? Vytvořit prohledávatelný index dokumentů pomocí GroupDocs.Search pro Java.
  • Která verze knihovny? GroupDocs.Search 25.4 (nebo nejnovější vydání).
  • Potřebuji licenci? Bezplatná zkušební verze funguje pro vývoj; pro produkci je vyžadována plná licence.
  • Mohu indexovat PDF? Ano – extrahujte text z PDF a přidejte jej do indexu.
  • Jak spustím vyhledávání? Použijte metodu index.search(query) po přidání dat.

Co je index dokumentů?

Index dokumentů je strukturovaná kolekce prohledávatelných termínů extrahovaných z vašich souborů. Vytvořením indexu dokumentů umožníte rychlé full‑textové vyhledávání napříč velkými úložišti, což výrazně zvyšuje rychlost a přesnost vyhledávání.

Proč použít GroupDocs.Search pro Java?

  • Robustní extrakce – Zpracovává PDF, Word, Excel a další.
  • Jednoduchá serializace – Ukládá extrahovaná data jako pole bajtů pro pozdější opětovné použití.
  • Škálovatelné indexování – Efektivně indexuje miliony dokumentů.
  • Výkonný dotazovací jazyk – Podporuje složité full‑textové vyhledávací dotazy v Javě.

Prerequisites

  • GroupDocs.Search pro Java (verze 25.4 nebo novější).
  • Java Development Kit (JDK) kompatibilní s vaší verzí GroupDocs.
  • IDE, např. IntelliJ IDEA nebo Eclipse.
  • Maven pro správu závislostí.

Nastavení GroupDocs.Search pro Java

Nejprve přidejte knihovnu do svého projektu.

Maven Setup
Vložte následující do souboru pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Direct Download
Alternativně stáhněte nejnovější verzi z GroupDocs.Search for Java releases.

License Acquisition

  • Free Trial – Otestujte všechny funkce s dočasnou licencí.
  • Purchase – Získejte plný přístup a prioritní podporu.

Implementace krok za krokem

Jak extrahovat text z PDF (a dalších dokumentů)

Extrahování surového nebo formátovaného textu je prvním krokem k vytvoření indexu dokumentů.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Tip: Nastavte setUseRawTextExtraction(true), pokud potřebujete čistý text bez formátování.

Jak serializovat extrahovaná data

Serializace vám umožní uložit extrahovaná data pro pozdější indexování.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Jak deserializovat extrahovaná data

Když jste připraveni vytvořit index, převeďte pole bajtů zpět na objekt.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Jak vytvořit index dokumentů

Nyní, když máte deserializedData, můžete vytvořit index, který bude obsahovat prohledávatelné termíny.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Jak přidat data do indexu a provést vyhledávání

Přidání dat a dotazování indexu dokončuje workflow create document index.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Pro tip: Použijte index.search("your query", SearchOptions), abyste doladili hodnocení relevance.

Běžné případy použití

  1. Document Management Systems – Rychle najděte smlouvy, faktury nebo směrnice.
  2. Content‑Based Search Engines – Pohánějte interní znalostní báze s full‑textovými vyhledávacími schopnostmi v Javě.
  3. Data Archiving Solutions – Indexujte historické záznamy pro okamžité získání.

Úvahy o výkonu

  • Memory Management: Přizpůsobte velikost haldy JVM pro velké dávky dokumentů.
  • Indexing Options: Vypněte nepotřebné funkce (např. term vectors) pro zrychlení indexování.
  • Regular Updates: Udržujte GroupDocs.Search aktuální, abyste získali výkonnostní opravy.

Často kladené otázky

Q: Jak efektivně zpracovat velmi velké PDF soubory?
A: Streamujte soubor pomocí Extractor a zpracovávejte jej po částech; také v případě potřeby zvětšete haldu JVM.

Q: Mohu přizpůsobit syntaxi vyhledávacího dotazu?
A: Ano – GroupDocs.Search podporuje Boolean operátory, zástupné znaky a vyhledávání v blízkosti.

Q: Co dělat, když selže serializace?
A: Ověřte, že všechny objekty implementují Serializable, a zachyťte IOException pro zaznamenání podrobností.

Q: Je možné indexovat jen konkrétní části dokumentu?
A: Rozhodně – nakonfigurujte ExtractionOptions tak, aby před indexováním filtroval stránky nebo sekce.

Q: Jak aktualizovat na novější verzi GroupDocs.Search?
A: Aktualizujte číslo verze ve vašem pom.xml a spusťte mvn clean install; prostudujte migrační průvodce pro případné breaking changes.

Zdroje


Poslední aktualizace: 2025-12-18
Testováno s: GroupDocs.Search 25.4 pro Java
Autor: GroupDocs