Vytvoření indexu dokumentů pomocí GroupDocs.Search pro Java: Kompletní průvodce

V dnešní digitální éře je schopnost vytvořit index dokumentů rychle a efektivně v něm vyhledávat průlomová pro každou organizaci. Ať už budujete systém pro správu dokumentů nebo vlastní vyhledávač, GroupDocs.Search pro Java vám poskytuje nástroje pro extrakci textu, serializaci dat a provádění full‑textových vyhledávacích operací v Javě s lehkostí. Tento tutoriál vás provede každým krokem – od extrakce textu z PDF po přidání dat do indexu a vyhledávání v indexovaných dokumentech.

Rychlé odpovědi

Jaký je hlavní účel? Vytvořit prohledávatelný index dokumentů pomocí GroupDocs.Search pro Java.
Která verze knihovny? GroupDocs.Search 25.4 (nebo nejnovější vydání).
Potřebuji licenci? Bezplatná zkušební verze funguje pro vývoj; pro produkci je vyžadována plná licence.
Mohu indexovat PDF? Ano – extrahujte text z PDF a přidejte jej do indexu.
Jak spustím vyhledávání? Použijte metodu index.search(query) po přidání dat.

Co je index dokumentů?

Index dokumentů je strukturovaná kolekce prohledávatelných termínů extrahovaných z vašich souborů. Vytvořením indexu dokumentů umožníte rychlé full‑textové vyhledávání napříč velkými úložišti, což výrazně zvyšuje rychlost a přesnost vyhledávání.

Proč použít GroupDocs.Search pro Java?

Robustní extrakce – Zpracovává PDF, Word, Excel a další.
Jednoduchá serializace – Ukládá extrahovaná data jako pole bajtů pro pozdější opětovné použití.
Škálovatelné indexování – Efektivně indexuje miliony dokumentů.
Výkonný dotazovací jazyk – Podporuje složité full‑textové vyhledávací dotazy v Javě.

Prerequisites

GroupDocs.Search pro Java (verze 25.4 nebo novější).
Java Development Kit (JDK) kompatibilní s vaší verzí GroupDocs.
IDE, např. IntelliJ IDEA nebo Eclipse.
Maven pro správu závislostí.

Nastavení GroupDocs.Search pro Java

Nejprve přidejte knihovnu do svého projektu.

Maven Setup
Vložte následující do souboru pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Direct Download
Alternativně stáhněte nejnovější verzi z GroupDocs.Search for Java releases.

License Acquisition

Free Trial – Otestujte všechny funkce s dočasnou licencí.
Purchase – Získejte plný přístup a prioritní podporu.

Implementace krok za krokem

Jak extrahovat text z PDF (a dalších dokumentů)

Extrahování surového nebo formátovaného textu je prvním krokem k vytvoření indexu dokumentů.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);

ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Tip: Nastavte setUseRawTextExtraction(true), pokud potřebujete čistý text bez formátování.

Jak serializovat extrahovaná data

Serializace vám umožní uložit extrahovaná data pro pozdější indexování.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Jak deserializovat extrahovaná data

Když jste připraveni vytvořit index, převeďte pole bajtů zpět na objekt.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Jak vytvořit index dokumentů

Nyní, když máte deserializedData, můžete vytvořit index, který bude obsahovat prohledávatelné termíny.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Jak přidat data do indexu a provést vyhledávání

Přidání dat a dotazování indexu dokončuje workflow create document index.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());

String query = "ipsum";
SearchResult result = index.search(query);

Pro tip: Použijte index.search("your query", SearchOptions), abyste doladili hodnocení relevance.

Běžné případy použití

Document Management Systems – Rychle najděte smlouvy, faktury nebo směrnice.
Content‑Based Search Engines – Pohánějte interní znalostní báze s full‑textovými vyhledávacími schopnostmi v Javě.
Data Archiving Solutions – Indexujte historické záznamy pro okamžité získání.

Úvahy o výkonu

Memory Management: Přizpůsobte velikost haldy JVM pro velké dávky dokumentů.
Indexing Options: Vypněte nepotřebné funkce (např. term vectors) pro zrychlení indexování.
Regular Updates: Udržujte GroupDocs.Search aktuální, abyste získali výkonnostní opravy.

Často kladené otázky

Q: Jak efektivně zpracovat velmi velké PDF soubory?
A: Streamujte soubor pomocí Extractor a zpracovávejte jej po částech; také v případě potřeby zvětšete haldu JVM.

Q: Mohu přizpůsobit syntaxi vyhledávacího dotazu?
A: Ano – GroupDocs.Search podporuje Boolean operátory, zástupné znaky a vyhledávání v blízkosti.

Q: Co dělat, když selže serializace?
A: Ověřte, že všechny objekty implementují Serializable, a zachyťte IOException pro zaznamenání podrobností.

Q: Je možné indexovat jen konkrétní části dokumentu?
A: Rozhodně – nakonfigurujte ExtractionOptions tak, aby před indexováním filtroval stránky nebo sekce.

Q: Jak aktualizovat na novější verzi GroupDocs.Search?
A: Aktualizujte číslo verze ve vašem pom.xml a spusťte mvn clean install; prostudujte migrační průvodce pro případné breaking changes.

Zdroje

Documentation: GroupDocs Documentation
API Reference: GroupDocs API Reference
Download: GroupDocs Downloads
GitHub: GroupDocs GitHub Repository
Free Support: GroupDocs Forum
Temporary License: Obtain a Temporary License

Poslední aktualizace: 2025-12-18
Testováno s: GroupDocs.Search 25.4 pro Java
Autor: GroupDocs