Vytvoření indexu dokumentů pomocí GroupDocs.Search pro Java: Kompletní průvodce
V dnešní digitální éře je schopnost vytvořit index dokumentů rychle a efektivně v něm vyhledávat průlomová pro každou organizaci. Ať už budujete systém pro správu dokumentů nebo vlastní vyhledávač, GroupDocs.Search pro Java vám poskytuje nástroje pro extrakci textu, serializaci dat a provádění full‑textových vyhledávacích operací v Javě s lehkostí. Tento tutoriál vás provede každým krokem – od extrakce textu z PDF po přidání dat do indexu a vyhledávání v indexovaných dokumentech.
Rychlé odpovědi
- Jaký je hlavní účel? Vytvořit prohledávatelný index dokumentů pomocí GroupDocs.Search pro Java.
- Která verze knihovny? GroupDocs.Search 25.4 (nebo nejnovější vydání).
- Potřebuji licenci? Bezplatná zkušební verze funguje pro vývoj; pro produkci je vyžadována plná licence.
- Mohu indexovat PDF? Ano – extrahujte text z PDF a přidejte jej do indexu.
- Jak spustím vyhledávání? Použijte metodu
index.search(query)po přidání dat.
Co je index dokumentů?
Index dokumentů je strukturovaná kolekce prohledávatelných termínů extrahovaných z vašich souborů. Vytvořením indexu dokumentů umožníte rychlé full‑textové vyhledávání napříč velkými úložišti, což výrazně zvyšuje rychlost a přesnost vyhledávání.
Proč použít GroupDocs.Search pro Java?
- Robustní extrakce – Zpracovává PDF, Word, Excel a další.
- Jednoduchá serializace – Ukládá extrahovaná data jako pole bajtů pro pozdější opětovné použití.
- Škálovatelné indexování – Efektivně indexuje miliony dokumentů.
- Výkonný dotazovací jazyk – Podporuje složité full‑textové vyhledávací dotazy v Javě.
Prerequisites
- GroupDocs.Search pro Java (verze 25.4 nebo novější).
- Java Development Kit (JDK) kompatibilní s vaší verzí GroupDocs.
- IDE, např. IntelliJ IDEA nebo Eclipse.
- Maven pro správu závislostí.
Nastavení GroupDocs.Search pro Java
Nejprve přidejte knihovnu do svého projektu.
Maven Setup
Vložte následující do souboru pom.xml:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Direct Download
Alternativně stáhněte nejnovější verzi z GroupDocs.Search for Java releases.
License Acquisition
- Free Trial – Otestujte všechny funkce s dočasnou licencí.
- Purchase – Získejte plný přístup a prioritní podporu.
Implementace krok za krokem
Jak extrahovat text z PDF (a dalších dokumentů)
Extrahování surového nebo formátovaného textu je prvním krokem k vytvoření indexu dokumentů.
String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);
Tip: Nastavte
setUseRawTextExtraction(true), pokud potřebujete čistý text bez formátování.
Jak serializovat extrahovaná data
Serializace vám umožní uložit extrahovaná data pro pozdější indexování.
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();
Jak deserializovat extrahovaná data
Když jste připraveni vytvořit index, převeďte pole bajtů zpět na objekt.
ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);
Jak vytvořit index dokumentů
Nyní, když máte deserializedData, můžete vytvořit index, který bude obsahovat prohledávatelné termíny.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);
Jak přidat data do indexu a provést vyhledávání
Přidání dat a dotazování indexu dokončuje workflow create document index.
ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);
Pro tip: Použijte
index.search("your query", SearchOptions), abyste doladili hodnocení relevance.
Běžné případy použití
- Document Management Systems – Rychle najděte smlouvy, faktury nebo směrnice.
- Content‑Based Search Engines – Pohánějte interní znalostní báze s full‑textovými vyhledávacími schopnostmi v Javě.
- Data Archiving Solutions – Indexujte historické záznamy pro okamžité získání.
Úvahy o výkonu
- Memory Management: Přizpůsobte velikost haldy JVM pro velké dávky dokumentů.
- Indexing Options: Vypněte nepotřebné funkce (např. term vectors) pro zrychlení indexování.
- Regular Updates: Udržujte GroupDocs.Search aktuální, abyste získali výkonnostní opravy.
Často kladené otázky
Q: Jak efektivně zpracovat velmi velké PDF soubory?
A: Streamujte soubor pomocí Extractor a zpracovávejte jej po částech; také v případě potřeby zvětšete haldu JVM.
Q: Mohu přizpůsobit syntaxi vyhledávacího dotazu?
A: Ano – GroupDocs.Search podporuje Boolean operátory, zástupné znaky a vyhledávání v blízkosti.
Q: Co dělat, když selže serializace?
A: Ověřte, že všechny objekty implementují Serializable, a zachyťte IOException pro zaznamenání podrobností.
Q: Je možné indexovat jen konkrétní části dokumentu?
A: Rozhodně – nakonfigurujte ExtractionOptions tak, aby před indexováním filtroval stránky nebo sekce.
Q: Jak aktualizovat na novější verzi GroupDocs.Search?
A: Aktualizujte číslo verze ve vašem pom.xml a spusťte mvn clean install; prostudujte migrační průvodce pro případné breaking changes.
Zdroje
- Documentation: GroupDocs Documentation
- API Reference: GroupDocs API Reference
- Download: GroupDocs Downloads
- GitHub: GroupDocs GitHub Repository
- Free Support: GroupDocs Forum
- Temporary License: Obtain a Temporary License
Poslední aktualizace: 2025-12-18
Testováno s: GroupDocs.Search 25.4 pro Java
Autor: GroupDocs