Extrahovat text z PDF Java: Vytvořit index dokumentů pomocí GroupDocs.Search
V tomto praktickém průvodci objevíte jak extrahovat text z PDF Java aplikací a převést tento surový obsah na rychlý, plnotextový vyhledávatelný index. Ať už budujete interní znalostní bázi, portál pro vyhledávání smluv nebo vlastní vyhledávač, níže uvedené kroky vás provedou vším – od získání textu z PDF po serializaci dat, vytvoření indexu a nakonec spuštění dotazů. Pojďme se ponořit a zjistit, proč GroupDocs.Search dělá celý proces plynulý a škálovatelný.
Rychlé odpovědi
- Jaký je hlavní účel? Extrahovat text z PDF Java souborů a vytvořit vyhledávatelný index dokumentů pomocí GroupDocs.Search.
- Která verze knihovny? GroupDocs.Search 25.4 (nebo nejnovější vydání).
- Potřebuji licenci? Pro vývoj stačí bezplatná zkušební licence; pro produkci je vyžadována plná licence.
- Mohu indexovat PDF? Ano – extrahujte text z PDF a přidejte jej do indexu.
- Jak spustím vyhledávání? Použijte metodu
index.search(query)po přidání dat.
Co je to index dokumentů?
Index dokumentů je strukturovaná kolekce vyhledávatelných termínů extrahovaných z vašich souborů. Vytvořením indexu dokumentů umožníte rychlé plnotextové vyhledávání napříč velkými úložišti, což dramaticky zvyšuje rychlost a přesnost získávání informací.
Proč použít GroupDocs.Search pro Java?
- Robustní extrakce – Zpracovává PDF, Word, Excel a další.
- Jednoduchá serializace – Ukládá extrahovaná data jako pole bajtů pro pozdější opětovné použití.
- Škálovatelné indexování – Efektivně indexuje miliony dokumentů.
- Výkonný dotazovací jazyk – Podporuje složité plnotextové vyhledávací Java dotazy.
Předpoklady
- GroupDocs.Search pro Java (verze 25.4 nebo novější).
- Java Development Kit (JDK) kompatibilní s vaší verzí GroupDocs.
- IDE jako IntelliJ IDEA nebo Eclipse.
- Maven pro správu závislostí.
Nastavení GroupDocs.Search pro Java
Nejprve přidejte knihovnu do svého projektu.
Maven nastavení
Do souboru pom.xml vložte následující:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Přímé stažení
Alternativně stáhněte nejnovější verzi z GroupDocs.Search for Java releases.
Získání licence
- Bezplatná zkušební verze – Otestujte všechny funkce s dočasnou licencí.
- Koupě – Získejte plný přístup a prioritu v podpoře.
Krok‑za‑krokem implementace
Jak extrahovat text z PDF (a dalších dokumentů)
Extrahování surového nebo formátovaného textu je první krok k vytvoření indexu dokumentů. Když extrahujete text z PDF Java, poskytnete vyhledávači něco, co dokáže pochopit.
String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);
Tip: Nastavte
setUseRawTextExtraction(true), pokud potřebujete čistý text bez formátování.
Jak serializovat extrahovaná data
Serializace vám umožní uložit extrahovaná data pro pozdější indexování.
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();
Jak deserializovat extrahovaná data
Když jste připraveni vytvořit index, převedete pole bajtů zpět na objekt.
ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);
Jak vytvořit index dokumentů
Nyní, když máte deserializedData, můžete vytvořit index, který bude obsahovat vyhledávatelné termíny.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);
Jak přidat data do indexu a provést vyhledávání
Přidání dat a dotazování indexu dokončuje extrahovat text z PDF Java workflow.
ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);
Pro tip: Použijte
index.search("your query", SearchOptions)pro jemné doladění relevance výsledků.
Běžné případy použití
- Systémy pro správu dokumentů – Rychle najděte smlouvy, faktury nebo směrnice.
- Obsahové vyhledávače – Pohánějte interní znalostní báze s plnotextovým vyhledáváním Java.
- Řešení pro archivaci dat – Indexujte historické záznamy pro okamžité vyhledání.
Úvahy o výkonu
- Správa paměti: Přizpůsobte velikost haldy JVM pro velké dávky dokumentů.
- Možnosti indexování: Vypněte nepotřebné funkce (např. term‑vektory) pro zrychlení indexování.
- Pravidelné aktualizace: Udržujte GroupDocs.Search aktuální, abyste těžili z výkonových oprav.
Často kladené otázky
Q: Jak efektivně zpracovat velmi velké PDF soubory?
A: Streamujte soubor pomocí Extractor a zpracovávejte jej po částech; také případně zvýšte velikost haldy JVM.
Q: Mohu přizpůsobit syntaxi vyhledávacího dotazu?
A: Ano – GroupDocs.Search podporuje Boolean operátory, zástupné znaky a proximity vyhledávání.
Q: Co dělat, když selže serializace?
A: Ověřte, že všechny objekty implementují Serializable, a zachyťte IOException pro zaznamenání podrobností.
Q: Je možné indexovat jen konkrétní sekce dokumentu?
A: Rozhodně – nakonfigurujte ExtractionOptions tak, aby filtroval stránky nebo sekce před indexací.
Q: Jak aktualizovat na novější verzi GroupDocs.Search?
A: Aktualizujte číslo verze ve svém pom.xml a spusťte mvn clean install; prostudujte migrační průvodce pro případné breaking changes.
Zdroje
- Dokumentace: GroupDocs Documentation
- API reference: GroupDocs API Reference
- Stáhnout: GroupDocs Downloads
- GitHub: GroupDocs GitHub Repository
- Bezplatná podpora: GroupDocs Forum
- Dočasná licence: Obtain a Temporary License
Poslední aktualizace: 2026-02-19
Testováno s: GroupDocs.Search 25.4 pro Java
Autor: GroupDocs