Extrahovat text z PDF Java: Vytvořit index dokumentů pomocí GroupDocs.Search

V tomto praktickém průvodci objevíte jak extrahovat text z PDF Java aplikací a převést tento surový obsah na rychlý, plnotextový vyhledávatelný index. Ať už budujete interní znalostní bázi, portál pro vyhledávání smluv nebo vlastní vyhledávač, níže uvedené kroky vás provedou vším – od získání textu z PDF po serializaci dat, vytvoření indexu a nakonec spuštění dotazů. Pojďme se ponořit a zjistit, proč GroupDocs.Search dělá celý proces plynulý a škálovatelný.

Rychlé odpovědi

  • Jaký je hlavní účel? Extrahovat text z PDF Java souborů a vytvořit vyhledávatelný index dokumentů pomocí GroupDocs.Search.
  • Která verze knihovny? GroupDocs.Search 25.4 (nebo nejnovější vydání).
  • Potřebuji licenci? Pro vývoj stačí bezplatná zkušební licence; pro produkci je vyžadována plná licence.
  • Mohu indexovat PDF? Ano – extrahujte text z PDF a přidejte jej do indexu.
  • Jak spustím vyhledávání? Použijte metodu index.search(query) po přidání dat.

Co je to index dokumentů?

Index dokumentů je strukturovaná kolekce vyhledávatelných termínů extrahovaných z vašich souborů. Vytvořením indexu dokumentů umožníte rychlé plnotextové vyhledávání napříč velkými úložišti, což dramaticky zvyšuje rychlost a přesnost získávání informací.

Proč použít GroupDocs.Search pro Java?

  • Robustní extrakce – Zpracovává PDF, Word, Excel a další.
  • Jednoduchá serializace – Ukládá extrahovaná data jako pole bajtů pro pozdější opětovné použití.
  • Škálovatelné indexování – Efektivně indexuje miliony dokumentů.
  • Výkonný dotazovací jazyk – Podporuje složité plnotextové vyhledávací Java dotazy.

Předpoklady

  • GroupDocs.Search pro Java (verze 25.4 nebo novější).
  • Java Development Kit (JDK) kompatibilní s vaší verzí GroupDocs.
  • IDE jako IntelliJ IDEA nebo Eclipse.
  • Maven pro správu závislostí.

Nastavení GroupDocs.Search pro Java

Nejprve přidejte knihovnu do svého projektu.

Maven nastavení
Do souboru pom.xml vložte následující:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Přímé stažení
Alternativně stáhněte nejnovější verzi z GroupDocs.Search for Java releases.

Získání licence

  • Bezplatná zkušební verze – Otestujte všechny funkce s dočasnou licencí.
  • Koupě – Získejte plný přístup a prioritu v podpoře.

Krok‑za‑krokem implementace

Jak extrahovat text z PDF (a dalších dokumentů)

Extrahování surového nebo formátovaného textu je první krok k vytvoření indexu dokumentů. Když extrahujete text z PDF Java, poskytnete vyhledávači něco, co dokáže pochopit.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Tip: Nastavte setUseRawTextExtraction(true), pokud potřebujete čistý text bez formátování.

Jak serializovat extrahovaná data

Serializace vám umožní uložit extrahovaná data pro pozdější indexování.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Jak deserializovat extrahovaná data

Když jste připraveni vytvořit index, převedete pole bajtů zpět na objekt.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Jak vytvořit index dokumentů

Nyní, když máte deserializedData, můžete vytvořit index, který bude obsahovat vyhledávatelné termíny.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Jak přidat data do indexu a provést vyhledávání

Přidání dat a dotazování indexu dokončuje extrahovat text z PDF Java workflow.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Pro tip: Použijte index.search("your query", SearchOptions) pro jemné doladění relevance výsledků.

Běžné případy použití

  1. Systémy pro správu dokumentů – Rychle najděte smlouvy, faktury nebo směrnice.
  2. Obsahové vyhledávače – Pohánějte interní znalostní báze s plnotextovým vyhledáváním Java.
  3. Řešení pro archivaci dat – Indexujte historické záznamy pro okamžité vyhledání.

Úvahy o výkonu

  • Správa paměti: Přizpůsobte velikost haldy JVM pro velké dávky dokumentů.
  • Možnosti indexování: Vypněte nepotřebné funkce (např. term‑vektory) pro zrychlení indexování.
  • Pravidelné aktualizace: Udržujte GroupDocs.Search aktuální, abyste těžili z výkonových oprav.

Často kladené otázky

Q: Jak efektivně zpracovat velmi velké PDF soubory?
A: Streamujte soubor pomocí Extractor a zpracovávejte jej po částech; také případně zvýšte velikost haldy JVM.

Q: Mohu přizpůsobit syntaxi vyhledávacího dotazu?
A: Ano – GroupDocs.Search podporuje Boolean operátory, zástupné znaky a proximity vyhledávání.

Q: Co dělat, když selže serializace?
A: Ověřte, že všechny objekty implementují Serializable, a zachyťte IOException pro zaznamenání podrobností.

Q: Je možné indexovat jen konkrétní sekce dokumentu?
A: Rozhodně – nakonfigurujte ExtractionOptions tak, aby filtroval stránky nebo sekce před indexací.

Q: Jak aktualizovat na novější verzi GroupDocs.Search?
A: Aktualizujte číslo verze ve svém pom.xml a spusťte mvn clean install; prostudujte migrační průvodce pro případné breaking changes.

Zdroje


Poslední aktualizace: 2026-02-19
Testováno s: GroupDocs.Search 25.4 pro Java
Autor: GroupDocs