Utwórz indeks dokumentów przy użyciu GroupDocs.Search dla Javy: Kompletny przewodnik

W dzisiejszej erze cyfrowej możliwość tworzenia indeksu dokumentów szybko i efektywnego przeszukiwania go to przełom dla każdej organizacji. Niezależnie od tego, czy budujesz system zarządzania dokumentami, czy własną wyszukiwarkę, GroupDocs.Search dla Javy dostarcza narzędzia do wyodrębniania tekstu, serializacji danych i wykonywania operacji pełnotekstowego wyszukiwania w Javie z łatwością. Ten samouczek przeprowadzi Cię przez każdy krok — od wyodrębniania tekstu z PDF po dodawanie danych do indeksu i wyszukiwanie zaindeksowanych dokumentów.

Szybkie odpowiedzi

Jaki jest główny cel? To create a searchable document index using GroupDocs.Search for Java.
Jaka wersja biblioteki? GroupDocs.Search 25.4 (lub najnowsze wydanie).
Czy potrzebna jest licencja? Darmowa wersja próbna działa w fazie rozwoju; pełna licencja jest wymagana w produkcji.
Czy mogę indeksować pliki PDF? Tak — wyodrębnić tekst PDF i dodać go do indeksu.
Jak wykonać wyszukiwanie? Użyj metody index.search(query) po dodaniu danych.

Co to jest indeks dokumentów?

Indeks dokumentów to ustrukturyzowana kolekcja wyszukiwalnych terminów wyodrębnionych z Twoich plików. Tworząc indeks dokumentów, umożliwiasz szybkie wyszukiwania pełnotekstowe w dużych repozytoriach, co znacząco poprawia szybkość i dokładność odzyskiwania.

Dlaczego warto używać GroupDocs.Search dla Javy?

Robust extraction – Obsługuje PDF, Word, Excel i inne.
Easy serialization – Przechowuj wyodrębnione dane jako tablice bajtów do późniejszego użycia.
Scalable indexing – Efektywnie indeksuj miliony dokumentów.
Powerful query language – Obsługuje złożone zapytania pełnotekstowe w Javie.

Wymagania wstępne

GroupDocs.Search for Java (Version 25.4 or newer).
Java Development Kit (JDK) compatible with your GroupDocs version.
Środowisko IDE, takie jak IntelliJ IDEA lub Eclipse.
Maven do zarządzania zależnościami.

Konfiguracja GroupDocs.Search dla Javy

Najpierw dodaj bibliotekę do swojego projektu.

Ustawienia Maven
Umieść następujący kod w pliku pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Bezpośrednie pobranie
Alternatywnie, pobierz najnowszą wersję z GroupDocs.Search for Java releases.

Uzyskanie licencji

Free Trial – Przetestuj wszystkie funkcje przy użyciu tymczasowej licencji.
Purchase – Uzyskaj pełny dostęp i priorytetowe wsparcie.

Implementacja krok po kroku

Jak wyodrębnić tekst z plików PDF (i innych dokumentów)

Wyodrębnianie surowego lub sformatowanego tekstu jest pierwszym krokiem w kierunku tworzenia indeksu dokumentów.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);

ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Wskazówka: Ustaw setUseRawTextExtraction(true), jeśli potrzebujesz czystego tekstu bez formatowania.

Jak serializować wyodrębnione dane

Serializacja pozwala przechowywać wyodrębnione dane do późniejszego indeksowania.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Jak deserializować wyodrębnione dane

Gdy jesteś gotowy do budowy indeksu, przekształć tablicę bajtów z powrotem w obiekt.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Jak utworzyć indeks dokumentów

Teraz, gdy masz deserializedData, możesz utworzyć indeks, który będzie przechowywał wyszukiwalne terminy.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Jak dodać dane do indeksu i wykonać wyszukiwanie

Dodanie danych i zapytanie indeksu kończy przepływ pracy create document index.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());

String query = "ipsum";
SearchResult result = index.search(query);

Pro tip: Użyj index.search("your query", SearchOptions), aby precyzyjnie dostroić ranking trafności.

Typowe przypadki użycia

Document Management Systems – Szybko znajdź umowy, faktury lub polityki.
Content‑Based Search Engines – Zasil wewnętrzne bazy wiedzy za pomocą możliwości pełnotekstowego wyszukiwania w Javie.
Data Archiving Solutions – Indeksuj historyczne rekordy dla natychmiastowego odczytu.

Rozważania dotyczące wydajności

Memory Management: Dostosuj rozmiar sterty JVM dla dużych partii dokumentów.
Indexing Options: Wyłącz niepotrzebne funkcje (np. wektory terminów), aby przyspieszyć indeksowanie.
Regular Updates: Utrzymuj GroupDocs.Search w najnowszej wersji, aby korzystać z poprawek wydajności.

Najczęściej zadawane pytania

Q: Jak efektywnie obsługiwać bardzo duże pliki PDF?
A: Strumieniuj plik przy użyciu Extractor i przetwarzaj go w fragmentach; zwiększ także rozmiar sterty JVM w razie potrzeby.

Q: Czy mogę dostosować składnię zapytań wyszukiwania?
A: Tak — GroupDocs.Search obsługuje operatory logiczne, symbole wieloznaczne i wyszukiwania przybliżeniowe.

Q: Co zrobić, gdy serializacja nie powiedzie się?
A: Upewnij się, że wszystkie obiekty implementują Serializable i obsłuż IOException, aby zalogować szczegóły.

Q: Czy można indeksować tylko określone sekcje dokumentu?
A: Oczywiście — skonfiguruj ExtractionOptions, aby filtrować strony lub sekcje przed indeksowaniem.

Q: Jak zaktualizować do nowszej wersji GroupDocs.Search?
A: Zaktualizuj numer wersji w pliku pom.xml i uruchom mvn clean install; przejrzyj przewodnik migracji pod kątem zmian łamiących.

Zasoby

Dokumentacja: GroupDocs Documentation
Referencja API: GroupDocs API Reference
Pobieranie: GroupDocs Downloads
GitHub: GroupDocs GitHub Repository
Bezpłatne wsparcie: GroupDocs Forum
Tymczasowa licencja: Obtain a Temporary License

Ostatnia aktualizacja: 2025-12-18
Testowano z: GroupDocs.Search 25.4 for Java
Autor: GroupDocs