Buat Indeks Dokumen dengan GroupDocs.Search untuk Java: Panduan Lengkap

Di era digital saat ini, kemampuan untuk membuat indeks dokumen dengan cepat dan mencari di dalamnya secara efisien adalah pengubah permainan bagi setiap organisasi. Baik Anda membangun sistem manajemen dokumen atau mesin pencari khusus, GroupDocs.Search untuk Java memberi Anda alat untuk mengekstrak teks, men-serialize data, dan melakukan operasi pencarian full‑text Java dengan mudah. Tutorial ini memandu Anda melalui setiap langkah—dari mengekstrak teks PDF hingga menambahkan data ke indeks dan mencari dokumen yang diindeks.

Jawaban Cepat

  • Apa tujuan utama? Untuk membuat indeks dokumen yang dapat dicari menggunakan GroupDocs.Search untuk Java.
  • Versi perpustakaan mana? GroupDocs.Search 25.4 (atau rilis terbaru).
  • Apakah saya memerlukan lisensi? Trial gratis dapat digunakan untuk pengembangan; lisensi penuh diperlukan untuk produksi.
  • Bisakah saya mengindeks PDF? Ya—ekstrak teks pdf dan tambahkan ke indeks.
  • Bagaimana cara menjalankan pencarian? Gunakan metode index.search(query) setelah menambahkan data.

Apa itu Indeks Dokumen?

Indeks dokumen adalah kumpulan terstruktur dari istilah yang dapat dicari yang diekstrak dari file Anda. Dengan membuat indeks dokumen, Anda memungkinkan pencarian full‑text yang cepat di seluruh repositori besar, secara dramatis meningkatkan kecepatan dan akurasi pengambilan.

Mengapa Menggunakan GroupDocs.Search untuk Java?

  • Ekstraksi kuat – Menangani PDF, Word, Excel, dan lainnya.
  • Serialisasi mudah – Menyimpan data yang diekstrak sebagai array byte untuk penggunaan kembali nanti.
  • Pengindeksan skalabel – Mengindeks jutaan dokumen secara efisien.
  • Bahasa kueri yang kuat – Mendukung kueri pencarian full‑text Java yang kompleks.

Prasyarat

  • GroupDocs.Search untuk Java (Versi 25.4 atau lebih baru).
  • Java Development Kit (JDK) yang kompatibel dengan versi GroupDocs Anda.
  • Sebuah IDE seperti IntelliJ IDEA atau Eclipse.
  • Maven untuk manajemen dependensi.

Menyiapkan GroupDocs.Search untuk Java

Pertama, tambahkan perpustakaan ke proyek Anda.

Pengaturan Maven
Sertakan berikut ini dalam file pom.xml Anda:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Unduhan Langsung
Atau, unduh versi terbaru dari GroupDocs.Search for Java releases.

Akuisisi Lisensi

  • Trial Gratis – Menguji semua fitur dengan lisensi sementara.
  • Pembelian – Mendapatkan akses penuh dan dukungan prioritas.

Implementasi Langkah‑per‑Langkah

Cara mengekstrak teks dari PDF (dan dokumen lainnya)

Mengekstrak teks mentah atau terformat adalah langkah pertama menuju pembuatan indeks dokumen.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Tip: Set setUseRawTextExtraction(true) jika Anda membutuhkan teks polos tanpa format.

Cara men-serialize data yang diekstrak

Serialisasi memungkinkan Anda menyimpan data yang diekstrak untuk pengindeksan nanti.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Cara men-deserialize data yang diekstrak

Saat Anda siap membangun indeks, konversi array byte kembali menjadi objek.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Cara membuat indeks dokumen

Sekarang Anda memiliki deserializedData, Anda dapat membuat indeks yang akan menyimpan istilah yang dapat dicari.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Cara menambahkan data ke indeks dan melakukan pencarian

Menambahkan data dan melakukan kueri pada indeks menyelesaikan alur kerja membuat indeks dokumen.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Pro tip: Gunakan index.search("your query", SearchOptions) untuk menyesuaikan peringkat relevansi.

Kasus Penggunaan Umum

  1. Sistem Manajemen Dokumen – Dengan cepat menemukan kontrak, faktur, atau kebijakan.
  2. Mesin Pencari Berbasis Konten – Menyokong basis pengetahuan internal dengan kemampuan pencarian full‑text Java.
  3. Solusi Pengarsipan Data – Mengindeks catatan historis untuk pengambilan instan.

Pertimbangan Kinerja

  • Manajemen Memori: Sesuaikan ukuran heap JVM untuk batch dokumen besar.
  • Opsi Pengindeksan: Nonaktifkan fitur yang tidak diperlukan (mis., term vectors) untuk mempercepat pengindeksan.
  • Pembaruan Rutin: Jaga GroupDocs.Search tetap terbaru untuk mendapatkan perbaikan kinerja.

Pertanyaan yang Sering Diajukan

Q: Bagaimana cara menangani file PDF yang sangat besar secara efisien?
A: Alirkan file menggunakan Extractor dan proses dalam potongan; juga tingkatkan heap JVM jika diperlukan.

Q: Bisakah saya menyesuaikan sintaks kueri pencarian?
A: Ya—GroupDocs.Search mendukung operator Boolean, wildcard, dan pencarian kedekatan.

Q: Apa yang harus saya lakukan jika serialisasi gagal?
A: Pastikan semua objek mengimplementasikan Serializable dan tangkap IOException untuk mencatat detail.

Q: Apakah memungkinkan mengindeks hanya bagian tertentu dari dokumen?
A: Tentu—konfigurasikan ExtractionOptions untuk menyaring halaman atau bagian sebelum pengindeksan.

Q: Bagaimana cara memperbarui ke versi GroupDocs.Search yang lebih baru?
A: Perbarui nomor versi di pom.xml Anda dan jalankan mvn clean install; tinjau panduan migrasi untuk perubahan yang memecah kompatibilitas.

Sumber Daya


Terakhir Diperbarui: 2025-12-18
Diuji Dengan: GroupDocs.Search 25.4 untuk Java
Penulis: GroupDocs