Cara Menggunakan GroupDocs untuk OCR Indexing Java dengan Aspose
Dalam panduan ini Anda akan menemukan cara menggunakan GroupDocs untuk menambahkan pencarian berbasis OCR ke aplikasi Java Anda. Dengan menggabungkan GroupDocs.Search dengan Aspose.OCR, Anda dapat mengubah konten berbasis gambar menjadi teks yang dapat dicari, membuat sistem manajemen dokumen jauh lebih berguna. Kami akan membahas langkah-langkah penyiapan, pengindeksan, pencarian, dan integrasi OCR khusus, semuanya dengan contoh langkah demi langkah yang jelas.
Jawaban Cepat
- Perpustakaan apa yang menyediakan pengindeksan OCR? GroupDocs.Search dipasangkan dengan Aspose.OCR.
- Versi Java apa yang diperlukan? JDK8 atau lebih tinggi.
- Apakah saya memerlukan lisensi? Versi percobaan gratis tersedia; lisensi berbayar diperlukan untuk produksi.
- ** menghubungi saya mengindeks gambar terpisah dan tersemat?** Ya, aktifkan kedua opsi di
IndexingOptions. - Apakah multi‑threading didukung? Ya, Anda dapat memparalelkan pengindeksan untuk kumpulan data besar.
Apa itu Pengindeksan OCR dengan GroupDocs?
Pengindeksan OCR mengekstrak teks dari gambar (termasuk PDF yang diinginkan) dan menyimpannya dalam indeks yang dapat dicari. GroupDocs.Search menangani proses pengindeksan dan eksekusi kueri, sementara Aspose.OCR melakukan pengenalan karakter sebenarnya.
Mengapa menggunakan GroupDocs untuk mengindeks OCR Java?
- Akurasi tinggi berkat mesin OCR canggih dari Aspose.
- Integrasi Java yang mulus melalui Maven atau JAR langsung.
- Konfigurasi fleksibel untuk gambar terpisah atau tersemat.
- Kinerja skalabel dengan multi-threading dan optimalisasi memori.
Prasyarat
- GroupDocs.Search≥25.4
- Aspose.OCR (versi terbaru)
- JDK8+ dan IDE (IntelliJ, Eclipse, NetBeans)
- Pengetahuan dasar Java; Maven bermanfaat tetapi tidak wajib
Menyiapkan GroupDocs.Search untuk Java
Menggunakan Maven
Tambahkan repositori dan dependensi ke pom.xml Anda:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Unduh Langsung
Atau, unduh versi terbaru GroupDocs.Search untuk Java dari GroupDocs releases.
Akuisisi Lisensi
- Uji Coba Gratis – menjelajahi semua fitur tanpa biaya.
- Lisensi Sementara – periode pengujian yang diperpanjang.
- Pembelian – diperlukan untuk penyebaran produksi.
Inisialisasi dan Pengaturan Dasar
Buat folder indeks dan inisialisasi objek Index:
import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);
Cara Menggunakan GroupDocs untuk Pengindeksan OCR
Membuat Indeks
Pertama, siapkan folder yang akan menyimpan file indeks:
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);
Mengatur Opsi Pengindeksan OCR
Aktifkan OCR untuk gambar terpisah dan tersemat, serta sambungkan konektor OCR khusus:
import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());
Mengindeks Dokumen
Tambahkan dokumen sumber Anda (PDF, file Word, gambar, dll.) ke indeks:
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);
Mencari dalam Indeks
Jalankan kueri pencarian terhadap konten yang diindeks:
import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);
Mengimplementasikan Konektor OCR
Gunakan Aspose.OCR untuk mengenali teks dari gambar. Implementasikan antarmuka IOcrConnector seperti yang ditunjukkan:
import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;
public class OcrConnector implements IOcrConnector {
@Override
public final String recognize(OcrContext context) {
if (null == context.getImageLocation()) {
throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
}
BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
AsposeOCR api = new AsposeOCR();
String text = api.RecognizePage(image);
return text;
}
}
Aplikasi Praktis
- Sistem Manajemen Dokumen – pengambilan cepat dokumen yang berisi gambar yang diizinkan.
- Pengambilan Arsip – menemukan catatan sejarah dalam arsip besar.
- Analisis Dokumen Hukum – mencari kontrak dan bukti yang mencakup tanda tangan atau diagram yang membukanya.
- Pencarian Rekam Medis – mengindeks formulir pasien, hasil laboratorium, dan anotasi X-ray.
Pertimbangan Kinerja
- Ukuran Indeks – kecualikan metadata yang tidak diperlukan untuk menjaga indeks tetap ringan.
- Multi‑Threading – proses batch besar secara paralel untuk mempercepat pengindeksan.
- Manajemen Memori – pantau heap JVM saat menangani gambar resolusi tinggi.
Masalah Umum dan Solusinya
- Kesalahan Lisensi – pastikan file lisensi yang benar ditempatkan di direktori kerja aplikasi.
- Gambar Hilang – verifikasi jalur gambar dapat diakses dan format yang didukung (PNG, JPEG, BMP).
- Out‑Of‑Memory – tingkatkan heap JVM (
-Xmx) atau proses dokumen dalam batch yang lebih kecil.
Pertanyaan yang Sering Diajukan
Q: Bagaimana cara mengatasi masalah lisensi dengan GroupDocs.Search? A: Dapatkan lisensi sementara dari situs GroupDocs untuk membuka semua fitur.
Q: Apa cara terbaik menangani pengindeksan dokumen besar? A: Manfaatkan multi-threading dan pemrosesan batch untuk meningkatkan kinerja dan mengurangi tekanan memori.
Q: Bisakah saya menyesuaikan pengaturan OCR lebih lanjut di GroupDocs.Search?
A: Ya, IndexingOptions memungkinkan Anda menyesuaikan perilaku OCR, seperti pemilihan bahasa dan pra‑pemrosesan gambar.
Q: Apa saja tips pemecahan masalah umum saat menggunakan GroupDocs.Search? A: Periksa kembali jalur direktori, pastikan semua dependensi ada, dan tinjau output log untuk file yang hilang.
Q: Bagaimana cara mengintegrasikan Aspose.OCR dengan aplikasi Java saya yang ada?
A: Implementasikan antarmuka IOcrConnector seperti yang ditampilkan di atas, pastikan Anda menangani input gambar dengan benar.
Sumber daya
Terakhir Diperbarui: 11-01-2026 Diuji Dengan: GroupDocs.Search 25.4, rilis terbaru Aspose.OCR Penulis: GroupDocs