วิธีใช้ GroupDocs สำหรับ OCR Indexing ด้วย Java และ Aspose

ในคู่มือนี้คุณจะได้ค้นพบ วิธีใช้ GroupDocs เพื่อเพิ่มการค้นหาที่ขับเคลื่อนด้วย OCR ให้กับแอปพลิเคชัน Java ของคุณ โดยการผสานรวม GroupDocs.Search กับ Aspose.OCR คุณสามารถแปลงเนื้อหาที่เป็นรูปภาพให้เป็นข้อความที่สามารถค้นหาได้ ทำให้ระบบจัดการเอกสารมีประโยชน์มากยิ่งขึ้น เราจะอธิบายขั้นตอนการตั้งค่า การทำดัชนี การค้นหา และการผสานรวม OCR แบบกำหนดเอง พร้อมตัวอย่างที่ชัดเจนเป็นขั้นตอน

Quick Answers

  • ไลบรารีใดที่ให้การทำดัชนี OCR? GroupDocs.Search คู่กับ Aspose.OCR.
  • ต้องการเวอร์ชัน Java ใด? JDK 8 หรือสูงกว่า.
  • ต้องการไลเซนส์หรือไม่? มีการทดลองใช้ฟรี; ต้องมีไลเซนส์แบบชำระเงินสำหรับการใช้งานในผลิตภัณฑ์.
  • สามารถทำดัชนีรูปภาพแยกและฝังได้หรือไม่? ได้, เปิดใช้งานทั้งสองตัวเลือกใน IndexingOptions.
  • รองรับการทำงานแบบหลายเธรดหรือไม่? ได้, คุณสามารถทำการทำดัชนีแบบขนานสำหรับชุดข้อมูลขนาดใหญ่.

OCR Indexing กับ GroupDocs คืออะไร?

OCR indexing จะสกัดข้อความจากรูปภาพ (รวมถึง PDF ที่สแกน) แล้วเก็บไว้ในดัชนีที่สามารถค้นหาได้ GroupDocs.Search ดูแลการทำดัชนีและการดำเนินการค้นหา ส่วน Aspose.OCR ทำการจดจำอักขระจริง

ทำไมต้องใช้ GroupDocs สำหรับ OCR indexing ด้วย Java?

  • ความแม่นยำสูง ด้วยเครื่องมือ OCR ขั้นสูงของ Aspose.
  • การผสานรวมกับ Java อย่างไร้รอยต่อ ผ่าน Maven หรือ JAR โดยตรง.
  • การกำหนดค่าที่ยืดหยุ่น สำหรับรูปภาพแยกหรือฝัง.
  • ประสิทธิภาพที่ขยายได้ ด้วยการทำงานหลายเธรดและการปรับแต่งหน่วยความจำ.

ข้อกำหนดเบื้องต้น

  • GroupDocs.Search ≥ 25.4
  • Aspose.OCR (รุ่นล่าสุด)
  • JDK 8+ และ IDE (IntelliJ, Eclipse, NetBeans)
  • ความรู้พื้นฐาน Java; Maven มีประโยชน์แต่ไม่จำเป็น

การตั้งค่า GroupDocs.Search สำหรับ Java

ใช้ Maven

เพิ่ม repository และ dependency ลงในไฟล์ pom.xml ของคุณ:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

ดาวน์โหลดโดยตรง

หรือคุณสามารถดาวน์โหลดเวอร์ชันล่าสุดของ GroupDocs.Search สำหรับ Java ได้จาก GroupDocs releases.

การรับไลเซนส์

  • Free Trial – ทดลองใช้ทุกฟีเจอร์โดยไม่มีค่าใช้จ่าย.
  • Temporary License – ระยะเวลาทดสอบต่อเนื่อง.
  • Purchase – จำเป็นสำหรับการใช้งานในสภาพแวดล้อมการผลิต.

การเริ่มต้นและตั้งค่าเบื้องต้น

สร้างโฟลเดอร์สำหรับดัชนีและเริ่มต้นอ็อบเจกต์ Index:

import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);

วิธีใช้ GroupDocs สำหรับ OCR Indexing

การสร้างดัชนี

ขั้นแรกตั้งค่าโฟลเดอร์ที่จะเก็บไฟล์ดัชนี:

String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);

การตั้งค่า OCR Indexing Options

เปิดใช้งาน OCR สำหรับรูปภาพแยกและฝัง พร้อมเชื่อมต่อ OCR แบบกำหนดเอง:

import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());

การทำดัชนีเอกสาร

เพิ่มเอกสารต้นทางของคุณ (PDF, ไฟล์ Word, รูปภาพ ฯลฯ) ลงในดัชนี:

String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);

การค้นหาในดัชนี

ดำเนินการค้นหาด้วย query ต่อเนื้อหาที่ทำดัชนีแล้ว:

import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);

การทำ OCR Connector

ใช้ Aspose.OCR เพื่อจดจำข้อความจากรูปภาพ. Implement อินเทอร์เฟซ IOcrConnector ตามตัวอย่าง:

import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;

public class OcrConnector implements IOcrConnector {
    @Override
    public final String recognize(OcrContext context) {
        if (null == context.getImageLocation()) {
            throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
        }
        
        BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
        AsposeOCR api = new AsposeOCR();
        String text = api.RecognizePage(image);
        return text;
    }
}

การประยุกต์ใช้งานจริง

  1. Document Management Systems – การดึงเอกสารที่มีรูปภาพสแกนอย่างรวดเร็ว.
  2. Archival Retrieval – ค้นหารายการบันทึกประวัติในคลังข้อมูลขนาดใหญ่.
  3. Legal Document Analysis – ค้นหาสัญญาและหลักฐานที่มีลายเซ็นหรือแผนภาพสแกน.
  4. Medical Records Search – ทำดัชนีแบบฟอร์มผู้ป่วย, ผลการตรวจแลบ, และหมายเหตุบนภาพ X‑ray.

การพิจารณาประสิทธิภาพ

  • ขนาดดัชนี – ลบเมตาดาต้าที่ไม่จำเป็นเพื่อให้ดัชนีมีขนาดเล็ก.
  • Multi‑Threading – ประมวลผลชุดข้อมูลขนาดใหญ่แบบขนานเพื่อเร่งความเร็วการทำดัชนี.
  • การจัดการหน่วยความจำ – ติดตาม heap ของ JVM เมื่อจัดการรูปภาพความละเอียดสูง.

ปัญหาที่พบบ่อยและวิธีแก้ไข

  • License Errors – ตรวจสอบให้แน่ใจว่าไฟล์ไลเซนส์ที่ถูกต้องอยู่ในไดเรกทอรีทำงานของแอปพลิเคชัน.
  • Missing Images – ยืนยันว่าเส้นทางรูปภาพเข้าถึงได้และเป็นฟอร์แมตที่รองรับ (PNG, JPEG, BMP).
  • Out‑Of‑Memory – เพิ่มขนาด heap ของ JVM (-Xmx) หรือทำการประมวลผลเอกสารเป็นชุดเล็กลง.

คำถามที่พบบ่อย

Q: จะจัดการกับปัญหาไลเซนส์ของ GroupDocs.Search อย่างไร?
A: รับไลเซนส์ชั่วคราวจาก GroupDocs website เพื่อเปิดใช้งานฟีเจอร์ทั้งหมด.

Q: วิธีที่ดีที่สุดในการทำดัชนีเอกสารขนาดใหญ่คืออะไร?
A: ใช้การทำงานหลายเธรดและการประมวลผลเป็นชุดเพื่อเพิ่มประสิทธิภาพและลดภาระหน่วยความจำ.

Q: สามารถปรับแต่งการตั้งค่า OCR เพิ่มเติมใน GroupDocs.Search ได้หรือไม่?
A: ได้, IndexingOptions ให้คุณปรับจูนพฤติกรรม OCR เช่น การเลือกภาษาและการเตรียมรูปภาพล่วงหน้า.

Q: มีเคล็ดลับการแก้ไขปัญหาที่พบบ่อยเมื่อใช้ GroupDocs.Search อย่างไร?
A: ตรวจสอบเส้นทางไดเรกทอรีอีกครั้ง, ยืนยันว่าขึ้นต่อ dependencies ทั้งหมดอยู่, และตรวจสอบ log เพื่อหาไฟล์ที่หายไป.

Q: จะผสานรวม Aspose.OCR กับแอปพลิเคชัน Java ที่มีอยู่ได้อย่างไร?
A: Implement อินเทอร์เฟซ IOcrConnector ตามที่แสดงด้านบน, โดยให้แน่ใจว่าจัดการอินพุตของรูปภาพอย่างถูกต้อง.

แหล่งข้อมูล


อัพเดตล่าสุด: 2026-01-11
ทดสอบกับ: GroupDocs.Search 25.4, Aspose.OCR รุ่นล่าสุด
ผู้เขียน: GroupDocs