Tạo Chỉ mục Tài liệu với GroupDocs.Search cho Java: Hướng dẫn đầy đủ

Trong thời đại số hiện nay, khả năng tạo chỉ mục tài liệu nhanh chóng và tìm kiếm hiệu quả là một yếu tố thay đổi cuộc chơi cho bất kỳ tổ chức nào. Dù bạn đang xây dựng hệ thống quản lý tài liệu hay một công cụ tìm kiếm tùy chỉnh, GroupDocs.Search cho Java cung cấp cho bạn các công cụ để trích xuất văn bản, tuần tự hoá dữ liệu và thực hiện các thao tác tìm kiếm toàn văn Java một cách dễ dàng. Hướng dẫn này sẽ dẫn bạn qua từng bước — từ việc trích xuất văn bản PDF đến việc thêm dữ liệu vào chỉ mục và tìm kiếm các tài liệu đã được lập chỉ mục.

Quick Answers

  • Mục đích chính là gì? Tạo một chỉ mục tài liệu có thể tìm kiếm được bằng cách sử dụng GroupDocs.Search cho Java.
  • Phiên bản thư viện nào? GroupDocs.Search 25.4 (hoặc bản phát hành mới nhất).
  • Tôi có cần giấy phép không? Bản dùng thử miễn phí đủ cho việc phát triển; giấy phép đầy đủ cần thiết cho môi trường sản xuất.
  • Tôi có thể lập chỉ mục PDF không? Có — trích xuất văn bản pdf và thêm vào chỉ mục.
  • Làm thế nào để thực hiện tìm kiếm? Sử dụng phương thức index.search(query) sau khi đã thêm dữ liệu.

Chỉ mục Tài liệu là gì?

Một chỉ mục tài liệu là một tập hợp có cấu trúc các thuật ngữ có thể tìm kiếm được được trích xuất từ các tệp của bạn. Bằng cách tạo một chỉ mục tài liệu, bạn cho phép thực hiện các tìm kiếm toàn văn nhanh chóng trên các kho lưu trữ lớn, cải thiện đáng kể tốc độ và độ chính xác của việc truy xuất.

Tại sao nên sử dụng GroupDocs.Search cho Java?

  • Trích xuất mạnh mẽ – Hỗ trợ PDF, Word, Excel và các định dạng khác.
  • Tuần tự hoá dễ dàng – Lưu trữ dữ liệu đã trích xuất dưới dạng mảng byte để tái sử dụng sau.
  • Lập chỉ mục mở rộng – Lập chỉ mục hàng triệu tài liệu một cách hiệu quả.
  • Ngôn ngữ truy vấn mạnh mẽ – Hỗ trợ các truy vấn tìm kiếm toàn văn Java phức tạp.

Yêu cầu trước

  • GroupDocs.Search cho Java (Phiên bản 25.4 hoặc mới hơn).
  • Bộ công cụ phát triển Java (JDK) tương thích với phiên bản GroupDocs của bạn.
  • Một IDE như IntelliJ IDEA hoặc Eclipse.
  • Maven để quản lý phụ thuộc.

Cài đặt GroupDocs.Search cho Java

First, add the library to your project.

Cài đặt Maven
Include the following in your pom.xml file:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Tải trực tiếp
Ngoài ra, tải phiên bản mới nhất từ bản phát hành GroupDocs.Search cho Java.

Nhận giấy phép

  • Dùng thử miễn phí – Kiểm tra tất cả tính năng với giấy phép tạm thời.
  • Mua – Nhận quyền truy cập đầy đủ và hỗ trợ ưu tiên.

Triển khai từng bước

Cách trích xuất văn bản từ PDF (và các tài liệu khác)

Extracting raw or formatted text is the first step toward creating a document index.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Mẹo: Đặt setUseRawTextExtraction(true) nếu bạn cần văn bản thuần mà không có định dạng.

Cách tuần tự hoá dữ liệu đã trích xuất

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Cách giải tuần tự hoá dữ liệu đã trích xuất

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Cách tạo chỉ mục tài liệu

Now that you have deserializedData, you can create the index that will hold searchable terms.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Cách thêm dữ liệu vào chỉ mục và thực hiện tìm kiếm

Adding data and querying the index completes the create document index workflow.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Mẹo chuyên nghiệp: Sử dụng index.search("your query", SearchOptions) để tinh chỉnh thứ hạng liên quan.

Các trường hợp sử dụng phổ biến

  1. Hệ thống quản lý tài liệu – Nhanh chóng tìm thấy hợp đồng, hoá đơn hoặc chính sách.
  2. Công cụ tìm kiếm dựa trên nội dung – Cung cấp sức mạnh cho các kho kiến thức nội bộ với khả năng tìm kiếm toàn văn Java.
  3. Giải pháp lưu trữ dữ liệu – Lập chỉ mục các hồ sơ lịch sử để truy xuất ngay lập tức.

Các cân nhắc về hiệu năng

  • Quản lý bộ nhớ: Điều chỉnh kích thước heap JVM cho các lô tài liệu lớn.
  • Tùy chọn lập chỉ mục: Tắt các tính năng không cần thiết (ví dụ: term vectors) để tăng tốc độ lập chỉ mục.
  • Cập nhật thường xuyên: Giữ GroupDocs.Search luôn cập nhật để hưởng lợi từ các bản vá hiệu năng.

Câu hỏi thường gặp

Q: Làm thế nào để xử lý các tệp PDF rất lớn một cách hiệu quả?
A: Dòng dữ liệu tệp bằng Extractor và xử lý theo từng khối; cũng tăng kích thước heap JVM nếu cần.

Q: Tôi có thể tùy chỉnh cú pháp truy vấn tìm kiếm không?
A: Có — GroupDocs.Search hỗ trợ các toán tử Boolean, ký tự đại diện và tìm kiếm gần nhau.

Q: Tôi nên làm gì nếu quá trình tuần tự hoá thất bại?
A: Xác minh rằng tất cả các đối tượng đều triển khai Serializable và bắt IOException để ghi lại chi tiết.

Q: Có thể lập chỉ mục chỉ các phần cụ thể của tài liệu không?
A: Chắc chắn — cấu hình ExtractionOptions để lọc các trang hoặc phần trước khi lập chỉ mục.

Q: Làm thế nào để nâng cấp lên phiên bản GroupDocs.Search mới hơn?
A: Cập nhật số phiên bản trong pom.xml của bạn và chạy mvn clean install; xem lại hướng dẫn di chuyển để biết các thay đổi gây lỗi.

Tài nguyên


Cập nhật lần cuối: 2025-12-18
Đã kiểm tra với: GroupDocs.Search 25.4 cho Java
Tác giả: GroupDocs