Thêm tài liệu vào chỉ mục & hợp nhất trong Java bằng GroupDocs.Search

Trong môi trường kỹ thuật số ngày nay với tốc độ nhanh, việc học cách thêm tài liệu vào chỉ mục một cách hiệu quả là điều cần thiết cho bất kỳ giải pháp document management java nào. Cho dù bạn đang xử lý hợp đồng, hoá đơn hay báo cáo nội bộ, một chỉ mục được cấu trúc tốt cho phép bạn truy xuất thông tin trong vài mili giây. Hướng dẫn này sẽ chỉ cho bạn cách tạo chỉ mục, thêm tài liệu, cấu hình tùy chọn hợp nhất, và thậm chí cancel merge operation nếu cần—tất cả đều sử dụng GroupDocs.Search cho Java.

Câu trả lời nhanh

  • What does “add documents to index” mean? Nó cho GroupDocs.Search quét một thư mục và lưu trữ siêu dữ liệu có thể tìm kiếm cho mỗi tệp.
  • Can I stop a long merge? Có—sử dụng đối tượng Cancellation để cancel merge operation sau một thời gian chờ.
  • Do I need a license? Bản dùng thử miễn phí hoặc giấy phép tạm thời hoạt động cho việc thử nghiệm; giấy phép thương mại mở khóa đầy đủ tính năng.
  • Which Java version is required? JDK 8 hoặc mới hơn.
  • Is this suitable for large datasets? Chắc chắn—chỉ cần giám sát bộ nhớ và sử dụng chỉ mục tăng dần.

“add documents to index” là gì trong GroupDocs.Search?

Thêm tài liệu vào một chỉ mục có nghĩa là đưa một tập hợp các tệp vào GroupDocs.Search để thư viện có thể phân tích nội dung, trích xuất token và xây dựng cấu trúc dữ liệu có thể tìm kiếm. Khi đã được lập chỉ mục, bạn có thể thực hiện các tìm kiếm toàn văn nhanh chóng trên tất cả các tài liệu.

Tại sao nên sử dụng GroupDocs.Search cho document management java?

  • Scalable indexing – Xử lý hàng ngàn tệp mà không làm giảm hiệu năng.
  • Rich API – Cung cấp kiểm soát chi tiết đối với việc lập chỉ mục, hợp nhất và hủy.
  • Cross‑format support – Hoạt động với PDF, Word, Excel và nhiều định dạng khác ngay từ đầu.

Yêu cầu trước

  • GroupDocs.Search for Java phiên bản 25.4 hoặc mới hơn.
  • Maven (hoặc tải JAR thủ công).
  • Kiến thức cơ bản về Java và môi trường JDK 8+.

Cài đặt GroupDocs.Search cho Java

Cài đặt Maven

Nếu bạn quản lý các phụ thuộc bằng Maven, thêm kho và phụ thuộc vào tệp pom.xml của bạn:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Tải trực tiếp

Hoặc tải JAR mới nhất từ trang chính thức: GroupDocs.Search for Java releases.

Nhận giấy phép

  • Free Trial: Đăng ký trên trang web GroupDocs để nhận giấy phép dùng thử.
  • Temporary License: Đăng ký khóa tạm thời nếu bạn cần thời gian đánh giá kéo dài.
  • Commercial License: Mua để sử dụng trong môi trường sản xuất.

Sau khi có tệp giấy phép, đặt nó vào dự án và khởi tạo thư viện như sẽ được trình bày phía sau.

Hướng dẫn thực hiện

Cách thêm tài liệu vào chỉ mục – Tạo chỉ mục đầu tiên

Đầu tiên, tạo một chỉ mục rỗng để chứa dữ liệu có thể tìm kiếm của bạn.

import com.groupdocs.search.Index;

// Create an instance of the index at the specified path
Index index1 = new Index("YOUR_DOCUMENT_DIRECTORY\\\\Index1");
  • Why: Bước này thiết lập một container lưu trữ nơi các token đã lập chỉ mục sẽ được lưu.

Thêm tài liệu vào chỉ mục

Bây giờ hãy cho GroupDocs.Search biết quét một thư mục và add documents to index.

index1.add("YOUR_DOCUMENT_DIRECTORY"); // Add documents from this directory
  • Why: Thư viện đọc từng tệp, trích xuất văn bản và lưu vào index1.

Tạo chỉ mục thứ hai cho quy trình làm việc linh hoạt

Đôi khi bạn cần các chỉ mục riêng biệt—ví dụ, để tách dữ liệu của một khách hàng.

Index index2 = new Index("YOUR_DOCUMENT_DIRECTORY\\\\Index2");
index2.add("YOUR_DOCUMENT_DIRECTORY");
  • Why: Nhiều chỉ mục cho phép bạn quản lý các tập tài liệu riêng biệt và sau đó kết hợp chúng.

Cách cấu hình tùy chọn hợp nhất và hủy thao tác hợp nhất

Trước khi hợp nhất, bạn có thể tinh chỉnh quy trình và thậm chí dừng lại nếu nó chạy quá lâu.

import com.groupdocs.search.options.MergeOptions;
import com.groupdocs.search.options.Cancellation;

MergeOptions options = new MergeOptions();
options.setCancellation(new Cancellation()); // Initialize cancellation object
options.getCancellation().cancelAfter(5000); // Cancel merge operation after 5 seconds
  • Why: Cancellation cung cấp cho bạn khả năng cancel merge operation tự động, ngăn ngừa các tác vụ chạy không kiểm soát.

Hợp nhất các chỉ mục

Cuối cùng, hợp nhất chỉ mục phụ vào chỉ mục chính.

index1.merge(index2, options);
  • Why: Sau lời gọi này, index1 chứa tất cả tài liệu từ cả hai nguồn, mang lại trải nghiệm tìm kiếm thống nhất.

Ứng dụng thực tiễn cho Document Management Java

  • Legal firms: Tổng hợp hồ sơ vụ án từ nhiều văn phòng.
  • Financial institutions: Hợp nhất báo cáo quý thành một kho lưu trữ có thể tìm kiếm duy nhất.
  • Enterprises: Kết hợp tài liệu HR, tuân thủ và chính sách cho tìm kiếm toàn doanh nghiệp.

Các cân nhắc về hiệu năng

  • Incremental indexing: Thêm các tệp mới định kỳ thay vì xây dựng lại toàn bộ chỉ mục.
  • Memory monitoring: Các lô lớn có thể tiêu tốn RAM; hãy xem xét xử lý theo các khối nhỏ hơn.
  • Garbage collection: Giải phóng các đối tượng Index không dùng ngay để giải phóng tài nguyên.

Các vấn đề thường gặp & Giải pháp

IssueSolution
Incorrect folder pathXác minh đường dẫn tuyệt đối và đảm bảo ứng dụng có quyền đọc.
Insufficient memoryTăng bộ nhớ heap JVM (-Xmx) hoặc lập chỉ mục các tệp theo lô.
Cancellation not triggeredĐảm bảo cancelAfter được thiết lập trước khi gọi merge.
Unsupported file formatCài đặt các plugin định dạng bổ sung từ GroupDocs nếu cần.

Câu hỏi thường gặp

Q: Why would I create multiple indexes instead of a single one?
A: Các chỉ mục riêng cho phép bạn tách các miền dữ liệu, áp dụng các chính sách bảo mật khác nhau và chỉ hợp nhất khi cần, giúp cải thiện hiệu năng và tổ chức.

Q: Can I cancel an indexing operation the same way I cancel a merge?
A: Có—sử dụng đối tượng Cancellation với phương thức add để dừng các tác vụ lập chỉ mục chạy lâu.

Q: How do I ensure optimal performance with very large document collections?
A: Thực hiện lập chỉ mục tăng dần, giám sát bộ nhớ JVM và cân nhắc sử dụng ổ SSD cho thư mục chỉ mục.

Q: What should I do if I receive “Access denied” errors?
A: Kiểm tra quyền thư mục cho người dùng chạy tiến trình Java và đảm bảo tệp giấy phép có thể đọc được.

Q: Is GroupDocs.Search compatible with other GroupDocs libraries?
A: Hoàn toàn—bạn có thể tích hợp nó với GroupDocs.Viewer, GroupDocs.Conversion, v.v., để có giải pháp tài liệu toàn diện.

Kết luận

Bằng cách làm theo hướng dẫn này, bạn đã biết cách add documents to index, cấu hình hành vi hợp nhất và an toàn cancel merge operation khi cần—tất cả trong một quy trình document management java mạnh mẽ. Hãy thử nghiệm với các bộ dữ liệu lớn hơn, khám phá các tokenizer tùy chỉnh, hoặc kết hợp GroupDocs.Search với các sản phẩm GroupDocs khác để xây dựng giải pháp doanh nghiệp thực thụ.

Resources


Last Updated: 2026-01-03
Tested With: GroupDocs.Search 25.4 for Java
Author: GroupDocs