如何使用 GroupDocs.Search 搜索文档(Java)

在数字化 documents java** 快速检索对于企业和开发者至关重要。无论是搜索法律合同还是学术论文,都需要一个强大的解决方案来快速找到相关信息。本教程将指导您使用 GroupDocs.Search Java大库。

快速答案

  • 什么库可以帮助搜索文档 Java? GroupDocs.Search for Java。
  • 我可以在结果中突出显示搜索词 java 吗? 是的,库可以生成带有高亮词的 HTML。
  • 我需要许可证吗? 提供免费试用;生产环境需要** 任意 Java IDE,例如 IntelliJ IDEA、Eclipse 或 VS Code。
  • 是否支持 Maven? 当然——将仓库和依赖添加到你的 pom.xml

什么是 GroupDocs.Search for Java?

GroupDocs.Search 是一款 Java SDK,能够对多种文档类型(PDF、DOCX、XLSX 等)进行索引和文本搜索。它提供模糊构建可搜索文档库的理想选择。

为什么使用 GroupDocs.Search 来搜索文档 Java?

  • 速度: 索引搜索在毫秒内返回结果,即使是大型集合。
  • 灵活性: 支持模糊搜索、布尔运算直接在生成的 HTML 预览中 highlight search terms java
  • 可扩展性: 可在本地、云端或混合存储解决方案中使用。

前置条件

  1. 已安装 Java Development Kit (JDK) 8 或更高版本
  2. Maven(或手动依赖管理)。
  3. IDE,例如 **IntelliJ
  4. 对 Java 和 Maven 项目结构有基本了解。

设置 GroupDocs.Search for Java

通过 Maven 安装

将 GroupDocs 仓库和依赖添加到你的 pom.xml

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

直接下载

如果你不想使用 Maven,可从官方发布页面下载最新的 JAR: GroupDocs.Search for Java 发布

获取许可证的步骤

  • 免费试用: 开始免费试用以探索功能。
  • 临时许可证: 通过 GroupDocs 官方网站 获取。
  • 购买: 若需无限制的生产使用,请购买完整许可证。

基本初始化和设置

创建索引文件夹并实例化 Index 对象:

String indexFolder = "YOUR_DOCUMENT_DIRECTORY/ObtainSearchResultInformation";
Index index = new Index(indexFolder);

如何搜索文档 Java –词项、短语、出现次数)有助于构建分析仪表盘或生成关于文档集合内容的报告。

步骤实现

步骤 1:创建索引

String indexFolder = YOUR_DOCUMENT_DIRECTORY + "/ObtainSearchResultInformation";
Index index = new Index(indexFolder);
index.add(documentFolder);

步骤 2:配置搜索选项(启用模糊搜索)

SearchOptions options = new SearchOptions();
options.getFuzzySearch().setEnabled(true);
options.getFuzzySearch().setFuzzyAlgorithm(new TableDiscreteFunction(3));

步骤 3:执行搜索

String query = "favourable OR \"ipsum dolor\"";
SearchResult result = index.search(query, options);

步骤 4:提取出现次数

for (int i = 0; i < result.getDocumentCount(); i++) {
    FoundDocument document = result.getFoundDocument(i);
    for (FoundDocumentField field : document.getFoundFields()) {
        if (field.getTerms() != null) {
            for (String term : field.getTerms()) {
                int occurrences = field.getTermsOccurrences()[field.getTerms().indexOf(term)];
                System.out.println("Term: " + term + ", Occurrences: " + occurrences);
            }
        }
        if (field.getTermSequences() != null) {
            for (String[] terms : field.getTermSequences()) {
                int occurrences = field.getTermSequencesOccurrences()[ArrayUtils.indexOf(field.getTermSequences(), terms)];
                StringBuilder sequence = new StringBuilder();
                for (String term : terms) {
                    sequence.append(term).append(" ");
                }
                System.out.println("Phrase: " + sequence.toString() + ", Occurrences: " + occurrences);
            }
        }
    }
}

功能 2:在文档中高亮显示搜索词 Java

概述

生成包含 highlight search terms java 的 HTML 文件,可让终端用户立即看到匹配位置,提高审阅速度和协作效率。

步骤实现

步骤 1:使用高压缩设置索引

String indexFolder = YOUR_DOCUMENT_DIRECTORY + "/HighlightSearchResults";
IndexSettings settings = new IndexSettings();
settings.setTextStorageSettings(new TextStorageSettings(Compression.High));
Index index = new Index(indexFolder, settings);
index.add(documentFolder);

步骤 2:执行搜索并高亮结果

SearchResult result = index.search("solicitude");
if (result.getDocumentCount() > 0) {
    FoundDocument document = result.getFoundDocument(0);
    String path = YOUR_OUTPUT_DIRECTORY + "/Highlighted.html";
    OutputAdapter outputAdapter = new FileOutputAdapter(OutputFormat.Html, path);
    Highlighter highlighter = new DocumentHighlighter(outputAdapter);
    index.highlight(document, highlighter);
}

实际应用

  1. 法律文档审查 – 快速定位数百份合同中的条款。
  2. 学术研究 – 从研究论文中提取关键短语用于文献综述。
  3. 客户支持 – 在电子邮件存档中识别重复问题。
  4. 内容管理 – 在文章和博客中高亮关键词,以进行 SEO 审计。

性能考虑

  • 压缩: 高压缩可减少存储空间,但可能增加 CPU 使用率;请针对你的工作负载进行测试。
  • 内存管理: 分批索引文档以保持低内存占用。
  • 索引刷新: 定期重新索引已更改的文件,以保持搜索结果的准确性。

结论

在本指南中,我们演示了如何使用 GroupDocs.Search search documents java,提取详细的结果信息,并在 HTML 预览中 highlight search terms java。这些能力使您能够为任何文档库构建快速、用户友好的搜索体验。

接下来的步骤

  • 将高亮的 HTMLSearchOptionsWildcardSearch`。
  • 探索 GroupDocs.Search API 参考,以了解自定义评分等高级场景。

常见问题

Java SDK,能够对多种文档格式进行索引和文本搜索,提供模糊搜索和结果高亮等功能。

Q: 模糊搜索是如何工作的?
A: 它通过容忍可配置数量的字符差异来实现近似匹配,适用于处理拼写错误的情况。

Q: 我可以在没有许可证的情况下使用 GroupDocs.Search 吗?
A: 可以,提供免费试用,但生产部署需要完整许可证。

**Q: 支持
A: PDF、DOCX、XLSX档获取完整列表。

Q: 如何
A: 直接提供生成的 HTML 文件(例如 Highlighted.html),或使用 <iframe> 或服务器端渲染将-01
测试版本: GroupDocs.Search 25.4
作者: GroupDocs