Comment utiliser GroupDocs pour l’indexation OCR Java avec Aspose
Dans ce guide, vous découvrirez comment utiliser GroupDocs pour ajouter une recherche alimentée par OCR à vos applications Java. En combinant GroupDocs.Search avec Aspose.OCR, vous pouvez transformer le contenu basé sur des images en texte recherchable, rendant les systèmes de gestion de documents beaucoup plus utiles. Nous parcourrons la configuration, l’indexation, la recherche et l’intégration OCR personnalisée, le tout avec des exemples clairs, étape par étape.
Réponses rapides
- Quelle bibliothèque fournit l’indexation OCR ? GroupDocs.Search associé à Aspose.OCR.
- Quelle version de Java est requise ? JDK 8 ou supérieur.
- Ai-je besoin d’une licence ? Un essai gratuit est disponible ; une licence payante est requise pour la production.
- Puis-je indexer à la fois des images séparées et intégrées ? Oui, activez les deux options dans
IndexingOptions. - Le multithreading est‑il pris en charge ? Oui, vous pouvez paralléliser l’indexation pour de grands ensembles de données.
Qu’est‑ce que l’indexation OCR avec GroupDocs ?
L’indexation OCR extrait le texte des images (y compris les PDF numérisés) et le stocke dans un index recherchable. GroupDocs.Search gère l’indexation et l’exécution des requêtes, tandis qu’Aspose.OCR effectue la reconnaissance réelle des caractères.
Pourquoi utiliser GroupDocs pour l’indexation OCR Java ?
- Haute précision grâce au moteur OCR avancé d’Aspose.
- Intégration Java transparente via Maven ou des JARs directs.
- Configuration flexible pour les images séparées ou intégrées.
- Performance évolutive avec le multithreading et les optimisations de mémoire.
Prérequis
- GroupDocs.Search ≥ 25.4
- Aspose.OCR (dernière version)
- JDK 8+ et un IDE (IntelliJ, Eclipse, NetBeans)
- Connaissances de base en Java ; Maven est utile mais pas obligatoire
Configuration de GroupDocs.Search pour Java
Utilisation de Maven
Ajoutez le dépôt et la dépendance à votre pom.xml :
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Téléchargement direct
Alternativement, téléchargez la dernière version de GroupDocs.Search pour Java depuis versions GroupDocs.
Acquisition de licence
- Essai gratuit – explorez toutes les fonctionnalités sans frais.
- Licence temporaire – période de test prolongée.
- Achat – requis pour les déploiements en production.
Initialisation et configuration de base
Créez un dossier d’index et initialisez l’objet Index :
import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);
Comment utiliser GroupDocs pour l’indexation OCR
Création d’un index
Tout d’abord, configurez le dossier qui contiendra les fichiers d’index :
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);
Configuration des options d’indexation OCR
Activez l’OCR pour les images séparées et intégrées, et branchez un connecteur OCR personnalisé :
import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());
Indexation des documents
Ajoutez vos documents sources (PDF, fichiers Word, images, etc.) à l’index :
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);
Recherche dans un index
Exécutez une requête de recherche sur le contenu indexé :
import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);
Implémentation d’un connecteur OCR
Utilisez Aspose.OCR pour reconnaître le texte des images. Implémentez l’interface IOcrConnector comme indiqué :
import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;
public class OcrConnector implements IOcrConnector {
@Override
public final String recognize(OcrContext context) {
if (null == context.getImageLocation()) {
throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
}
BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
AsposeOCR api = new AsposeOCR();
String text = api.RecognizePage(image);
return text;
}
}
Applications pratiques
- Systèmes de gestion de documents – récupération rapide des documents contenant des images numérisées.
- Recherche d’archives – localiser les dossiers historiques au sein d’archives massives.
- Analyse de documents juridiques – rechercher des contrats et des preuves incluant des signatures ou diagrammes numérisés.
- Recherche de dossiers médicaux – indexer les formulaires patients, résultats de laboratoire et annotations de radiographies.
Considérations de performance
- Taille de l’index – excluez les métadonnées inutiles pour garder l’index léger.
- Multithreading – traitez de gros lots en parallèle pour accélérer l’indexation.
- Gestion de la mémoire – surveillez le tas JVM lors du traitement d’images haute résolution.
Problèmes courants et solutions
- Erreurs de licence – assurez‑vous que le fichier de licence correct est placé dans le répertoire de travail de l’application.
- Images manquantes – vérifiez que les chemins d’accès aux images sont accessibles et que les formats sont pris en charge (PNG, JPEG, BMP).
- Out‑Of‑Memory – augmentez le tas JVM (
-Xmx) ou traitez les documents par lots plus petits.
Questions fréquemment posées
Q : Comment résoudre les problèmes de licence avec GroupDocs.Search ?
R : Obtenez une licence temporaire depuis le site Web GroupDocs pour débloquer toutes les fonctionnalités.
Q : Quelle est la meilleure façon de gérer l’indexation de gros documents ?
R : Utilisez le multithreading et le traitement par lots pour améliorer les performances et réduire la pression sur la mémoire.
Q : Puis‑je personnaliser davantage les paramètres OCR dans GroupDocs.Search ?
R : Oui, IndexingOptions vous permet d’ajuster finement le comportement de l’OCR, comme la sélection de la langue et le prétraitement des images.
Q : Quels sont quelques conseils de dépannage courants lors de l’utilisation de GroupDocs.Search ?
R : Vérifiez à nouveau les chemins des répertoires, assurez‑vous que toutes les dépendances sont présentes, et examinez la sortie des journaux pour les fichiers manquants.
Q : Comment intégrer Aspose.OCR à mon application Java existante ?
R : Implémentez l’interface IOcrConnector comme démontré ci‑dessus, en veillant à gérer correctement l’entrée d’images.
Ressources
Dernière mise à jour : 2026-01-11
Testé avec : GroupDocs.Search 25.4, Aspose.OCR dernière version
Auteur : GroupDocs