Aspose के साथ Java OCR इंडेक्सिंग के लिए GroupDocs का इस्तेमाल कैसे करें
इस गाइड में आप GroupDocs का इस्तेमाल करके अपने Java एप्लिकेशन में OCR‑संचालित सर्च कैसे जोड़ेंगे, यह जाएंगे। GroupDocs.Search को Aspose.OCR के साथ मिलाकर आप इमेज‑बेस्ड सामग्री को सर्च करने लायक टेक्स्ट में बदल सकते हैं, जिससे डॉक्यूमेंट मैनेजमेंट सिस्टम ज़्यादा उपयोगी बनते हैं। हम सेटअप, लोकेशनिंग, सर्च और कस्टम OCR इंटीग्रेशन को साफ़, स्टेप-दर-स्टेप उदाहरणों के साथ देखेंगे।
क्विक आंसर्स
कौन सी लाइब्रेरी OCR लोकेशनिंग देती है? GroupDocs.Search को Aspose.OCR के साथ जोड़ा जाता है।
कौन सा Java एडिशन ज़रूरी है? JDK8 या उससे ऊपर।
क्या लाइसेंस की ज़रूरत है? एक फ्री ट्रायल उपलब्ध है; प्रोडक्शन के लिए पेड लाइसेंस ज़रूरी है।
क्या मैं अलग-अलग और एम्बेडेड इमेज दोनों को इंडेक्स कर सकता हूँ? हाँ,
IndexingOptionsमें दोनों विकल्प सक्षम करें।क्या मल्टी-थ्रेडिंग सपोर्टेड है? हाँ, बड़े डेटा सेट के लिए आप इंडेक्सिंग को पैरललाइज़ कर सकते हैं।
GroupDocs के साथ OCR इंडेक्सिंग क्या है?
OCR इंडेक्सिंग इमेज (स्कैन किए गए PDF सहित) से टेक्स्ट निकालती है और उसे खोज योग्य इंडेक्स में संकलित करती है। GroupDocs.Search इंडेक्सिंग और क्वेरी निष्पादन संभालता है, जबकि Aspose.OCR वास्तविक शून्य रिकग्निशन करता है।
Java OCR इंडेक्सिंग के लिए GroupDocs का उपयोग क्यों करें?
- उच्च इंडेक्स Aspose के उन्नत OCR इंजन की वजह से।
- सीधे Java इंटीग्रेशन Maven या सीधे JARs के माध्यम से।
- लचीला इंडेक्स अलग-अलग या एम्बेडेड इमेज दोनों के लिए।
- स्केलेबल परफ़ॉर्मेंस मल्टी-थ्रेडिंग और मेमोरी-ऑप्टिमाइज़ेशन के साथ।
ज़रूरी शर्तें
- GroupDocs.Search≥25.4
- Aspose.OCR (नवीनतम वर्शन)
- JDK8+ और एक IDE (IntelliJ, Eclipse, NetBeans)
- बेसिक Java ज्ञान; Maven ज़रूरी है लेकिन ज़रूरी नहीं
Java के लिए GroupDocs.Search सेट अप करना
Maven का इस्तेमाल करना
pom.xml में रिपॉज़िटरी और डिपेंडेंसी जोड़ें:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
डायरेक्ट डाउनलोड
वैकल्पिक रूप से, GroupDocs.Search for Java का लेटेस्ट वर्शन GroupDocs रिलीज़ से डाउनलोड करें।
लाइसेंस एक्विजिशन
- फ़्री ट्रायल – सभी फ़ीचर बिना कॉस्ट के एक्सप्लोर करें।
- टेम्पररी लाइसेंस – एडिशनल टेस्टिंग पीरियड।
- परचेज़ – प्रोडक्शन डिप्लॉयमेंट के लिए ज़रूरी।
बेसिक इनिशियलाइज़ेशन और सेटअप
इंडेक्स फ़ोल्डर बनाएं और Index ऑब्जेक्ट को इनिशियलाइज़ करें:
import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);
OCR इंडेक्सिंग के लिए GroupDocs का इस्तेमाल कैसे करें
इंडेक्स बनाना
पहले, वह फ़ोल्डर सेट करें जहाँ इंडेक्स फ़ाइलें रखी जाएँगी:
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);
OCR इंडेक्सिंग ऑप्शन सेट करना
अलग‑अलग और एम्बेडेड इमेज दोनों के लिए OCR सक्षम करें, और एक कस्टम OCR कनेक्टर जोड़ें:
import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());
डॉक्यूमेंट्स को इंडेक्स करना
अपने स्रोत दस्तावेज़ (PDF, Word फ़ाइलें, इमेज आदि) को इंडेक्स में जोड़ें:
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);
इंडेक्स में खोजना
इंडेक्स किए गए कंटेंट पर सर्च क्वेरी चलाएँ:
import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);
OCR कनेक्टर को इम्प्लीमेंट करना
इमेज से टेक्स्ट पहचानने के लिए Aspose.OCR का उपयोग करें। IOcrConnector इंटरफ़ेस को नीचे दिखाए अनुसार इम्प्लीमेंट करें:
import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;
public class OcrConnector implements IOcrConnector {
@Override
public final String recognize(OcrContext context) {
if (null == context.getImageLocation()) {
throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
}
BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
AsposeOCR api = new AsposeOCR();
String text = api.RecognizePage(image);
return text;
}
}
Practical Applications
- Document Management Systems – स्कैन की गई इमेज वाले डॉक्यूमेंट्स की तेज़ी से रिट्रीवल।
- Archival Retrieval – बड़े आर्काइव में हिस्टोरिकल रिकॉर्ड खोजें।
- Legal Document Analysis – स्कैन किए गए सिग्नेचर या डायग्राम वाले सेटअप और गवाही खोजें।
- Medical Records Search – मरीज़ के फॉर्म, लैब रिजल्ट और X‑ray एनोटेशन को मैप करें।
Performance Considerations
- Index Size – ज़रूरत से ज़्यादा मेटाडेटा को बाहर रखें ताकि मैप हल्के रहें।
- Multi‑Threading – बड़े बैच को पैरलल प्रोसेस करके मैपिंग स्पीड बढ़ाएँ।
- Memory Management – हाई-रिकॉर्ड इमेज प्रोसेस करते समय JVM हीप मॉनिटर करें।
Common Issues and Solutions
- License Errors – सुनिश्चित करें कि सही लाइसेंस फ़ाइल एप्लीकेशन की वर्किंग डायरेक्टरी में रखी गई है।
- Missing Images – Image Path Accessible हैं और Supported फ़ॉर्मेट (PNG, JPEG, BMP) हैं, यह जाँचें।
- Out‑Of‑Memory – JVM हीप (
-Xmx) बढ़ाएँ या डॉक्यूमेंट्स को छोटे बैच में प्रोसेस करें।
अक्सर पूछे जाने वाले सवाल
Q: मैं GroupDocs.Search के साथ लाइसेंसिंग समस्याओं को कैसे हल करूँ? A: पूरी सुविधा वाली इमेज बनाने के लिए GroupDocs वेबसाइट से एक टेम्पररी लाइसेंस प्राप्त करें।
Q: बड़े डॉक्यूमेंट इंडेक्सिंग को हैंडल करने का सबसे अच्छा तरीका क्या है? A: मल्टी-थ्रेडिंग और बैच प्रोसेसिंग का उपयोग करके परफ़ॉर्मेंस सुधारें और मेमोरी प्रेशर कम करें।
Q: क्या मैं GroupDocs.Search में OCR सेटिंग्स को और कस्टमाइज़ कर सकता हूँ?
A: हाँ, IndexingOptions आपको OCR बिहेवियर को फाइन-ट्यून करने की परमिशन देता है, जैसे भाषा सिलेक्शन और इमेज प्री-प्रोसेसिंग।
Q: GroupDocs.Search इस्तेमाल करते समय कुछ आम ट्रबलशूटिंग टिप्स क्या हैं? A: डायरेक्टरी पाथ पुल चेक करें, सभी डिपेंडेंसी मौजूद हैं, और मिसिंग सबमिशन के लिए लॉग आउटपुट देखें।
Q: मैं अपने मौजूदा Java एप्लिकेशन के साथ Aspose.OCR को कैसे इंटीग्रेट कर सकता हूँ?
A: ऊपर दिखाए अनुसार IOcrConnector अपलोड को इम्प्लीमेंट करें, और इमेज इनपुट को सही तरीके से हैंडल करें।
रिसोर्स
पिछला अपडेट: 2026-01-11 इसके साथ टेस्ट किया गया: GroupDocs.Search 25.4, Aspose.OCR लेटेस्ट रिलीज़ लेखक: GroupDocs