GroupDocs.Search for Java के साथ दस्तावेज़ इंडेक्स बनाएं: एक पूर्ण गाइड
आज के डिजिटल युग में, create document index को जल्दी से बनाना और उसे प्रभावी ढंग से खोजना किसी भी संगठन के लिए गेम‑चेंजर है। चाहे आप दस्तावेज़ प्रबंधन प्रणाली बना रहे हों या कस्टम सर्च इंजन, GroupDocs.Search for Java आपको टेक्स्ट निकालने, डेटा सीरियलाइज़ करने और full‑text search Java ऑपरेशन्स को आसानी से करने के उपकरण प्रदान करता है। यह ट्यूटोरियल आपको हर चरण से परिचित कराता है—PDF टेक्स्ट निकालने से लेकर डेटा को इंडेक्स में जोड़ने और इंडेक्स किए गए दस्तावेज़ों को खोजने तक।
त्वरित उत्तर
- What is the main purpose? GroupDocs.Search for Java का उपयोग करके एक खोज योग्य दस्तावेज़ इंडेक्स बनाने के लिए।
- Which library version? GroupDocs.Search 25.4 (या नवीनतम रिलीज़)।
- Do I need a license? विकास के लिए एक मुफ्त ट्रायल काम करता है; उत्पादन के लिए पूर्ण लाइसेंस आवश्यक है।
- Can I index PDFs? हाँ—PDF टेक्स्ट निकालें और उसे इंडेक्स में जोड़ें।
- How do I run a search? डेटा जोड़ने के बाद
index.search(query)मेथड का उपयोग करें।
दस्तावेज़ इंडेक्स क्या है?
एक दस्तावेज़ इंडेक्स आपके फ़ाइलों से निकाले गए खोज योग्य शब्दों का संरचित संग्रह है। दस्तावेज़ इंडेक्स बनाकर आप बड़े रिपॉज़िटरीज़ में तेज़ full‑text खोज सक्षम करते हैं, जिससे पुनः प्राप्ति की गति और सटीकता में उल्लेखनीय सुधार होता है।
GroupDocs.Search for Java क्यों उपयोग करें?
- Robust extraction – PDFs, Word, Excel आदि को संभालता है।
- Easy serialization – निकाले गए डेटा को बाद में उपयोग के लिए बाइट एरे के रूप में संग्रहीत करता है।
- Scalable indexing – लाखों दस्तावेज़ों को प्रभावी ढंग से इंडेक्स करता है।
- Powerful query language – जटिल full‑text search Java क्वेरीज़ को सपोर्ट करता है।
पूर्वापेक्षाएँ
- GroupDocs.Search for Java (संस्करण 25.4 या नया)।
- Java Development Kit (JDK) जो आपके GroupDocs संस्करण के साथ संगत हो।
- IntelliJ IDEA या Eclipse जैसे IDE।
- निर्भरता प्रबंधन के लिए Maven।
GroupDocs.Search for Java सेटअप करना
पहले, लाइब्रेरी को अपने प्रोजेक्ट में जोड़ें।
Maven Setuppom.xml फ़ाइल में निम्नलिखित शामिल करें:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Direct Download
वैकल्पिक रूप से, नवीनतम संस्करण GroupDocs.Search for Java releases से डाउनलोड करें।
लाइसेंस प्राप्ति
- Free Trial – अस्थायी लाइसेंस के साथ सभी सुविधाओं का परीक्षण करें।
- Purchase – पूर्ण एक्सेस और प्राथमिकता समर्थन प्राप्त करें।
चरण‑दर‑चरण कार्यान्वयन
PDFs (और अन्य दस्तावेज़) से टेक्स्ट निकालना कैसे करें
Extracting raw or formatted text is the first step toward creating a document index.
String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);
Tip: यदि आपको बिना फ़ॉर्मेटिंग के साधारण टेक्स्ट चाहिए तो
setUseRawTextExtraction(true)सेट करें।
निकाले गए डेटा को सीरियलाइज़ कैसे करें
Serialization lets you store the extracted data for later indexing.
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();
निकाले गए डेटा को डीसीरियलाइज़ कैसे करें
When you’re ready to build the index, convert the byte array back into an object.
ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);
दस्तावेज़ इंडेक्स कैसे बनाएं
Now that you have deserializedData, you can create the index that will hold searchable terms.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);
डेटा को इंडेक्स में जोड़ना और खोज करना कैसे करें
Adding data and querying the index completes the create document index workflow.
ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);
Pro tip: प्रासंगिकता रैंकिंग को फाइन‑ट्यून करने के लिए
index.search("your query", SearchOptions)का उपयोग करें।
सामान्य उपयोग केस
- Document Management Systems – अनुबंध, चालान, या नीतियों को जल्दी से खोजें।
- Content‑Based Search Engines – आंतरिक ज्ञान आधार को full‑text search Java क्षमताओं से सशक्त बनाएं।
- Data Archiving Solutions – तत्काल पुनर्प्राप्ति के लिए ऐतिहासिक रिकॉर्ड को इंडेक्स करें।
प्रदर्शन संबंधी विचार
- Memory Management: बड़े दस्तावेज़ बैचों के लिए JVM हीप आकार समायोजित करें।
- Indexing Options: अनावश्यक सुविधाओं (जैसे term vectors) को निष्क्रिय करके इंडेक्सिंग गति बढ़ाएँ।
- Regular Updates: प्रदर्शन पैचों का लाभ उठाने के लिए GroupDocs.Search को अद्यतित रखें।
अक्सर पूछे जाने वाले प्रश्न
Q: How do I handle very large PDF files efficiently?
A: Extractor का उपयोग करके फ़ाइल को स्ट्रीम करें और उसे चंक्स में प्रोसेस करें; आवश्यकता पड़ने पर JVM हीप भी बढ़ाएँ।
Q: Can I customize the search query syntax?
A: हाँ—GroupDocs.Search Boolean ऑपरेटर्स, वाइल्डकार्ड और प्रॉक्सिमिटी सर्च को सपोर्ट करता है।
Q: What should I do if serialization fails?
A: सुनिश्चित करें कि सभी ऑब्जेक्ट Serializable को इम्प्लीमेंट करते हैं और IOException को कैच करके विवरण लॉग करें।
Q: Is it possible to index only specific sections of a document?
A: बिल्कुल—इंडेक्सिंग से पहले पेज या सेक्शन फ़िल्टर करने के लिए ExtractionOptions कॉन्फ़िगर करें।
Q: How do I upgrade to a newer GroupDocs.Search version?
A: अपने pom.xml में संस्करण संख्या अपडेट करें और mvn clean install चलाएँ; ब्रेकिंग चेंजेज़ के लिए माइग्रेशन गाइड देखें।
संसाधन
- Documentation: GroupDocs Documentation
- API Reference: GroupDocs API Reference
- Download: GroupDocs Downloads
- GitHub: GroupDocs GitHub Repository
- Free Support: GroupDocs Forum
- Temporary License: Obtain a Temporary License
अंतिम अपडेट: 2025-12-18
परीक्षण किया गया संस्करण: GroupDocs.Search 25.4 for Java
लेखक: GroupDocs