GroupDocs.Viewer Java का उपयोग करके PDF से टेक्स्ट निकालें
परिचय
PDF से टेक्स्ट निकालना कुशल डिजिटल दस्तावेज़ प्रबंधन के लिए महत्वपूर्ण है। इस व्यापक ट्यूटोरियल में, हम दिखाएंगे कि इसका उपयोग कैसे करें GroupDocs.Viewer जावा पीडीएफ फाइलों से पाठ को सहजता से निकालने के लिए।
आप क्या सीखेंगे:
- Java के लिए GroupDocs.Viewer सेटअप करें
- GroupDocs.Viewer के शक्तिशाली API का उपयोग करके पाठ निकालें
- दस्तावेज़ों के भीतर बहु-पृष्ठ और पंक्ति निष्कर्षण को संभालें
- बड़े PDF के लिए प्रदर्शन को अनुकूलित करें
आइये इस सुविधा को क्रियान्वित करने के लिए आवश्यक पूर्वापेक्षाओं से शुरुआत करें।
आवश्यक शर्तें
शुरू करने से पहले, सुनिश्चित करें कि आपके पास:
आवश्यक पुस्तकालय:
- जावा के लिए GroupDocs.Viewer: आवश्यक कार्यक्षमताओं के लिए संस्करण 25.2 या बाद के संस्करण तक पहुँचें।
पर्यावरण सेटअप आवश्यकताएँ:
- जावा के साथ एक विकास वातावरण (JDK 1.8+ अनुशंसित)।
- निर्भरता प्रबंधन के लिए Maven स्थापित किया गया।
ज्ञान पूर्वापेक्षाएँ:
- जावा प्रोग्रामिंग की बुनियादी समझ.
- मावेन से परिचित होना लाभदायक है लेकिन अनिवार्य नहीं है।
Java के लिए GroupDocs.Viewer सेट अप करना
एकीकृत करें ग्रुपडॉक्स.व्यूअर पीडीएफ से पाठ निकालना शुरू करने के लिए मावेन का उपयोग करके लाइब्रेरी:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/viewer/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-viewer</artifactId>
<version>25.2</version>
</dependency>
</dependencies>
लाइसेंस प्राप्ति:
- मुफ्त परीक्षण: एपीआई सुविधाओं का पता लगाने के लिए उपलब्ध है।
- अस्थायी लाइसेंस: विस्तारित परीक्षण क्षमताओं के लिए.
- खरीदना: व्यावसायिक उपयोग के लिए आवश्यक.
बुनियादी आरंभीकरण और सेटअप
अपने PDF दस्तावेज़ पथ के साथ व्यूअर ऑब्जेक्ट को इस प्रकार आरंभ करें:
कार्यान्वयन मार्गदर्शिका
आइए पाठ निष्कर्षण को तार्किक चरणों में विभाजित करें:
व्यूअर ऑब्जेक्ट को आरंभ करना
try (Viewer viewer = new Viewer("YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF")) {
// आरंभीकरण पूर्ण, अगले चरण पर आगे बढ़ें।
}
यह एक आरंभीकरण करता है Viewer
ऑब्जेक्ट को अपने लक्ष्य पीडीएफ फ़ाइल पथ के साथ जोड़ें।
पाठ निष्कर्षण के लिए ViewInfoOptions कॉन्फ़िगर करना
ViewInfoOptions viewInfoOptions = ViewInfoOptions.forHtmlView();
viewInfoOptions.setExtractText(true);
HTML देखने और पाठ निष्कर्षण को सक्षम करने के लिए विकल्पों को कॉन्फ़िगर करें, यह सुनिश्चित करते हुए कि संसाधित दस्तावेज़ सामग्री तक इन सेटिंग्स के साथ पहुँचा जा सके।
दस्तावेज़ जानकारी प्राप्त करना
PdfViewInfo viewInfo = (PdfViewInfo) viewer.getViewInfo(viewInfoOptions);
फोन करके getViewInfo
पीडीएफ के पृष्ठों और संरचना के बारे में विस्तृत जानकारी प्राप्त करें।
पृष्ठों और पंक्तियों के माध्यम से पुनरावृत्ति
for (Page page : viewInfo.getPages()) {
for (Line line : page.getLines()) {
System.out.println(line.getValue());
}
}
प्रत्येक पृष्ठ और पंक्ति से होकर पाठ निकालें, जिससे आगे की प्रक्रिया संभव हो सके, जैसे कि उसे डेटाबेस में सहेजना।
समस्या निवारण युक्तियों:
- सुनिश्चित करें कि PDF फ़ाइल पथ सही है.
- सत्यापित करें
setExtractText
यदि दृश्य विकल्प में त्रुटियाँ आ रही हों तो सक्षम किया जाता है.
व्यावहारिक अनुप्रयोगों
GroupDocs.Viewer की क्षमताएं सरल टेक्स्ट निष्कर्षण से कहीं आगे तक फैली हुई हैं। वास्तविक दुनिया के अनुप्रयोगों में शामिल हैं:
- डेटा माइग्रेशन: पुराने पीडीएफ अभिलेखागार से सामग्री को निकालना और आधुनिक डेटाबेस या क्लाउड समाधानों में स्थानांतरित करना।
- सामग्री विश्लेषण: निकाले गए पाठ का उपयोग भावना विश्लेषण, कीवर्ड निष्कर्षण या अन्य जानकारी के लिए करें।
- **दस्तावेज़ प्रबंधन प्रणाली (डीएमएस)**स्वचालित दस्तावेज़ अनुक्रमण और पुनर्प्राप्ति के लिए DMS के साथ एकीकृत करें।
प्रदर्शन संबंधी विचार
बड़े दस्तावेज़ों को संभालते समय:
- स्रोत का उपयोगमेमोरी उपयोग पर नज़र रखें क्योंकि एकाधिक पृष्ठों को संसाधित करना संसाधन-गहन हो सकता है।
- जावा मेमोरी प्रबंधन: ऑब्जेक्ट जीवनचक्र का प्रबंधन करें
try-with-resources
जावा के कचरा संग्रहण का उपयोग करने के लिए ब्लॉक को प्रभावी ढंग से उपयोग करें।
निष्कर्ष
इस गाइड में आपको दिखाया गया है कि Java के लिए GroupDocs.Viewer को कैसे सेट अप करें और PDF फ़ाइलों से टेक्स्ट को कुशलतापूर्वक कैसे निकालें। GroupDocs.Viewer की अन्य विशेषताओं का अन्वेषण करें या जटिल वर्कफ़्लो के लिए इसे अतिरिक्त सिस्टम के साथ एकीकृत करें।
अक्सर पूछे जाने वाले प्रश्न अनुभाग
प्रश्न: क्या मैं प्रोडक्शन सर्वर पर GroupDocs.Viewer का उपयोग कर सकता हूँ?
- A: Yes, but ensure you have an appropriate license. A free trial is suitable only for testing purposes.
प्रश्न: पाठ निष्कर्षण पीडीएफ मेटाडेटा को कैसे प्रभावित करता है?
- A: Text extraction focuses on content; metadata remains intact unless explicitly modified.
प्रश्न: GroupDocs.Viewer PDF के अलावा किन फ़ाइल स्वरूपों को संभाल सकता है?
- A: It supports a wide range of formats, including Word documents and Excel spreadsheets.
संसाधन
- प्रलेखन
- एपीआई संदर्भ
- डाउनलोड करना
- खरीदना
- मुफ्त परीक्षण
- अस्थायी लाइसेंस
- सहयता मंच हमें उम्मीद है कि यह गाइड आपको अपनी परियोजनाओं में Java के लिए GroupDocs.Viewer का लाभ उठाने में सक्षम बनाएगी। हैप्पी कोडिंग!