Δημιουργία Ευρετηρίου Εγγράφων με το GroupDocs.Search για Java: Ένας Πλήρης Οδηγός

Στη σύγχρονη ψηφιακή εποχή, η δυνατότητα δημιουργίας ευρετηρίου εγγράφων γρήγορα και η αποτελεσματική αναζήτηση σε αυτό είναι καθοριστική για κάθε οργανισμό. Είτε δημιουργείτε ένα σύστημα διαχείρισης εγγράφων είτε μια προσαρμοσμένη μηχανή αναζήτησης, το GroupDocs.Search για Java σας παρέχει τα εργαλεία για εξαγωγή κειμένου, σειριοποίηση δεδομένων και εκτέλεση λειτουργιών πλήρους κειμένου Java με ευκολία. Αυτός ο οδηγός σας οδηγεί βήμα‑βήμα—από την εξαγωγή κειμένου PDF μέχρι την προσθήκη δεδομένων στο ευρετήριο και την αναζήτηση των ευρετηριασμένων εγγράφων.

Γρήγορες Απαντήσεις

  • Ποιος είναι ο κύριος σκοπός; Να δημιουργήσετε ένα ευρετήριο εγγράφων με δυνατότητα αναζήτησης χρησιμοποιώντας το GroupDocs.Search για Java.
  • Ποια έκδοση της βιβλιοθήκης; GroupDocs.Search 25.4 (ή η πιο πρόσφατη έκδοση).
  • Χρειάζομαι άδεια; Η δωρεάν δοκιμή λειτουργεί για ανάπτυξη· απαιτείται πλήρης άδεια για παραγωγή.
  • Μπορώ να ευρετήσω PDFs; Ναι—εξάγετε το κείμενο PDF και προσθέστε το στο ευρετήριο.
  • Πώς εκτελώ μια αναζήτηση; Χρησιμοποιήστε τη μέθοδο index.search(query) μετά την προσθήκη δεδομένων.

Τι είναι ένα Ευρετήριο Εγγράφων;

Ένα ευρετήριο εγγράφων είναι μια δομημένη συλλογή όρων αναζήτησης που εξάγονται από τα αρχεία σας. Δημιουργώντας ένα ευρετήριο εγγράφων, επιτρέπετε γρήγορες αναζητήσεις πλήρους κειμένου σε μεγάλες αποθήκες, βελτιώνοντας δραστικά την ταχύτητα και την ακρίβεια ανάκτησης.

Γιατί να χρησιμοποιήσετε το GroupDocs.Search για Java;

  • Αποτελεσματική εξαγωγή – Διαχειρίζεται PDFs, Word, Excel και άλλα.
  • Εύκολη σειριοποίηση – Αποθηκεύει τα εξαγόμενα δεδομένα ως byte arrays για μελλοντική χρήση.
  • Κλιμακούμενο ευρετήριο – Ευρετηριάζει αποδοτικά εκατομμύρια έγγραφα.
  • Ισχυρή γλώσσα ερωτημάτων – Υποστηρίζει σύνθετα ερωτήματα πλήρους κειμένου Java.

Προαπαιτούμενα

  • GroupDocs.Search για Java (Έκδοση 25.4 ή νεότερη).
  • Java Development Kit (JDK) συμβατό με την έκδοση του GroupDocs.
  • Ένα IDE όπως IntelliJ IDEA ή Eclipse.
  • Maven για διαχείριση εξαρτήσεων.

Ρύθμιση του GroupDocs.Search για Java

Πρώτα, προσθέστε τη βιβλιοθήκη στο έργο σας.

Ρύθμιση Maven
Συμπεριλάβετε τα παρακάτω στο αρχείο pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Άμεση Λήψη
Εναλλακτικά, κατεβάστε την πιο πρόσφατη έκδοση από εκδόσεις του GroupDocs.Search για Java.

Απόκτηση Άδειας

  • Δωρεάν Δοκιμή – Δοκιμάστε όλες τις λειτουργίες με προσωρινή άδεια.
  • Αγορά – Λάβετε πλήρη πρόσβαση και προτεραιότητα στην υποστήριξη.

Υλοποίηση Βήμα‑βήμα

Πώς να εξάγετε κείμενο από PDFs (και άλλα έγγραφα)

Η εξαγωγή ακατέργαστου ή μορφοποιημένου κειμένου είναι το πρώτο βήμα για τη δημιουργία ενός ευρετηρίου εγγράφων.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Συμβουλή: Ορίστε setUseRawTextExtraction(true) εάν χρειάζεστε απλό κείμενο χωρίς μορφοποίηση.

Πώς να σειριοποιήσετε τα εξαγόμενα δεδομένα

Η σειριοποίηση σας επιτρέπει να αποθηκεύσετε τα εξαγόμενα δεδομένα για μελλοντική ευρετηρίαση.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Πώς να αποσειριοποιήσετε τα εξαγόμενα δεδομένα

Όταν είστε έτοιμοι να δημιουργήσετε το ευρετήριο, μετατρέψτε το byte array ξανά σε αντικείμενο.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Πώς να δημιουργήσετε ευρετήριο εγγράφων

Τώρα που έχετε το deserializedData, μπορείτε να δημιουργήσετε το ευρετήριο που θα περιέχει όρους αναζήτησης.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Πώς να προσθέσετε δεδομένα στο ευρετήριο και να εκτελέσετε αναζήτηση

Η προσθήκη δεδομένων και η ερώτηση του ευρετηρίου ολοκληρώνουν τη ροή εργασίας δημιουργίας ευρετηρίου εγγράφων.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Προηγμένη συμβουλή: Χρησιμοποιήστε index.search("your query", SearchOptions) για να ρυθμίσετε λεπτομερώς την κατάταξη σχετικότητας.

Συνηθισμένες Περιπτώσεις Χρήσης

  1. Συστήματα Διαχείρισης Εγγράφων – Εντοπίστε γρήγορα συμβόλαια, τιμολόγια ή πολιτικές.
  2. Μηχανές Αναζήτησης Βασισμένες στο Περιεχόμενο – Ενισχύστε εσωτερικές βάσεις γνώσης με δυνατότητες πλήρους κειμένου Java.
  3. Λύσεις Αρχειοθέτησης Δεδομένων – Ευρετηριάστε ιστορικά αρχεία για άμεση ανάκτηση.

Σκέψεις για την Απόδοση

  • Διαχείριση Μνήμης: Προσαρμόστε το μέγεθος heap της JVM για μεγάλες παρτίδες εγγράφων.
  • Επιλογές Ευρετηρίου: Απενεργοποιήστε περιττές λειτουργίες (π.χ., term vectors) για να επιταχύνετε την ευρετηρίαση.
  • Τακτικές Ενημερώσεις: Διατηρήστε το GroupDocs.Search ενημερωμένο για να επωφεληθείτε από διορθώσεις απόδοσης.

Συχνές Ερωτήσεις

Ε: Πώς να διαχειριστώ πολύ μεγάλα αρχεία PDF αποδοτικά;
Α: Μεταδώστε το αρχείο χρησιμοποιώντας το Extractor και επεξεργαστείτε το σε τμήματα· επίσης αυξήστε το heap της JVM εάν χρειάζεται.

Ε: Μπορώ να προσαρμόσω τη σύνταξη του ερωτήματος αναζήτησης;
Α: Ναι—το GroupDocs.Search υποστηρίζει λογικούς τελεστές Boolean, μπαλαντέρ και αναζητήσεις εγγύτητας.

Ε: Τι πρέπει να κάνω αν αποτύχει η σειριοποίηση;
Α: Επαληθεύστε ότι όλα τα αντικείμενα υλοποιούν το Serializable και πιάστε το IOException για να καταγράψετε λεπτομέρειες.

Ε: Είναι δυνατόν να ευρετηριάσω μόνο συγκεκριμένα τμήματα ενός εγγράφου;
Α: Απόλυτα—ρυθμίστε το ExtractionOptions για να φιλτράρετε σελίδες ή τμήματα πριν την ευρετηρίαση.

Ε: Πώς να αναβαθμίσω σε νεότερη έκδοση του GroupDocs.Search;
Α: Ενημερώστε τον αριθμό έκδοσης στο pom.xml και εκτελέστε mvn clean install; εξετάστε τον οδηγό μετάβασης για αλλαγές που μπορεί να σπάσουν.

Πόροι


Τελευταία Ενημέρωση: 2025-12-18
Δοκιμάστηκε Με: GroupDocs.Search 25.4 for Java
Συγγραφέας: GroupDocs