Εξαγωγή Κειμένου από PDF Java: Δημιουργία Ευρετηρίου Εγγράφων με το GroupDocs.Search

Σε αυτόν τον πρακτικό οδηγό θα ανακαλύψετε πώς να εξάγετε κείμενο από PDF Java εφαρμογές και να μετατρέψετε αυτό το ακατέργαστο περιεχόμενο σε ένα γρήγορο, πλήρως αναζητήσιμο ευρετήριο κειμένου. Είτε δημιουργείτε μια εσωτερική βάση γνώσεων, μια πύλη αναζήτησης συμβάσεων ή μια προσαρμοσμένη μηχανή αναζήτησης, τα παρακάτω βήματα σας καθοδηγούν σε όλα — από την εξαγωγή κειμένου από PDFs μέχρι τη σειριοποίηση των δεδομένων, τη δημιουργία του ευρετηρίου και, τέλος, την εκτέλεση ερωτημάτων. Ας βουτήξουμε και ας δούμε γιατί το GroupDocs.Search κάνει όλη τη διαδικασία ομαλή και κλιμακώσιμη.

Γρήγορες Απαντήσεις

  • Ποιος είναι ο κύριος σκοπός; Για την εξαγωγή κειμένου από αρχεία PDF Java και τη δημιουργία ενός ευρετηρίου εγγράφων με δυνατότητα αναζήτησης με το GroupDocs.Search.
  • Ποια έκδοση της βιβλιοθήκης; GroupDocs.Search 25.4 (ή η πιο πρόσφατη έκδοση).
  • Χρειάζομαι άδεια; Μια δωρεάν δοκιμή λειτουργεί για ανάπτυξη· απαιτείται πλήρης άδεια για παραγωγή.
  • Μπορώ να ευρετηριάσω PDFs; Ναι — εξάγετε το κείμενο PDF και προσθέστε το στο ευρετήριο.
  • Πώς εκτελώ μια αναζήτηση; Χρησιμοποιήστε τη μέθοδο index.search(query) μετά την προσθήκη των δεδομένων.

Τι είναι ένα Ευρετήριο Εγγράφων;

Ένα ευρετήριο εγγράφων είναι μια δομημένη συλλογή όρων αναζήτησης που εξάγονται από τα αρχεία σας. Δημιουργώντας ένα ευρετήριο εγγράφων, επιτρέπετε γρήγορες πλήρεις αναζητήσεις κειμένου σε μεγάλα αποθετήρια, βελτιώνοντας δραστικά την ταχύτητα και την ακρίβεια ανάκτησης.

Γιατί να Χρησιμοποιήσετε το GroupDocs.Search για Java;

  • Ανθεκτική εξαγωγή – Υποστηρίζει PDFs, Word, Excel και άλλα.
  • Εύκολη σειριοποίηση – Αποθηκεύστε τα εξαγόμενα δεδομένα ως byte arrays για μελλοντική επαναχρήση.
  • Κλιμακώσιμη ευρετηρίαση – Ευρετηριάστε αποτελεσματικά εκατομμύρια έγγραφα.
  • Ισχυρή γλώσσα ερωτημάτων – Υποστηρίζει σύνθετα ερωτήματα πλήρους κειμένου σε Java.

Προαπαιτούμενα

  • GroupDocs.Search για Java (Έκδοση 25.4 ή νεότερη).
  • Java Development Kit (JDK) συμβατό με την έκδοση του GroupDocs.
  • Ένα IDE όπως IntelliJ IDEA ή Eclipse.
  • Maven για διαχείριση εξαρτήσεων.

Ρύθμιση του GroupDocs.Search για Java

Πρώτα, προσθέστε τη βιβλιοθήκη στο έργο σας.

Maven Setup
Συμπεριλάβετε τα παρακάτω στο αρχείο pom.xml σας:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Direct Download
Εναλλακτικά, κατεβάστε την πιο πρόσφατη έκδοση από GroupDocs.Search for Java releases.

Απόκτηση Άδειας

  • Δωρεάν Δοκιμή – Δοκιμάστε όλες τις λειτουργίες με προσωρινή άδεια.
  • Αγορά – Αποκτήστε πλήρη πρόσβαση και προτεραιότητα στην υποστήριξη.

Υλοποίηση Βήμα‑βήμα

Πώς να εξάγετε κείμενο από PDFs (και άλλα έγγραφα)

Η εξαγωγή ακατέργαστου ή μορφοποιημένου κειμένου είναι το πρώτο βήμα για τη δημιουργία ενός ευρετηρίου εγγράφων. Όταν εξάγετε κείμενο από PDF Java, παρέχετε στη μηχανή αναζήτησης κάτι που μπορεί να κατανοήσει.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Συμβουλή: Ορίστε setUseRawTextExtraction(true) εάν χρειάζεστε απλό κείμενο χωρίς μορφοποίηση.

Πώς να σειριοποιήσετε τα εξαγόμενα δεδομένα

Η σειριοποίηση σας επιτρέπει να αποθηκεύσετε τα εξαγόμενα δεδομένα για μελλοντική ευρετηρίαση.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Πώς να αποσειριοποιήσετε τα εξαγόμενα δεδομένα

Όταν είστε έτοιμοι να δημιουργήσετε το ευρετήριο, μετατρέψτε το byte array ξανά σε αντικείμενο.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Πώς να δημιουργήσετε ευρετήριο εγγράφων

Τώρα που έχετε το deserializedData, μπορείτε να δημιουργήσετε το ευρετήριο που θα περιέχει τους όρους αναζήτησης.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Πώς να προσθέσετε δεδομένα στο ευρετήριο και να εκτελέσετε αναζήτηση

Η προσθήκη δεδομένων και η εκτέλεση ερωτημάτων στο ευρετήριο ολοκληρώνει τη ροή εργασίας εξαγωγής κειμένου από PDF Java.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Pro tip: Χρησιμοποιήστε index.search("your query", SearchOptions) για να βελτιστοποιήσετε την κατάταξη σχετικότητας.

Συνηθισμένες Περιπτώσεις Χρήσης

  1. Συστήματα Διαχείρισης Εγγράφων – Εντοπίστε γρήγορα συμβάσεις, τιμολόγια ή πολιτικές.
  2. Μηχανές Αναζήτησης Βασισμένες σε Περιεχόμενο – Ενισχύστε εσωτερικές βάσεις γνώσεων με δυνατότητες πλήρους κειμένου σε Java.
  3. Λύσεις Αρχειοθέτησης Δεδομένων – Ευρετηριάστε ιστορικά αρχεία για άμεση ανάκτηση.

Σκέψεις για την Απόδοση

  • Διαχείριση Μνήμης: Ρυθμίστε το μέγεθος του heap της JVM για μεγάλες παρτίδες εγγράφων.
  • Επιλογές Ευρετηρίασης: Απενεργοποιήστε περιττές λειτουργίες (π.χ., term vectors) για ταχύτερη ευρετηρίαση.
  • Τακτικές Ενημερώσεις: Διατηρήστε το GroupDocs.Search ενημερωμένο για να επωφεληθείτε από διορθώσεις απόδοσης.

Συχνές Ερωτήσεις

Ε: Πώς να διαχειριστώ πολύ μεγάλα αρχεία PDF αποδοτικά;
Α: Διαβάστε το αρχείο σε ροή χρησιμοποιώντας Extractor και επεξεργαστείτε το σε τμήματα· αυξήστε επίσης το heap της JVM εάν χρειάζεται.

Ε: Μπορώ να προσαρμόσω τη σύνταξη του ερωτήματος αναζήτησης;
Α: Ναι — το GroupDocs.Search υποστηρίζει λογικούς τελεστές Boolean, μπαλαντέρ και αναζητήσεις εγγύτητας.

Ε: Τι πρέπει να κάνω αν η σειριοποίηση αποτύχει;
Α: Επαληθεύστε ότι όλα τα αντικείμενα υλοποιούν το Serializable και πιάστε το IOException για να καταγράψετε λεπτομέρειες.

Ε: Είναι δυνατόν να ευρετηριάσω μόνο συγκεκριμένα τμήματα ενός εγγράφου;
Α: Απόλυτα — ρυθμίστε το ExtractionOptions ώστε να φιλτράρει σελίδες ή τμήματα πριν την ευρετηρίαση.

Ε: Πώς να αναβαθμίσω σε νεότερη έκδοση του GroupDocs.Search;
Α: Ενημερώστε τον αριθμό έκδοσης στο pom.xml και εκτελέστε mvn clean install; εξετάστε τον οδηγό μετάβασης για αλλαγές που σπάζουν συμβατότητα.

Πόροι


Last Updated: 2026-02-19
Tested With: GroupDocs.Search 25.4 for Java
Author: GroupDocs