Εξαγωγή κειμένου από συγκεκριμένες περιοχές σε μια σελίδα

Εισαγωγή

Σε αυτό το σεμινάριο, θα εξερευνήσουμε πώς να εξαγάγετε κείμενο από συγκεκριμένες περιοχές σε μια σελίδα χρησιμοποιώντας τη βιβλιοθήκη GroupDocs.Parser για .NET. Το GroupDocs.Parser απλοποιεί την εξαγωγή κειμένου από έγγραφα, επιτρέποντας στους προγραμματιστές να στοχεύουν συγκεκριμένες περιοχές ενδιαφέροντος μέσα σε ένα έγγραφο για εξαγωγή κειμένου. Αυτό μπορεί να είναι ιδιαίτερα χρήσιμο όταν πρόκειται για πολύπλοκα έγγραφα όπου απαιτείται ακριβής εξαγωγή κειμένου για περαιτέρω επεξεργασία ή ανάλυση.

Προαπαιτούμενα

Πριν ξεκινήσουμε, βεβαιωθείτε ότι έχετε τα εξής:

  • Το Visual Studio είναι εγκατεστημένο στον υπολογιστή σας.
  • Βασική κατανόηση προγραμματισμού C#.
  • Εγκαταστάθηκε το GroupDocs.Parser για τη βιβλιοθήκη .NET. Μπορείτε να το κατεβάσετε απόεδώ.
  • Δείγμα αρχείων εγγράφων για να ελέγξετε την εξαγωγή κειμένου.

Εισαγωγή χώρων ονομάτων

Αρχικά, συμπεριλάβετε τους απαραίτητους χώρους ονομάτων στο αρχείο κώδικα C# για πρόσβαση στις λειτουργίες GroupDocs.Parser:

using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Βήμα 1: Δημιουργήστε την κλάση Parser

Για να ξεκινήσετε την εξαγωγή κειμένου από ένα έγγραφο, δημιουργήστε μια παρουσία τουParserτάξη παρέχοντας τη διαδρομή προς το δείγμα αρχείου εγγράφου:

// Δημιουργήστε μια παρουσία της κλάσης Parser
using (Parser parser = new Parser("YourSampleFile.docx"))
{
    // Συνέχεια με την εξαγωγή κειμένου...
}

Αντικαθιστώ"YourSampleFile.docx" με τη διαδρομή προς το πραγματικό αρχείο εγγράφου σας.

Βήμα 2: Ελέγξτε την Υποστήριξη εξαγωγής περιοχών κειμένου

Πριν προχωρήσετε στην εξαγωγή κειμένου, ελέγξτε εάν το έγγραφο υποστηρίζει την εξαγωγή περιοχών κειμένου χρησιμοποιώντας τοFeatures ιδιοκτησία τουParser τάξη:

// Ελέγξτε εάν το έγγραφο υποστηρίζει την εξαγωγή περιοχών κειμένου
if (!parser.Features.TextAreas)
{
    Console.WriteLine("Document doesn't support text areas extraction.");
    return;
}

Αυτό το βήμα διασφαλίζει ότι το έγγραφο μπορεί να υποβληθεί σε επεξεργασία για την εξαγωγή περιοχών κειμένου.

Βήμα 3: Λήψη πληροφοριών εγγράφου

Ανακτήστε βασικές πληροφορίες σχετικά με το έγγραφο χρησιμοποιώντας τοGetDocumentInfo() μέθοδος:

// Λάβετε τις πληροφορίες του εγγράφου
IDocumentInfo documentInfo = parser.GetDocumentInfo();

Αυτές οι πληροφορίες περιλαμβάνουν τον αριθμό σελίδων και άλλα μεταδεδομένα σχετικά με το έγγραφο.

Βήμα 4: Επανάληψη σελίδων πάνω από το έγγραφο

Επαναλάβετε σε κάθε σελίδα του εγγράφου για να εξαγάγετε κείμενο από συγκεκριμένες περιοχές:

// Ελέγξτε εάν το έγγραφο έχει σελίδες
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document doesn't have any pages.");
    return;
}
// Επανάληψη σε σελίδες
for (int pageIndex = 0; pageIndex < documentInfo.PageCount; pageIndex++)
{
    // Εκτυπώστε τον τρέχοντα αριθμό σελίδας
    Console.WriteLine($"Page {pageIndex + 1}/{documentInfo.PageCount}");
    // Συνεχίστε με την εξαγωγή κειμένου από περιοχές...
}

Αυτός ο βρόχος επεξεργάζεται κάθε σελίδα του εγγράφου διαδοχικά.

Βήμα 5: Εξαγωγή κειμένου από συγκεκριμένες περιοχές

Μέσα στον βρόχο επανάληψης σελίδας, ανακτήστε κείμενο από συγκεκριμένες περιοχές ενδιαφέροντος χρησιμοποιώνταςGetTextAreas() μέθοδος:

// Επανάληψη περιοχών κειμένου σελίδας
foreach (PageTextArea area in parser.GetTextAreas(pageIndex))
{
    // Εκτύπωση συντεταγμένων ορθογωνίου και τιμής περιοχής κειμένου
    Console.WriteLine($"Rectangle: {area.Rectangle}, Text: {area.Text}");
}

Αυτό το βήμα εξάγει κείμενο από κάθε καθορισμένη περιοχή (όπως οριοθέτηση ορθογωνίων) στη σελίδα και εμφανίζει το εξαγόμενο κείμενο.

συμπέρασμα

Σε αυτό το σεμινάριο, μάθαμε πώς να εξάγουμε κείμενο από συγκεκριμένες περιοχές σε μια σελίδα χρησιμοποιώντας το GroupDocs.Parser για .NET. Αξιοποιώντας τις δυνατότητες αυτής της βιβλιοθήκης, οι προγραμματιστές μπορούν να ανακτήσουν με ακρίβεια κείμενο από στοχευμένες περιοχές εντός εγγράφων για διάφορες εφαρμογές.

Συχνές ερωτήσεις

Μπορώ να εξαγάγω κείμενο από σαρωμένες εικόνες χρησιμοποιώντας το GroupDocs.Parser για .NET;

Ναι, το GroupDocs.Parser υποστηρίζει την εξαγωγή κειμένου από σαρωμένες εικόνες μέσω των δυνατοτήτων OCR (Optical Character Recognition).

Είναι το GroupDocs.Parser συμβατό με διάφορες μορφές εγγράφων;

Ναι, το GroupDocs.Parser υποστηρίζει ένα ευρύ φάσμα μορφών εγγράφων, όπως PDF, έγγραφα του Microsoft Office και άλλα.

Πώς μπορώ να χειριστώ πολύπλοκες δομές εγγράφων με ένθετα στοιχεία;

Το GroupDocs.Parser παρέχει δυνατότητες για πλοήγηση σε πολύπλοκες δομές εγγράφων και εξαγωγή κειμένου επιλεκτικά με βάση καθορισμένα κριτήρια.

Το GroupDocs.Parser διατηρεί τη μορφοποίηση κατά την εξαγωγή κειμένου;

Το GroupDocs.Parser εστιάζει στην εξαγωγή περιεχομένου ακατέργαστου κειμένου. Ωστόσο, μπορείτε να ενσωματώσετε πρόσθετη λογική μορφοποίησης όπως απαιτείται στην εφαρμογή σας.

Μπορεί το GroupDocs.Parser να χρησιμοποιηθεί για ομαδική επεξεργασία εγγράφων;

Ναι, το GroupDocs.Parser μπορεί να ενσωματωθεί σε ροές εργασίας ομαδικής επεξεργασίας για τον αποτελεσματικό χειρισμό πολλαπλών εγγράφων.