Εξαγωγή κειμένου από συγκεκριμένες περιοχές με επιλογές
Εισαγωγή
Σε αυτό το σεμινάριο, θα διερευνήσουμε πώς να χρησιμοποιήσετε το GroupDocs.Parser για .NET για την εξαγωγή κειμένου από συγκεκριμένες περιοχές ενός εγγράφου χρησιμοποιώντας προσαρμόσιμες επιλογές. Το GroupDocs.Parser είναι μια ισχυρή βιβλιοθήκη που επιτρέπει στους προγραμματιστές να αναλύουν και να εξάγουν κείμενο από διάφορες μορφές εγγράφων χωρίς κόπο.
Προαπαιτούμενα
Πριν βουτήξουμε στην κωδικοποίηση, βεβαιωθείτε ότι έχετε τα εξής:
- Περιβάλλον ανάπτυξης: Εγκαταστήστε το Visual Studio ή οποιοδήποτε άλλο IDE ανάπτυξης .NET.
- GroupDocs.Parser Library: Κάντε λήψη και εγκατάσταση του GroupDocs.Parser για .NET απόεδώ.
- Δείγμα αρχείου: Προετοιμάστε ένα δείγμα εγγράφου (π.χ. PDF, DOCX, κ.λπ.) για εξαγωγή κειμένου.
Εισαγωγή χώρων ονομάτων
Αρχικά, θα χρειαστεί να εισαγάγετε τους απαραίτητους χώρους ονομάτων για πρόσβαση στις τάξεις και τις μεθόδους GroupDocs.Parser.
using System;
using System.Collections.Generic;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Βήμα 1: Δημιουργήστε μια παρουσία κλάσης Parser
Αρχικοποιήστε μια παρουσία τουParser
τάξη παρέχοντας τη διαδρομή προς το δείγμα αρχείου σας.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Ο κώδικας για την εξαγωγή περιοχής κειμένου θα πάει εδώ
}
Βήμα 2: Ορίστε τις επιλογές εξαγωγής περιοχής κειμένου
ΔημιουργώPageTextAreaOptions
για να καθορίσετε τα κριτήρια για την εξαγωγή κειμένου.
PageTextAreaOptions options = new PageTextAreaOptions("\\s[a-z]{2}\\s", new Rectangle(new Point(0, 0), new Size(300, 100)));
Σε αυτό το παράδειγμα:
"\\s[a-z]{2}\\s"
είναι ένα τυπικό μοτίβο έκφρασης για αντιστοίχιση περιοχών κειμένου που περιέχουν μόνο πεζά γράμματα.new Rectangle(new Point(0, 0), new Size(300, 100))
ορίζει το ορθογώνιο (θέση και μέγεθος) στη σελίδα από το οποίο θα εξαχθεί κείμενο.
Βήμα 3: Εξαγωγή περιοχών κειμένου
Χρησιμοποιήστε τις καθορισμένες επιλογές για να εξαγάγετε περιοχές κειμένου που πληρούν τα καθορισμένα κριτήρια.
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Βήμα 4: Ελέγξτε και επαναλάβετε τις εξαγόμενες περιοχές κειμένου
Ελέγξτε αν υποστηρίζεται η εξαγωγή περιοχής κειμένου και, στη συνέχεια, επαναλάβετε τις εξαγόμενες περιοχές.
if (areas == null)
{
Console.WriteLine("Page text areas extraction isn't supported");
return;
}
foreach (PageTextArea a in areas)
{
Console.WriteLine(string.Format("Page: {0}, R: {1}, Text: {2}", a.Page.Index, a.Rectangle, a.Text));
}
συμπέρασμα
Σε αυτό το σεμινάριο, έχουμε καλύψει τον τρόπο εξαγωγής κειμένου από συγκεκριμένες περιοχές ενός εγγράφου χρησιμοποιώντας το GroupDocs.Parser για .NET. Αυτή η βιβλιοθήκη προσφέρει εκτεταμένες δυνατότητες ανάλυσης διαφόρων μορφών εγγράφων, καθιστώντας την ένα πολύτιμο εργαλείο για εργασίες εξαγωγής κειμένου.
Συχνές ερωτήσεις
Μπορεί το GroupDocs.Parser να εξάγει κείμενο από σαρωμένα έγγραφα;
Ναι, το GroupDocs.Parser υποστηρίζει την εξαγωγή κειμένου που βασίζεται σε OCR για σαρωμένα έγγραφα.
Είναι το GroupDocs.Parser συμβατό με πολλές μορφές εγγράφων;
Ναι, μπορεί να αναλύει και να εξάγει κείμενο από PDF, DOCX, XLSX, PPTX και άλλες δημοφιλείς μορφές.
Το GroupDocs.Parser παρέχει υποστήριξη για .NET Core;
Ναι, το GroupDocs.Parser είναι συμβατό με .NET Core καθώς και με .NET Framework.
Μπορώ να εξαγάγω μεταδεδομένα μαζί με κείμενο χρησιμοποιώντας το GroupDocs.Parser;
Ναι, μπορείτε να εξαγάγετε τόσο περιεχόμενο κειμένου όσο και μεταδεδομένα από έγγραφα.
Υπάρχει διαθέσιμη δοκιμαστική έκδοση για το GroupDocs.Parser;
Ναι, μπορείτε να λάβετε δωρεάν δοκιμή απόεδώ.