Εργασία με πίνακες σε εξαγόμενα δεδομένα
Εισαγωγή
Σε αυτό το σεμινάριο, θα διερευνήσουμε πώς να χρησιμοποιήσετε το GroupDocs.Parser για .NET για την εξαγωγή δεδομένων από πίνακες σε έγγραφα. Το GroupDocs.Parser είναι ένα ισχυρό εργαλείο που επιτρέπει στους προγραμματιστές να αναλύουν και να εξάγουν κείμενο, μεταδεδομένα και δομημένο περιεχόμενο από διάφορες μορφές αρχείων όπως PDF, DOCX, XLSX και άλλα. Συγκεκριμένα, θα επικεντρωθούμε στην αποτελεσματική εξαγωγή δεδομένων πίνακα χρησιμοποιώντας προκαθορισμένα πρότυπα.
Προαπαιτούμενα
Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε τα εξής:
- Το Visual Studio είναι εγκατεστημένο στον υπολογιστή σας.
- Βασική κατανόηση C# και .NET Framework.
- Η βιβλιοθήκη GroupDocs.Parser εγκαταστάθηκε μέσω του διαχειριστή πακέτων NuGet.
Εισαγωγή χώρων ονομάτων
Ξεκινήστε εισάγοντας τους απαραίτητους χώρους ονομάτων για εργασία με το GroupDocs.Parser και σχετικές λειτουργίες.
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;
Βήμα 1: Δημιουργήστε ένα πρότυπο πίνακα
Για να εξαγάγετε δεδομένα από πίνακες, πρώτα ορίστε ένα πρότυπο που αντιπροσωπεύει τη δομή του πίνακα που θέλετε να εξαγάγετε. Καθορίστε τη θέση και τις διαστάσεις του πίνακα μέσα στο έγγραφο.
// Ορισμός παραμέτρων πίνακα (τοποθεσία και μέγεθος)
TemplateTableParameters parameters = new TemplateTableParameters(new Rectangle(new Point(35, 320), new Size(530, 55)), null);
// Δημιουργήστε ένα πρότυπο πίνακα με παραμέτρους
TemplateTable table = new TemplateTable(parameters, "Details", null);
Βήμα 2: Ορίστε ένα πρότυπο
Δημιουργήστε ένα πρότυπο που περιλαμβάνει το πρότυπο πίνακα που ορίσατε. Αυτό το πρότυπο θα καθοδηγήσει τον αναλυτή σχετικά με το τι πρέπει να αναζητήσει κατά την εξαγωγή δεδομένων πίνακα.
// Δημιουργήστε ένα πρότυπο με τον πίνακα
Template template = new Template(new TemplateItem[] { table });
Βήμα 3: Ανάλυση εγγράφου και εξαγωγή δεδομένων πίνακα
Χρησιμοποιήστε την κλάση Parser από το GroupDocs.Parser για να αναλύσετε ένα συγκεκριμένο έγγραφο χρησιμοποιώντας το πρότυπο που ορίσατε.
// Καθορίστε τη διαδρομή προς το δείγμα του αρχείου σας
string filePath = "YourSampleFile.pdf";
// Δημιουργήστε μια παρουσία της κλάσης Parser
using (Parser parser = new Parser(filePath))
{
// Αναλύστε το έγγραφο με βάση το πρότυπο
DocumentData data = parser.ParseByTemplate(template);
// Επανάληψη σε όλα τα εξαγόμενα δεδομένα
for (int i = 0; i < data.Count; i++)
{
Console.Write(data[i].Name + ": ");
// Ελέγξτε εάν το εξαγόμενο πεδίο είναι πίνακας
PageTableArea area = data[i].PageArea as PageTableArea;
if (area == null)
{
continue;
}
// Επανάληψη σε σειρές πίνακα
for (int row = 0; row < area.RowCount; row++)
{
// Επανάληψη στις στήλες του πίνακα
for (int column = 0; column < area.ColumnCount; column++)
{
// Λάβετε την τιμή του κελιού
PageTextArea cellValue = area[row, column].PageArea as PageTextArea;
// Εκτυπώστε την τιμή του κελιού (ή κενή συμβολοσειρά αν είναι μηδενική)
Console.Write(cellValue == null ? "" : cellValue.Text);
// Εκτυπώστε ένα διάστημα στηλών μεταξύ των στηλών
if (column > 0)
{
Console.Write("\t");
}
}
// Μεταβείτε στην επόμενη γραμμή μετά την εκτύπωση κάθε σειράς
Console.WriteLine();
}
}
}
συμπέρασμα
Σε αυτό το σεμινάριο, εξερευνήσαμε τον τρόπο χρήσης του GroupDocs.Parser για .NET για την εξαγωγή δεδομένων πίνακα από έγγραφα. Ορίζοντας πρότυπα και χρησιμοποιώντας μεθόδους ανάλυσης, οι προγραμματιστές μπορούν να εξάγουν αποτελεσματικά δομημένα δεδομένα όπως πίνακες από διάφορες μορφές αρχείων.
Συχνές ερωτήσεις
Είναι το GroupDocs.Parser συμβατό με όλες τις μορφές εγγράφων;
Ναι, το GroupDocs.Parser υποστηρίζει ένα ευρύ φάσμα μορφών αρχείων, συμπεριλαμβανομένων των PDF, DOCX, XLSX, PPTX και άλλων.
Μπορώ να εξαγάγω δεδομένα από συγκεκριμένες περιοχές μέσα σε ένα έγγραφο;
Οπωσδήποτε, μπορείτε να ορίσετε πρότυπα που στοχεύουν συγκεκριμένες περιοχές (όπως πίνακες) σε ένα έγγραφο για εξαγωγή.
Είναι το GroupDocs.Parser κατάλληλο για μεγάλα έγγραφα;
Ναι, το GroupDocs.Parser είναι βελτιστοποιημένο για να χειρίζεται μεγάλα έγγραφα αποτελεσματικά, επιτρέποντας στους προγραμματιστές να εξάγουν δεδομένα απρόσκοπτα.
Το GroupDocs.Parser υποστηρίζει την εξαγωγή κειμένου μαζί με δομημένα δεδομένα;
Ναι, εκτός από την εξαγωγή δομημένων δεδομένων (όπως πίνακες), το GroupDocs.Parser μπορεί να εξάγει απλό κείμενο και μεταδεδομένα από έγγραφα.
Πώς μπορώ να λάβω υποστήριξη ή βοήθεια με την ενσωμάτωση του GroupDocs.Parser;
Για υποστήριξη και συζητήσεις, επισκεφτείτε το φόρουμ της κοινότητας του GroupDocsεδώ.