Extrahieren Sie Text aus der Seite im Raw-Modus
Einführung
In diesem Tutorial erfahren Sie, wie Sie mit Groupdocs.Parser für .NET Text aus Dokumentseiten im Rohmodus extrahieren. Diese Bibliothek bietet effiziente Tools zum Parsen und Extrahieren von Inhalten aus verschiedenen Dateiformaten, sodass Entwickler die Dokumenttextextraktion in ihre .NET-Anwendungen integrieren können.
Voraussetzungen
Stellen Sie zunächst sicher, dass die folgenden Voraussetzungen erfüllt sind:
- Grundkenntnisse in C# und .NET-Programmierung
- Auf Ihrem Computer installiertes Visual Studio
- Zugriff auf die Groupdocs.Parser-Bibliothek für .NET
- Beispiel-Dokumentdatei zum Testen
Namespaces importieren
Beginnen Sie, indem Sie die erforderlichen Namespaces in Ihr C#-Projekt einbinden:
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Schritt 1: Parser initialisieren
Erstellen Sie zunächst eine Instanz desParser
Klasse, indem Sie den Pfad zu Ihrer Beispieldokumentdatei angeben.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Ihr Code hier
}
Schritt 2: Dokumentinformationen abrufen
Informationen zum Dokument abrufen mitGetDocumentInfo()
Methode.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
Schritt 3: Seiten durchlaufen und Text extrahieren
Durchlaufen Sie jede Seite des Dokuments und extrahieren Sie den Textinhalt.
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// Text aus der Seite extrahieren
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
Abschluss
Sie haben nun gelernt, wie Sie mit Groupdocs.Parser für .NET Text aus Dokumentseiten im Rohmodus extrahieren. Dies kann eine leistungsstarke Funktion für Anwendungen sein, die Textinhalte aus verschiedenen Dateiformaten analysieren oder verarbeiten müssen.
Häufig gestellte Fragen
Ist Groupdocs.Parser für .NET mit allen Dateiformaten kompatibel?
Groupdocs.Parser unterstützt eine Vielzahl von Dateiformaten, darunter PDF, DOCX, XLSX, PPTX, EPUB und mehr.
Kann ich mit dieser Bibliothek Metadaten zusammen mit Text extrahieren?
Ja, mit Groupdocs.Parser können Sie sowohl Text als auch Metadaten aus Dokumenten extrahieren.
Gibt es eine Testversion zum Ausprobieren?
Ja, Sie können eine kostenlose Testversion herunterladen vonHier.
Wie erhalte ich technischen Support für Groupdocs.Parser?
Technische Unterstützung erhalten Sie imGroupdocs.Parser-Forum.
Wo kann ich eine Lizenz für Groupdocs.Parser für .NET erwerben?
Sie können eine Lizenz erwerbenHier.