Extrahieren Sie Text aus der Seite im Raw-Modus

Einführung

In diesem Tutorial erfahren Sie, wie Sie mit Groupdocs.Parser für .NET Text aus Dokumentseiten im Rohmodus extrahieren. Diese Bibliothek bietet effiziente Tools zum Parsen und Extrahieren von Inhalten aus verschiedenen Dateiformaten, sodass Entwickler die Dokumenttextextraktion in ihre .NET-Anwendungen integrieren können.

Voraussetzungen

Stellen Sie zunächst sicher, dass die folgenden Voraussetzungen erfüllt sind:

Grundkenntnisse in C# und .NET-Programmierung
Auf Ihrem Computer installiertes Visual Studio
Zugriff auf die Groupdocs.Parser-Bibliothek für .NET
Beispiel-Dokumentdatei zum Testen

Namespaces importieren

Beginnen Sie, indem Sie die erforderlichen Namespaces in Ihr C#-Projekt einbinden:

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Schritt 1: Parser initialisieren

Erstellen Sie zunächst eine Instanz desParser Klasse, indem Sie den Pfad zu Ihrer Beispieldokumentdatei angeben.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Ihr Code hier
}

Schritt 2: Dokumentinformationen abrufen

Informationen zum Dokument abrufen mitGetDocumentInfo() Methode.

IDocumentInfo documentInfo = parser.GetDocumentInfo();

Schritt 3: Seiten durchlaufen und Text extrahieren

Durchlaufen Sie jede Seite des Dokuments und extrahieren Sie den Textinhalt.

for (int p = 0; p < documentInfo.RawPageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
    // Text aus der Seite extrahieren
    using (TextReader reader = parser.GetText(p, new TextOptions(true)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

Abschluss

Sie haben nun gelernt, wie Sie mit Groupdocs.Parser für .NET Text aus Dokumentseiten im Rohmodus extrahieren. Dies kann eine leistungsstarke Funktion für Anwendungen sein, die Textinhalte aus verschiedenen Dateiformaten analysieren oder verarbeiten müssen.

Häufig gestellte Fragen

Ist Groupdocs.Parser für .NET mit allen Dateiformaten kompatibel?

Groupdocs.Parser unterstützt eine Vielzahl von Dateiformaten, darunter PDF, DOCX, XLSX, PPTX, EPUB und mehr.

Kann ich mit dieser Bibliothek Metadaten zusammen mit Text extrahieren?

Ja, mit Groupdocs.Parser können Sie sowohl Text als auch Metadaten aus Dokumenten extrahieren.

Gibt es eine Testversion zum Ausprobieren?

Ja, Sie können eine kostenlose Testversion herunterladen vonHier.

Wie erhalte ich technischen Support für Groupdocs.Parser?

Technische Unterstützung erhalten Sie imGroupdocs.Parser-Forum.

Wo kann ich eine Lizenz für Groupdocs.Parser für .NET erwerben?

Sie können eine Lizenz erwerbenHier.