Werken met velden op gekoppelde posities in sjablonen

Invoering

GroupDocs.Parser voor .NET is een robuuste bibliotheek die is ontworpen om het parseren van documenten en gegevensextractietaken te vergemakkelijken. Het ondersteunt een breed scala aan bestandsformaten, waaronder PDF, DOCX, XLSX en meer. Een van de belangrijkste functies is op sjablonen gebaseerde gegevensextractie, waarmee u velden binnen een document kunt definiëren en specifieke gegevens kunt extraheren op basis van deze vooraf gedefinieerde sjablonen.

Vereisten

Voordat we beginnen, zorg ervoor dat u over het volgende beschikt:

Basiskennis van programmeren in C#
Visual Studio is op uw systeem geïnstalleerd
GroupDocs.Parser voor .NET-bibliotheek (downloaden vanhier)
Voorbeelddocumentbestanden om mee te werken

Naamruimten importeren

Begin met het opnemen van de benodigde naamruimten in uw C#-project:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Templates;

Stap 1: Definieer sjabloonvelden

Definieer eerst de sjabloonvelden met behulp van reguliere expressies en gekoppelde posities:

// Definieer een veld met een reguliere expressie
TemplateField field = new TemplateField(
    new TemplateRegexPosition("Tax"),
    "Tax");
// Definieer een gekoppeld veld met specifieke positie-instellingen
TemplateField linkedField = new TemplateField(
    new TemplateLinkedPosition(
        "Tax",
        new Size(100, 20),
        new TemplateLinkedPositionEdges(false, false, true, false)),
    "TaxValue");

Stap 2: Maak een sjabloon

Maak vervolgens een sjabloon met de gedefinieerde velden:

// Maak een sjabloon met de gedefinieerde velden
Template template = new Template(new TemplateItem[] { field, linkedField });

Stap 3: Document analyseren met sjabloon

Initialiseer nu deParser class en parseer het document met behulp van de sjabloon:

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // Parseer het document op basis van de sjabloon
    DocumentData data = parser.ParseByTemplate(template);
    // Herhaal de geëxtraheerde gegevens en printresultaten
    for (int i = 0; i < data.Count; i++)
    {
        Console.Write(data[i].Name + ": ");
        PageTextArea area = data[i].PageArea as PageTextArea;
        Console.WriteLine(area == null ? "Not a template field" : area.Text);
    }
}

Conclusie

GroupDocs.Parser voor .NET vereenvoudigt het proces van het extraheren van gestructureerde gegevens uit documenten met behulp van sjablonen. Door velden te definiëren en sjablonen toe te passen, kunt u op efficiënte wijze relevante informatie extraheren, waardoor de automatisering en productiviteit bij documentverwerkingstaken wordt verbeterd.

Veelgestelde vragen

Kan GroupDocs.Parser gegevens extraheren uit gecodeerde PDF-bestanden?

Ja, GroupDocs.Parser ondersteunt het parseren van gecodeerde PDF-bestanden door tijdens het parseren het wachtwoord op te geven.

Welke bestandsformaten worden ondersteund voor op sjablonen gebaseerde extractie?

GroupDocs.Parser ondersteunt een breed scala aan bestandsformaten, waaronder PDF, DOCX, XLSX, PPTX, TXT en meer.

Is er een proefversie beschikbaar voor GroupDocs.Parser?

Ja, u kunt een gratis proefversie downloaden vanhier.

Kan ik GroupDocs.Parser gebruiken voor batchverwerking van documenten?

Ja, GroupDocs.Parser maakt batchverwerking mogelijk om meerdere documenten gelijktijdig te parseren.

Waar kan ik technische ondersteuning krijgen voor GroupDocs.Parser?

U kunt technische ondersteuning zoeken en in contact komen met de community opGroupDocs-forum.