Reconnaître du texte dans des zones spécifiques

Introduction

Dans ce didacticiel, nous explorerons comment utiliser GroupDocs.Parser pour .NET pour reconnaître et extraire du texte de zones spécifiques d’un document. GroupDocs.Parser est une puissante bibliothèque d’analyse de documents qui permet aux développeurs de travailler avec différents formats de documents, notamment PDF, Word, Excel, PowerPoint, etc. Plus précisément, nous nous concentrerons sur l’exploitation des capacités OCR (Optical Character Recognition) de GroupDocs.Parser pour extraire du texte à partir de zones définies dans un document.

Conditions préalables

Avant de commencer, assurez-vous d’avoir configuré les conditions préalables suivantes :

Visual Studio IDE : assurez-vous que Visual Studio est installé sur votre ordinateur.
GroupDocs.Parser pour .NET : téléchargez et installez GroupDocs.Parser pour .NET à partir dulien de téléchargement.
Exemples de documents : préparez des exemples de fichiers (par exemple, PDF, DOCX) à partir desquels vous souhaitez extraire du texte.

Importer des espaces de noms

Pour commencer, importez les espaces de noms nécessaires dans votre projet :

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

Décomposons le processus en étapes détaillées à l’aide de GroupDocs.Parser pour .NET :

Étape 1 : Créer des paramètres d’analyseur avec le connecteur OCR

Tout d’abord, créez une instance deParserSettingsclasse et initialisez-le avec un connecteur OCR, tel queAsposeOcrOnPremise:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

Étape 2 : Instancier l’analyseur avec les paramètres

Ensuite, créez une instance deParser classe en passant la classe créée précédemmentParserSettings:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // L'extrait de code continue...
}

Remplacer"YourSampleFile.pdf" avec le chemin d’accès à votre document cible.

Étape 3 : Configurer les options d’extraction de la zone de texte

Créer une instance dePageTextAreaOptions pour activer l’extraction de texte basée sur l’OCR :

PageTextAreaOptions options = new PageTextAreaOptions(true);

Ensembletrue pour activer l’OCR pour une meilleure reconnaissance de texte.

Étape 4 : Extraire les zones de texte

Invoquerparser.GetTextAreas(options) pour extraire des zones de texte du document :

IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);

Étape 5 : Traiter les zones de texte extraites

Parcourez les zones de texte extraites et récupérez les informations sur le texte, la position et la taille :

foreach (PageTextArea area in areas)
{
    Console.WriteLine(area.Text);
    Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
    Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}

Conclusion

Dans ce didacticiel, nous avons couvert le processus d’extraction de texte de zones spécifiques d’un document à l’aide de GroupDocs.Parser pour .NET avec des fonctionnalités OCR. En suivant ces étapes, vous pouvez exploiter efficacement les fonctionnalités d’analyse de GroupDocs.Parser pour gérer les tâches d’extraction de texte par programme.

FAQ

GroupDocs.Parser peut-il extraire le texte des documents numérisés ?

Oui, GroupDocs.Parser prend en charge l’OCR pour extraire le texte des images numérisées dans les documents.

Quels formats de documents sont pris en charge par GroupDocs.Parser ?

GroupDocs.Parser prend en charge une large gamme de formats, notamment PDF, DOCX, XLSX, PPTX, TXT, etc.

GroupDocs.Parser est-il adapté au traitement par lots de documents ?

Oui, GroupDocs.Parser peut gérer efficacement les tâches de traitement par lots pour l’analyse et l’extraction de documents.

Puis-je personnaliser les options d’extraction de texte avec GroupDocs.Parser ?

Oui, GroupDocs.Parser propose diverses options pour personnaliser l’extraction de texte en fonction d’exigences spécifiques.

GroupDocs.Parser prend-il en charge l’extraction de métadonnées à partir de documents ?

Oui, GroupDocs.Parser permet l’extraction de métadonnées telles que l’auteur, la date de création, etc. à partir des formats de documents pris en charge.