Reconnaître du texte dans des zones spécifiques
Introduction
Dans ce didacticiel, nous explorerons comment utiliser GroupDocs.Parser pour .NET pour reconnaître et extraire du texte de zones spécifiques d’un document. GroupDocs.Parser est une puissante bibliothèque d’analyse de documents qui permet aux développeurs de travailler avec différents formats de documents, notamment PDF, Word, Excel, PowerPoint, etc. Plus précisément, nous nous concentrerons sur l’exploitation des capacités OCR (Optical Character Recognition) de GroupDocs.Parser pour extraire du texte à partir de zones définies dans un document.
Conditions préalables
Avant de commencer, assurez-vous d’avoir configuré les conditions préalables suivantes :
- Visual Studio IDE : assurez-vous que Visual Studio est installé sur votre ordinateur.
- GroupDocs.Parser pour .NET : téléchargez et installez GroupDocs.Parser pour .NET à partir dulien de téléchargement.
- Exemples de documents : préparez des exemples de fichiers (par exemple, PDF, DOCX) à partir desquels vous souhaitez extraire du texte.
Importer des espaces de noms
Pour commencer, importez les espaces de noms nécessaires dans votre projet :
using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
Décomposons le processus en étapes détaillées à l’aide de GroupDocs.Parser pour .NET :
Étape 1 : Créer des paramètres d’analyseur avec le connecteur OCR
Tout d’abord, créez une instance deParserSettings
classe et initialisez-le avec un connecteur OCR, tel queAsposeOcrOnPremise
:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
Étape 2 : Instancier l’analyseur avec les paramètres
Ensuite, créez une instance deParser
classe en passant la classe créée précédemmentParserSettings
:
using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
// L'extrait de code continue...
}
Remplacer"YourSampleFile.pdf"
avec le chemin d’accès à votre document cible.
Étape 3 : Configurer les options d’extraction de la zone de texte
Créer une instance dePageTextAreaOptions
pour activer l’extraction de texte basée sur l’OCR :
PageTextAreaOptions options = new PageTextAreaOptions(true);
Ensembletrue
pour activer l’OCR pour une meilleure reconnaissance de texte.
Étape 4 : Extraire les zones de texte
Invoquerparser.GetTextAreas(options)
pour extraire des zones de texte du document :
IEnumerable<PageTextArea> areas = parser.GetTextAreas(options);
Étape 5 : Traiter les zones de texte extraites
Parcourez les zones de texte extraites et récupérez les informations sur le texte, la position et la taille :
foreach (PageTextArea area in areas)
{
Console.WriteLine(area.Text);
Console.WriteLine($"\tPosition: ({area.Rectangle.Left}; {area.Rectangle.Top})");
Console.WriteLine($"\tSize: ({area.Rectangle.Size.Width}; {area.Rectangle.Size.Height})");
}
Conclusion
Dans ce didacticiel, nous avons couvert le processus d’extraction de texte de zones spécifiques d’un document à l’aide de GroupDocs.Parser pour .NET avec des fonctionnalités OCR. En suivant ces étapes, vous pouvez exploiter efficacement les fonctionnalités d’analyse de GroupDocs.Parser pour gérer les tâches d’extraction de texte par programme.
FAQ
GroupDocs.Parser peut-il extraire le texte des documents numérisés ?
Oui, GroupDocs.Parser prend en charge l’OCR pour extraire le texte des images numérisées dans les documents.
Quels formats de documents sont pris en charge par GroupDocs.Parser ?
GroupDocs.Parser prend en charge une large gamme de formats, notamment PDF, DOCX, XLSX, PPTX, TXT, etc.
GroupDocs.Parser est-il adapté au traitement par lots de documents ?
Oui, GroupDocs.Parser peut gérer efficacement les tâches de traitement par lots pour l’analyse et l’extraction de documents.
Puis-je personnaliser les options d’extraction de texte avec GroupDocs.Parser ?
Oui, GroupDocs.Parser propose diverses options pour personnaliser l’extraction de texte en fonction d’exigences spécifiques.
GroupDocs.Parser prend-il en charge l’extraction de métadonnées à partir de documents ?
Oui, GroupDocs.Parser permet l’extraction de métadonnées telles que l’auteur, la date de création, etc. à partir des formats de documents pris en charge.