Dikdörtgen Bölgelerdeki Metni Tanıma

giriiş

Bu öğreticide, belgelerin belirli dikdörtgen bölgelerindeki metni tanımak için GroupDocs.Parser for .NET’in nasıl kullanılacağını keşfedeceğiz. GroupDocs.Parser, geliştiricilerin PDF, Word, Excel ve PowerPoint dahil olmak üzere çeşitli dosya formatlarından metin, meta veriler ve daha fazlasını çıkarmasına olanak tanıyan güçlü bir kitaplıktır.

Önkoşullar

Başlamadan önce aşağıdaki kurulumlara sahip olduğunuzdan emin olun:

  • GroupDocs.Parser for .NET: Kitaplığı şu adresten indirip yükleyin:Burada.
  • Geliştirme Ortamı: Visual Studio veya başka herhangi bir .NET IDE.
  • Örnek Belge: Tanınacak metni içeren örnek bir dosyaya (örneğin, PDF, DOCX) sahip olun.

Ad Alanlarını İçe Aktar

Öncelikle gerekli ad alanlarını C# kodunuza aktarmanız gerekir:

using System;
using System.Collections.Generic;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Text;
using Aspose.OCR;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;

1. Adım: Ayrıştırıcı Ayarlarını Başlatın

Kurulumla başlayınParserSettings OCR konektörüyle. Burada Aspose OCR şirket içi bağlayıcıyı kullanacağız:

ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());

2. Adım: Ayrıştırıcı Örneği Oluşturun

Ardından, örneği oluşturunParser önceden tanımlanmış ayarlara sahip sınıf:

using (Parser parser = new Parser("YourSampleFile.pdf", settings))
{
    // Kod burada devam ediyor
}

Yer değiştirmek"YourSampleFile.pdf" belgenizin yolu ile birlikte.

3. Adım: OCR Dikdörtgenini Tanımlayın

Belge içinde metin tanımanın gerçekleştirileceği bir dikdörtgen tanımlayın. Örneğin, başlayan bir dikdörtgen(0, 0) genişlik ile400 ve yükseklik200:

OcrOptions ocrOptions = new OcrOptions(new Data.Rectangle(0, 0, 400, 200));

4. Adım: Metin Tanıma Seçeneklerini Yapılandırın

YaratmakTextOptions Tanımlanan dikdörtgenle birlikte OCR kullanımını belirtmek için:

TextOptions options = new TextOptions(false, true, ocrOptions);

Adım 5: OCR kullanarak Metni Çıkarın

KullanGetText yöntemiParser yapılandırılmış olan örnekTextOptions:

using (TextReader reader = parser.GetText(options))
{
    // Çıkarılan metni okuyun veya 'desteklenmiyor' durumunu ele alın
    Console.WriteLine(reader == null ? "Text extraction isn't supported" : reader.ReadToEnd());
}

Çözüm

Bu eğitimde, OCR kullanarak belgelerdeki belirli dikdörtgen bölgelerden metin çıkarmak için GroupDocs.Parser for .NET’ten nasıl yararlanılacağını gösterdik. Bu süreç daha da özelleştirilebilir ve otomatik metin çıkarma görevleri için çeşitli uygulamalara entegre edilebilir.

SSS’ler

GroupDocs.Parser taranan belgelerden metin çıkarabilir mi?

Evet, GroupDocs.Parser, taranan belgelerden metin çıkarmak için OCR’yi (Optik Karakter Tanıma) destekler.

GroupDocs.Parser hangi dosya formatlarını destekler?

GroupDocs.Parser, PDF, DOCX, XLSX, PPTX ve daha fazlasını içeren çok çeşitli dosya formatlarını destekler.

Metin çıkarma için desteklenmeyen belgeleri nasıl işleyebilirim?

kullanarak metin çıkarmanın desteklenip desteklenmediğini kontrol edebilirsiniz.TextReader tarafından döndürülen örnekparser.GetText(options).

GroupDocs.Parser büyük ölçekli metin çıkarma görevleri için uygun mu?

Evet, GroupDocs.Parser, büyük ölçekli metin çıkarma görevlerini verimli bir şekilde gerçekleştirecek şekilde tasarlanmıştır.

GroupDocs.Parser ile ilgili sorunlar için nereden destek alabilirim?

Destek ve tartışmalar için şu adresi ziyaret edin:GroupDocs.Parser forumu.