Biçimlendirilmiş Metni Belge Sayfasından Çıkart
giriiş
Bu öğreticide, GroupDocs.Parser for .NET’i kullanarak belge sayfalarından biçimlendirilmiş metni çıkarma sürecinde size rehberlik edeceğiz. Bu kitaplık, PDF, Word, Excel ve daha fazlası gibi çeşitli belge formatlarındaki metinleri verimli bir şekilde ayrıştırmanıza ve çıkarmanıza olanak tanır.
Önkoşullar
Başlamadan önce aşağıdakilere sahip olduğunuzdan emin olun:
- Sisteminizde Visual Studio yüklü.
- Temel C# programlama bilgisi.
- .NET kitaplığı için GroupDocs.Parser. İndirebilirsinBurada.
Ad Alanlarını İçe Aktar
Öncelikle gerekli ad alanlarını C# projenize aktararak başlayın.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;
Adım 1: Ayrıştırıcı Sınıfının Bir Örneğini Oluşturun
Bir örneğini oluşturarak başlayınParser
örnek dosyanızın yolunu sağlayarak sınıf.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// Kod buraya gelecek
}
2. Adım: Biçimlendirilmiş Metin Çıkarmanın Desteklenip Desteklenmediğini Kontrol Edin
Metin çıkarmaya devam etmeden önce belgenin biçimlendirilmiş metin çıkarmayı destekleyip desteklemediğini doğrulayın.
if (!parser.Features.FormattedText)
{
Console.WriteLine("Document does not support formatted text extraction.");
return;
}
3. Adım: Belge Bilgilerini Alın
Sayfa sayısı gibi belgeyle ilgili bilgileri alın.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
Console.WriteLine("Document has no pages.");
return;
}
Adım 4: Belge Sayfaları Üzerinde Yineleme Yapın ve Biçimlendirilmiş Metni Çıkarın
Belgenin her sayfasını yineleyin ve belirtilen seçenekleri (örneğin, Markdown formatı) kullanarak formatlanmış metni çıkarın.
for (int p = 0; p < documentInfo.PageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
Çözüm
Artık GroupDocs.Parser for .NET’i kullanarak belge sayfalarından biçimlendirilmiş metni nasıl çıkaracağınızı biliyorsunuz. Bu kütüphane, çeşitli dosya formatlarından metin çıkarmak için güçlü ve kullanımı kolay bir çözüm sunar.
SSS’ler
GroupDocs.Parser farklı dosya formatlarını işleyebilir mi?
Evet, GroupDocs.Parser, PDF, DOCX, XLSX, PPTX ve daha fazlasını içeren çok çeşitli belge formatlarını destekler.
GroupDocs.Parser .NET Core ile uyumlu mu?
Evet, GroupDocs.Parser .NET Core ve .NET Framework’ü destekler.
GroupDocs.Parser, çıkarma sırasında metin biçimlendirmesini koruyor mu?
Evet, GroupDocs.Parser, metin ayıklanırken stiller ve yazı tipleri gibi formatları koruyabilir.
GroupDocs.Parser’ı kullanarak görüntüleri ve meta verileri çıkarabilir miyim?
Evet, GroupDocs.Parser belgelerden görsellerin, meta verilerin ve metnin çıkarılmasına olanak tanır.
GroupDocs.Parser için nasıl destek alabilirim?
adresinden destek alabilirsiniz.GroupDocs.Parser forumu.