문서 페이지에서 서식 있는 텍스트 추출

소개

이 자습서에서는 .NET용 GroupDocs.Parser를 사용하여 문서 페이지에서 서식 있는 텍스트를 추출하는 과정을 안내합니다. 이 라이브러리를 사용하면 PDF, Word, Excel 등과 같은 다양한 문서 형식에서 텍스트를 효율적으로 구문 분석하고 추출할 수 있습니다.

전제 조건

시작하기 전에 다음 사항이 있는지 확인하세요.

시스템에 Visual Studio가 설치되어 있습니다.
C# 프로그래밍에 대한 기본 지식.
.NET 라이브러리용 GroupDocs.Parser. 다운로드할 수 있습니다.여기.

네임스페이스 가져오기

먼저 필요한 네임스페이스를 C# 프로젝트로 가져오는 것부터 시작합니다.

using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Options;

1단계: 파서 클래스 인스턴스 생성

인스턴스를 생성하여 시작합니다.Parser 샘플 파일의 경로를 제공하여 클래스를 생성합니다.

using (Parser parser = new Parser("YourSampleFile.pdf"))
{
    // 코드는 여기에 들어갈 것입니다
}

2단계: 서식 있는 텍스트 추출이 지원되는지 확인

텍스트 추출을 진행하기 전에 문서가 서식 있는 텍스트 추출을 지원하는지 확인하세요.

if (!parser.Features.FormattedText)
{
    Console.WriteLine("Document does not support formatted text extraction.");
    return;
}

3단계: 문서 정보 가져오기

페이지 수와 같은 문서에 대한 정보를 검색합니다.

IDocumentInfo documentInfo = parser.GetDocumentInfo();
if (documentInfo.PageCount == 0)
{
    Console.WriteLine("Document has no pages.");
    return;
}

4단계: 문서 페이지 반복 및 서식 있는 텍스트 추출

문서의 각 페이지를 반복하고 지정된 옵션(예: Markdown 형식)을 사용하여 서식 있는 텍스트를 추출합니다.

for (int p = 0; p < documentInfo.PageCount; p++)
{
    Console.WriteLine($"Page {p + 1}/{documentInfo.PageCount}");
    
    using (TextReader reader = parser.GetFormattedText(p, new FormattedTextOptions(FormattedTextMode.Markdown)))
    {
        Console.WriteLine(reader.ReadToEnd());
    }
}

결론

이제 .NET용 GroupDocs.Parser를 사용하여 문서 페이지에서 서식 있는 텍스트를 추출하는 방법을 알았습니다. 이 라이브러리는 다양한 파일 형식에서 텍스트를 추출하기 위한 강력하고 사용하기 쉬운 솔루션을 제공합니다.

FAQ

GroupDocs.Parser는 다양한 파일 형식을 처리할 수 있나요?

예, GroupDocs.Parser는 PDF, DOCX, XLSX, PPTX 등을 포함한 광범위한 문서 형식을 지원합니다.

GroupDocs.Parser는 .NET Core와 호환되나요?

예, GroupDocs.Parser는 .NET Core 및 .NET Framework를 지원합니다.

GroupDocs.Parser는 추출 중에 텍스트 서식을 유지합니까?

예, GroupDocs.Parser는 텍스트를 추출할 때 스타일 및 글꼴과 같은 서식을 유지할 수 있습니다.

GroupDocs.Parser를 사용하여 이미지와 메타데이터를 추출할 수 있나요?

예, GroupDocs.Parser를 사용하면 문서에서 이미지, 메타데이터 및 텍스트를 추출할 수 있습니다.

GroupDocs.Parser에 대한 지원을 받으려면 어떻게 해야 합니까?

에서 지원을 받으실 수 있습니다.GroupDocs.Parser 포럼.