원시 모드의 페이지에서 텍스트 추출
소개
이 자습서에서는 .NET용 Groupdocs.Parser를 사용하여 원시 모드로 문서 페이지에서 텍스트를 추출하는 방법을 배웁니다. 이 라이브러리는 다양한 파일 형식의 콘텐츠를 구문 분석하고 추출하는 효율적인 도구를 제공하므로 개발자는 문서 텍스트 추출을 .NET 애플리케이션에 통합할 수 있습니다.
전제 조건
시작하기 전에 다음 필수 구성 요소가 있는지 확인하세요.
- C# 및 .NET 프로그래밍에 대한 기본 지식
- 컴퓨터에 설치된 Visual Studio
- .NET 라이브러리용 Groupdocs.Parser에 액세스
- 테스트용 샘플 문서 파일
네임스페이스 가져오기
C# 프로젝트에 필요한 네임스페이스를 포함하는 것부터 시작하세요.
using System;
using System.Collections.Generic;
using System.IO;
using System.Text;
using GroupDocs.Parser.Data;
using GroupDocs.Parser.Options;
1단계: 파서 초기화
먼저,Parser
샘플 문서 파일의 경로를 제공하여 클래스를 생성합니다.
using (Parser parser = new Parser("YourSampleFile.pdf"))
{
// 여기에 귀하의 코드가 있습니다
}
2단계: 문서 정보 검색
다음을 사용하여 문서에 대한 정보를 검색합니다.GetDocumentInfo()
방법.
IDocumentInfo documentInfo = parser.GetDocumentInfo();
3단계: 페이지 반복 및 텍스트 추출
문서의 각 페이지를 반복하고 텍스트 콘텐츠를 추출합니다.
for (int p = 0; p < documentInfo.RawPageCount; p++)
{
Console.WriteLine($"Page {p + 1}/{documentInfo.RawPageCount}");
// 페이지에서 텍스트 추출
using (TextReader reader = parser.GetText(p, new TextOptions(true)))
{
Console.WriteLine(reader.ReadToEnd());
}
}
결론
이제 .NET용 Groupdocs.Parser를 사용하여 원시 모드로 문서 페이지에서 텍스트를 추출하는 방법을 배웠습니다. 이는 다양한 파일 형식의 텍스트 콘텐츠를 분석하거나 처리해야 하는 애플리케이션에 강력한 기능이 될 수 있습니다.
FAQ
.NET용 Groupdocs.Parser는 모든 파일 형식과 호환됩니까?
Groupdocs.Parser는 PDF, DOCX, XLSX, PPTX, EPUB 등을 포함한 광범위한 파일 형식을 지원합니다.
이 라이브러리를 사용하여 텍스트와 함께 메타데이터를 추출할 수 있나요?
예, Groupdocs.Parser를 사용하면 문서에서 텍스트와 메타데이터를 모두 추출할 수 있습니다.
테스트에 사용할 수 있는 평가판이 있습니까?
예, 다음에서 무료 평가판을 다운로드할 수 있습니다.여기.
Groupdocs.Parser에 대한 기술 지원을 받으려면 어떻게 해야 합니까?
기술 지원을 받으려면 다음을 방문하세요.Groupdocs.Parser 포럼.
.NET용 Groupdocs.Parser 라이센스는 어디서 구매할 수 있나요?
라이센스를 구매하실 수 있습니다여기.