Java에서 GroupDocs.Parser OCR을 사용하여 스캔된 PDF 텍스트 추출
오늘날 빠르게 변화하는 디지털 환경에서 스캔된 PDF 텍스트 추출을 빠르고 정확하게 수행하는 것은 모든 자동화 워크플로우의 핵심 요구 사항입니다. 레거시 종이 기록을 디지털화하거나 청구서 처리를 위한 이미지 텍스트 java를 읽는 파이프라인을 구축하든, GroupDocs.Parser의 OCR 엔진은 필요한 도구를 제공합니다. 이 튜토리얼에서는 라이브러리를 설정하고, OCR을 위한 정확한 사각형 영역을 정의하며, 오류를 우아하게 처리하는 방법을 배웁니다—성능을 염두에 두고 진행합니다.
빠른 답변
- “스캔된 PDF 텍스트 추출”이 의미하는 바는? 스캔된 PDF의 시각적 콘텐츠를 검색 가능하고 편집 가능한 텍스트로 변환하는 것입니다.
- Java에서 OCR을 처리하는 라이브러리는? Aspose OCR 커넥터와 함께 사용하는 GroupDocs.Parser입니다.
- 라이선스가 필요합니까? 테스트용으로는 무료 체험판을 사용할 수 있으며, 프로덕션에서는 유료 라이선스가 필요합니다.
- OCR을 특정 영역으로 제한할 수 있나요? 예 –
Rectangle과 함께OcrOptions를 사용합니다. - 오류 처리가 필요합니까? 물론입니다; OCR 호출을 try‑catch 블록으로 감싸서 충돌을 방지합니다.
스캔된 PDF 텍스트 추출이란?
스캔된 PDF 텍스트를 추출하는 것은 광학 문자 인식(OCR)을 적용하여 이미지 기반 PDF 페이지를 기계가 읽을 수 있는 텍스트로 변환하는 과정입니다. 이를 통해 검색, 인덱싱 및 하위 데이터 추출이 가능해집니다.
Java에서 OCR을 위해 GroupDocs.Parser를 사용하는 이유
GroupDocs.Parser는 직관적인 API, Aspose OCR와의 원활한 통합, 그리고 특정 페이지 영역을 지정할 수 있는 기능을 제공합니다. 이를 통해 처리 시간이 단축되고 정확도가 향상되며, 특히 문서의 알려진 섹션에서 이미지 텍스트 java만 읽어야 할 때 유용합니다.
사전 요구 사항
- Java Development Kit (JDK 8 이상).
- GroupDocs.Parser 라이브러리 – Maven을 통해 설치하거나 직접 다운로드합니다.
- 기본 Java 지식 – 클래스, try‑with‑resources, 예외 처리에 익숙해야 합니다.
Java용 GroupDocs.Parser 설정
Maven 설치
pom.xml에 저장소와 의존성을 추가합니다:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/parser/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>25.5</version>
</dependency>
</dependencies>
직접 다운로드
또는 최신 버전을 GroupDocs.Parser for Java releases에서 다운로드합니다.
라이선스 획득
무료 체험판으로 시작하거나 전체 기능 접근을 위해 임시 라이선스를 요청하십시오. 프로덕션에서는 영구 라이선스를 구매해야 합니다.
기본 초기화 및 설정
라이브러리를 추가한 후에는 OCR 기능을 활용할 준비가 됩니다.
구현 가이드
정의된 사각형으로 스캔된 PDF 텍스트 추출하는 방법
특정 영역을 대상으로 하면 속도와 정확도가 향상되며, 특히 알려진 영역에서 이미지 텍스트 java를 읽어야 할 때 유용합니다.
단계 1: OCR 설정 구성
Aspose OCR 엔진을 가리키는 파서 설정을 생성합니다:
ParserSettings settings = new ParserSettings(new AsposeOcrOnPremise());
단계 2: 파서 초기화
처리하려는 문서를 열고, 방금 만든 설정을 전달합니다:
try (Parser parser = new Parser("YOUR_DOCUMENT_DIRECTORY", settings)) {
// Proceed to define OCR area and extract text.
}
단계 3: OCR 영역 정의
관심 있는 텍스트를 둘러싼 사각형을 지정합니다:
OcrOptions ocrOptions = new OcrOptions(new Rectangle(0, 0, 400, 200));
이 사각형은 좌상단 (0,0)에서 시작하여 가로 400 px, 세로 200 px까지 확장됩니다.
단계 4: 텍스트 옵션 설정
정의된 사각형에 대해 OCR을 사용하도록 파서에 지정합니다:
TextOptions options = new TextOptions(false, true, ocrOptions);
false는 언어별 제한을 비활성화하고, true는 OCR 영역을 활성화합니다.
단계 5: 텍스트 추출
문서에서 OCR 처리된 텍스트를 읽습니다:
try (TextReader reader = parser.getText(options)) {
String resultText = reader == null ? "Text extraction isn't supported" : reader.readToEnd();
// Use extracted text as needed.
}
단계 6: OCR 처리 중 오류 처리
전체 작업을 try‑catch 블록으로 감싸서 문제를 포착합니다:
try {
// Include main OCR processing logic here (refer to previous section).
} catch (Exception ex) {
System.out.println("An error occurs: " + ex.getMessage());
}
이를 통해 OCR 엔진이 예상치 못한 형식을 만나더라도 애플리케이션이 안정적으로 유지됩니다.
실용적인 적용 사례
- 청구서 처리 – 스캔된 청구서에서 핵심 필드를 자동으로 추출합니다.
- 문서 디지털화 – 종이 아카이브를 검색 가능한 PDF로 변환합니다.
- 데이터 입력 자동화 – 양식에서 이미지 텍스트 java를 읽어 수동 입력을 없앱니다.
성능 고려 사항
- 리소스 사용 – 특히 대용량 PDF의 경우 메모리를 모니터링합니다.
- Java 메모리 관리 – (예시와 같이) try‑with‑resources를 사용해 스트림을 즉시 닫습니다.
- 배치 처리 – 가능하면 여러 문서에 대해 OCR을 병렬화합니다.
일반적인 문제와 해결책
| 문제 | 해결책 |
|---|---|
| 대용량 파일에서 메모리 부족 오류 | 페이지를 더 작은 배치로 처리하고, 필요하면 JVM 힙을 늘립니다. |
| OCR 정확도 저하 | ParserSettings에서 원본 이미지의 DPI를 조정하거나 언어 힌트를 제공합니다. |
| 지원되지 않는 파일 형식 | 파일이 지원되는 이미지/PDF 형식인지 확인하고, 필요하면 변환합니다. |
자주 묻는 질문
Q: Java 개발 맥락에서 OCR이란 무엇인가요?
A: Optical Character Recognition (OCR)은 GroupDocs.Parser와 같은 라이브러리를 사용해 텍스트 이미지를 기계가 인코딩한 문자로 변환합니다.
Q: OCR 추출을 위한 사각형 영역을 어떻게 정의하나요?
A: Rectangle 객체와 함께 OcrOptions 클래스를 사용해 대상 영역의 좌표와 크기를 설정합니다.
Q: OCR 처리 중 흔히 발생하는 오류는 무엇이며, 어떻게 처리하나요?
A: 오류에는 지원되지 않는 형식이나 잘못된 설정이 포함됩니다. OCR 호출을 try‑catch 블록으로 감싸 로그를 남기고 정상적으로 복구합니다.
Q: 라이선스 없이 GroupDocs.Parser를 사용할 수 있나요?
A: 평가용으로 무료 체험판을 사용할 수 있지만, 프로덕션 배포에는 라이선스가 필요합니다.
Q: Java 애플리케이션에서 OCR 성능을 어떻게 최적화할 수 있나요?
A: 효율적인 메모리 사용, 배치 처리, 그리고 필요한 영역으로 OCR을 제한하는 데 집중합니다.
리소스
- 문서: GroupDocs.Parser Documentation
- API 레퍼런스: API Reference Guide
- 다운로드: Latest Releases
- GitHub 저장소: GroupDocs.Parser GitHub
- 무료 지원: GroupDocs Forum
- 임시 라이선스: Obtain a Temporary License
마지막 업데이트: 2026-02-03
테스트 대상: GroupDocs.Parser 25.5
작성자: GroupDocs