GroupDocs를 Java OCR 인덱싱에 Aspose와 함께 사용하는 방법
이 가이드에서는 GroupDocs 사용 방법을 알아보고 Java 애플리케이션에 OCR‑기반 검색을 추가하는 방법을 배웁니다. GroupDocs.Search와 Aspose.OCR를 결합하면 이미지 기반 콘텐츠를 검색 가능한 텍스트로 변환하여 문서 관리 시스템을 훨씬 더 유용하게 만들 수 있습니다. 설정, 인덱싱, 검색 및 맞춤 OCR 통합 과정을 단계별 예제와 함께 안내합니다.
빠른 답변
- OCR 인덱싱을 제공하는 라이브러리는? GroupDocs.Search와 Aspose.OCR를 결합한 것입니다.
- 필요한 Java 버전은? JDK 8 이상.
- 라이선스가 필요합니까? 무료 체험을 사용할 수 있으며, 프로덕션에서는 유료 라이선스가 필요합니다.
- 별도 이미지와 포함된 이미지를 모두 인덱싱할 수 있나요? 예,
IndexingOptions에서 두 옵션을 모두 활성화하십시오. - 멀티스레딩을 지원합니까? 예, 대용량 데이터 세트에 대해 인덱싱을 병렬 처리할 수 있습니다.
GroupDocs와 함께하는 OCR 인덱싱이란?
OCR 인덱싱은 이미지(스캔된 PDF 포함)에서 텍스트를 추출하여 검색 가능한 인덱스에 저장합니다. GroupDocs.Search는 인덱싱 및 쿼리 실행을 담당하고, Aspose.OCR는 실제 문자 인식을 수행합니다.
Java OCR 인덱싱에 GroupDocs를 사용하는 이유
- 높은 정확도 – Aspose의 고급 OCR 엔진 덕분입니다.
- 원활한 Java 통합 – Maven 또는 직접 JAR을 통해 가능합니다.
- 유연한 구성 – 별도 이미지와 포함된 이미지 모두 지원합니다.
- 확장 가능한 성능 – 멀티스레딩 및 메모리 최적화 기능을 제공합니다.
사전 요구 사항
- GroupDocs.Search ≥ 25.4
- Aspose.OCR (최신 버전)
- JDK 8 이상 및 IDE (IntelliJ, Eclipse, NetBeans)
- 기본 Java 지식; Maven은 도움이 되지만 필수는 아닙니다
Java용 GroupDocs.Search 설정
Maven 사용
Add the repository and dependency to your pom.xml:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
직접 다운로드
또는 GroupDocs releases에서 최신 버전의 GroupDocs.Search for Java를 다운로드하십시오.
라이선스 획득
- 무료 체험 – 비용 없이 모든 기능을 탐색할 수 있습니다.
- 임시 라이선스 – 테스트 기간을 연장합니다.
- 구매 – 프로덕션 배포에 필요합니다.
기본 초기화 및 설정
Create an index folder and initialize the Index object:
import com.groupdocs.search.Index;
// Specify the directory where the index will be stored.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
// Create an instance of Index class at the specified location.
Index index = new Index(indexFolder);
OCR 인덱싱에 GroupDocs 사용 방법
인덱스 생성
First, set up the folder that will hold the index files:
String indexFolder = "YOUR_OUTPUT_DIRECTORY/OcrSupport";
Index index = new Index(indexFolder);
OCR 인덱싱 옵션 설정
Enable OCR for both separate and embedded images, and plug in a custom OCR connector:
import com.groupdocs.search.options.IndexingOptions;
IndexingOptions options = new IndexingOptions();
options.getOcrIndexingOptions().setEnabledForSeparateImages(true);
options.getOcrIndexingOptions().setEnabledForEmbeddedImages(true);
// Set a custom OCR connector.
options.getOcrIndexingOptions().setOcrConnector(new OcrConnector());
문서 인덱싱
Add your source documents (PDFs, Word files, images, etc.) to the index:
String documentsFolder = "YOUR_DOCUMENT_DIRECTORY";
index.add(documentsFolder, options);
인덱스 검색
Run a search query against the indexed content:
import com.groupdocs.search.results.SearchResult;
String query = "water";
SearchResult result = index.search(query);
OCR 커넥터 구현
Use Aspose.OCR to recognize text from images. Implement the IOcrConnector interface as shown:
import com.groupdocs.search.options.IOcrConnector;
import com.groupdocs.search.options.OcrContext;
import java.awt.image.BufferedImage;
import javax.imageio.ImageIO;
import com.aspose.ocr.AsposeOCR;
public class OcrConnector implements IOcrConnector {
@Override
public final String recognize(OcrContext context) {
if (null == context.getImageLocation()) {
throw new RuntimeException("The image type is not supported: " + context.getImageLocation());
}
BufferedImage image = ImageIO.read(context.getImageLocation().toFile());
AsposeOCR api = new AsposeOCR();
String text = api.RecognizePage(image);
return text;
}
}
실용적인 적용 사례
- 문서 관리 시스템 – 스캔된 이미지가 포함된 문서를 빠르게 검색합니다.
- 아카이브 검색 – 방대한 아카이브 내에서 역사적 기록을 찾아냅니다.
- 법률 문서 분석 – 스캔된 서명이나 도면이 포함된 계약서 및 증거를 검색합니다.
- 의료 기록 검색 – 환자 양식, 검사 결과, X‑ray 주석 등을 인덱싱합니다.
성능 고려 사항
- 인덱스 크기 – 불필요한 메타데이터를 제외하여 인덱스를 가볍게 유지합니다.
- 멀티스레딩 – 대용량 배치를 병렬 처리하여 인덱싱 속도를 높입니다.
- 메모리 관리 – 고해상도 이미지를 처리할 때 JVM 힙을 모니터링합니다.
일반적인 문제와 해결책
- 라이선스 오류 – 올바른 라이선스 파일이 애플리케이션 작업 디렉터리에 배치되어 있는지 확인하십시오.
- 이미지 누락 – 이미지 경로가 접근 가능하고 지원되는 형식(PNG, JPEG, BMP)인지 확인하십시오.
- 메모리 부족 – JVM 힙(
-Xmx)을 늘리거나 문서를 더 작은 배치로 처리하십시오.
자주 묻는 질문
Q: GroupDocs.Search의 라이선스 문제를 어떻게 해결하나요?
A: 전체 기능을 사용하려면 GroupDocs 웹사이트에서 임시 라이선스를 받으십시오.
Q: 대용량 문서 인덱싱을 처리하는 최선의 방법은 무엇인가요?
A: 멀티스레딩 및 배치 처리를 활용하여 성능을 향상하고 메모리 부담을 줄이십시오.
Q: GroupDocs.Search에서 OCR 설정을 더 세부적으로 맞춤화할 수 있나요?
A: 예, IndexingOptions를 사용하면 언어 선택 및 이미지 전처리와 같은 OCR 동작을 세밀하게 조정할 수 있습니다.
Q: GroupDocs.Search를 사용할 때 흔히 발생하는 문제 해결 팁은 무엇인가요?
A: 디렉터리 경로를 다시 확인하고, 모든 종속성이 존재하는지 검증하며, 누락된 파일에 대한 로그 출력을 검토하십시오.
Q: 기존 Java 애플리케이션에 Aspose.OCR를 어떻게 통합할 수 있나요?
A: 위에서 보여준 대로 IOcrConnector 인터페이스를 구현하고 이미지 입력을 올바르게 처리하십시오.
리소스
마지막 업데이트: 2026-01-11
테스트 환경: GroupDocs.Search 25.4, Aspose.OCR 최신 릴리스
작성자: GroupDocs