Aspose OCR와 Java를 사용한 PDF 가리기 방법

오늘날 디지털 환경에서 PDF를 안전하게 가리는 방법은 개인, 금융 또는 기밀 정보를 다루는 기업에게 최우선 과제입니다. Aspose OCR의 클라우드 기능과 GroupDocs.Redaction의 강력한 정규식 엔진을 결합하면 PDF 가리기를 안전하게 수행하고, 민감한 PDF 데이터를 마스킹하며, 가린 PDF를 자동으로 저장할 수 있습니다. 이 튜토리얼은 환경 설정부터 정규식 기반 가리기 적용까지 모든 단계를 안내하므로, 자신 있게 민감한 콘텐츠를 보호할 수 있습니다.

빠른 답변

  • 이 튜토리얼은 무엇을 다루나요? Aspose OCR와 GroupDocs.Redaction을 Java에서 통합하여 정규식 패턴을 사용해 PDF를 가립니다.
  • 라이선스가 필요한가요? 평가용으로는 무료 체험이 가능하며, 운영 환경에서는 영구 라이선스가 필요합니다.
  • 필요한 Java 버전은? JDK 8 이상.
  • 결과를 새 PDF로 저장할 수 있나요? 예—SaveOptions를 사용해 가린 PDF 저장 파일을 만들 수 있습니다.
  • 대용량 문서에도 적합한가요? 적절한 메모리 관리와 선택적 병렬 처리를 통해 확장성이 좋습니다.

PDF 가리기란 무엇이며 왜 사용하나요?

PDF 가리기는 문서에서 기밀 정보를 영구적으로 제거하거나 마스킹합니다. 단순히 숨기는 것과 달리, 가리기는 데이터가 복구될 수 없도록 보장하므로 GDPR, HIPAA, PCI‑DSS와 같은 규정 준수에 필수적입니다.

사전 요구 사항

  • GroupDocs.Redaction for Java (가리기 적용을 위한 라이브러리)
  • Aspose.OCR Cloud SDK (클라우드 기반 OCR 엔진)
  • JDK 8 이상 및 IntelliJ IDEA 또는 Eclipse와 같은 IDE
  • Java, Maven, 정규식에 대한 기본 지식

GroupDocs.Redaction for Java 설정

Maven을 사용하거나 JAR 파일을 직접 다운로드하여 프로젝트에 라이브러리를 추가할 수 있습니다.

Maven 사용

다음 구성을 pom.xml 파일에 추가하세요:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/redaction/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-redaction</artifactId>
      <version>24.9</version>
   </dependency>
</dependencies>

직접 다운로드

또는 최신 버전을 GroupDocs.Redaction for Java releases에서 다운로드하세요.

라이선스 획득 단계

  • Free Trial: 기능을 살펴보기 위해 무료 체험으로 시작합니다.
  • Temporary License: 장기 테스트를 위해 임시 라이선스를 획득합니다.
  • Purchase: 운영 환경 사용을 위해 정식 라이선스를 구매합니다.

기본 초기화

Redactor 인스턴스를 생성하고 Aspose OCR 커넥터를 사용합니다. 이 단계는 이미지 기반 PDF 내부의 텍스트를 인식하도록 엔진을 준비합니다.

RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
try (Redactor redactor = new Redactor("YOUR_DOCUMENT_DIRECTORY/SAMPLE_PDF_4OCR", new LoadOptions(), settings)) {
    // Your code will go here...
}

구현 가이드

Aspose OCR 커넥터로 설정 초기화

RedactorSettings settings = new RedactorSettings(new AsposeCloudOcrConnector());
  • Purpose: GroupDocs.Redaction을 Aspose OCR 서비스와 연결하여 스캔 이미지 내부의 텍스트를 검색 가능하게 합니다.

교체 옵션 정의 (마스킹)

ReplacementOptions marker = new ReplacementOptions(java.awt.Color.BLACK);
  • Explanation: 정규식 매치가 발생하는 모든 위치에 민감한 PDF 데이터를 마스킹하는 검은 상자를 생성합니다.

가리기를 위한 정규식 패턴 구현

RedactorChangeLog result = redactor.apply(new Redaction[] {
    new RegexRedaction("(?<=Dear\\s)([^,]+)", marker), // Cardholder name
    new RegexRedaction("\\d{2}/\\d{2}", marker), // Expiration date pattern
    new RegexRedaction("\\d{4}", marker)  // Partial card number sections
});
  • Explanation: 각 RegexRedaction 객체는 개인 정보를 찾는 패턴을 정의하고, 위에서 정의한 검은 마커로 교체합니다.

가린 문서 저장

if (result.getStatus() != RedactionStatus.Failed) {
    redactor.save(new SaveOptions(false, "AsposeOCR", "YOUR_OUTPUT_DIRECTORY"));
}
  • Explanation: 가리기가 성공하면 문서가 디스크에 기록되어 실질적으로 가린 PDF를 저장합니다. SaveOptions를 통해 출력 폴더나 형식을 변경할 수 있습니다.

실용적인 적용 사례

  1. 재무 문서 보안 – 고객에게 명세서를 보내기 전에 신용카드 번호를 마스킹합니다.
  2. 헬스케어 데이터 보호 – HIPAA 준수를 위해 환자 식별자를 가립니다.
  3. 기업 기밀 유지 – 내부 검토 중 계약서의 민감한 조항을 숨깁니다.
  4. 법률 문서 처리 – 사건 파일을 공유할 때 특권 정보를 비공개로 유지합니다.
  5. 정부 기록 – 공개 PDF에서 시민 데이터를 보호합니다.

성능 고려 사항

  • OCR Settings: 문서 품질에 따라 속도와 정확성을 조절하도록 Aspose OCR을 튜닝합니다.
  • Memory Management: OutOfMemoryError를 방지하기 위해 대용량 PDF를 스트림으로 처리합니다.
  • Parallel Processing: Java의 ExecutorService를 활용해 여러 파일을 동시에 가릴 수 있습니다.

일반적인 문제 및 해결 방법

증상가능한 원인해결 방법
텍스트가 가려지지 않음OCR이 텍스트를 감지하지 못함OCR 서비스 자격 증명을 확인하고 이미지 DPI를 높이세요
가리기 상자가 정렬되지 않음페이지 회전이 올바르지 않음LoadOptions.setRotatePages(true) 사용
대용량 PDF에서 애플리케이션이 충돌힙 메모리 부족JVM -Xmx 플래그를 늘리거나 페이지를 배치로 처리하세요

자주 묻는 질문

Q: Aspose OCR이란?
A: 이미지를 통해 텍스트를 추출하는 클라우드 기반 서비스로, 검색 가능한 PDF 처리를 가능하게 합니다.

Q: PDF 외의 파일 형식에도 정규식 패턴을 사용할 수 있나요?
A: 예—GroupDocs.Redaction은 Word, Excel, PowerPoint 등 다양한 형식을 지원합니다.

Q: 이미 텍스트 기반인 PDF는 어떻게 처리하나요?
A: OCR 단계를 건너뛰고 텍스트 레이어에 바로 정규식 가리기를 적용하면 됩니다.

Q: 정규식이 예상 데이터를 찾지 못합니다. 어떻게 해야 하나요?
A: 온라인 정규식 테스트기로 패턴을 시험해 보고, Java 문자열에 맞는 이스케이프 시퀀스를 사용했는지 확인하세요.

Q: 자세한 API 문서는 어디서 찾을 수 있나요?
A: 공식 문서는 GroupDocs Documentation에서 확인하세요.

리소스


마지막 업데이트: 2026-01-16
테스트 환경: GroupDocs.Redaction 24.9, Aspose.OCR Cloud SDK (latest)
작성자: GroupDocs