GroupDocs.Parser for Java를 사용하여에서 이미지 추 추출하는 것은 시간도 많이 걸리고 오류가 발생하기 쉽습니다. 이 튜토리얼 word images png** 를 수행하여 후속 처리에 활용하는 방법을 알아 팁을 단계별로 안내하여 Java 프로젝트에 이미지 추출을 통합할 수 있도록 도와드립니다.

빠른 답변

  • What does the library do? Word, PDF 및 기타 많은 형식을 구문 분석하여 텍스트, 표 및 이미지를 노출합니다.
  • How many lines of code? Java 약 30줄과 몇 개의 설정 줄이 추가됩니다.
  • Do I need a license? 개발에는 무료 체험판으로 충분하지만, 프로덕션에서는 정식 라이선스가 필요합니다.
  • Can I extract embedded images? 예 – getImages() 메서드가 모든 임베디드 이미지를 반환합니다.
  • Supported output format? 기본값은 PNG이며, ImageFormat을 통해 다른 형식도 사용할 word”란 무엇인가요? GroupDocs.Parser는 DOCX 또는 DOC 파일의 바이너리 구조를 읽고 각 이미지를 PageImageArea 객체로 제공합니다. 이를 통해 Microsoft Word를 열지 않고도 프로그래밍 방식으로 모든 순수 Java 파싱으로 COM이나 Office 자동화의 오버헤드를 피합니다.
  • Reliability: Windows, Linux, macOS 등 모든 플랫폼에서 작동하며 손상된 파일도 정상적으로 처리합니다.
  • Flexibility: 다양한 형식을 지원하므로 PDF, PPTX 등에도 동일한 코드를 재사용할 수 있습니다.

사전 요구 사항

  • **GroupDocs.Parser.5 이상)
  • JDK 8+
  • IntelliJ IDEA, Eclipse, NetBeans 등 IDE

GroupDocs.Parser for Java 설정

Maven 프로젝트에 라이브러리를 추가합니다:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/parser/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>25.5</version>
   </dependency>
</dependencies>

또는 최신 버전을 직접 GroupDocs.Parser for Java releases에서 다운로드합니다.

라이선스 획득 단계

  • Free Trial: 기능을 살펴보기 위해 무료 체험으로 시작합니다.
  • Temporary License: 필요 시 확장 테스트를 위해 임시 라이선스를 획득합니다.
  • Purchase: 프로덕션 배포를 위해 정식 라이선스를 구매합니다.

구현 가이드

아래는 extract images from word 문서를 추출하고 PNG 파일로 저장하는 완전한 실행 가능한 Java 코드입니다.

단계 1: 파서 초기화

// Initialize the Parser with the document path.
try (Parser parser = new Parser(documentPath)) {
    // Proceed with image extraction...
}

단계 2: 이미지 추출

// Extract images from the document.
Iterable<PageImageArea> images = parser.getImages();

단계 3: 이미지 옵션 구성

// Set options to save images in PNG format.
ImageOptions options = new ImageOptions(ImageFormat.Png);

단계 4: 각 이미지 저장

int imageNumber = 0;
for (PageImageArea image : images) {
    String outputPath = YOUR_OUTPUT_DIRECTORY + "/" + imageNumber + ".png";
    image.save(outputPath, options);
    imageNumber++;
}

단계 5: 경로용 헬퍼 메서드 정의

public static String getDocumentDirectory() {
    return YOUR_DOCUMENT_DIRECTORY;
}

public static String getOutputDirectory() {
    return YOUR_OUTPUT_DIRECTORY;
}

YOUR_DOCUMENT_DIRECTORYYOUR_OUTPUT_DIRECTORY를 실제 사용하려는 파일 시스템 경로로 교체합니다.

docx에서 임베디드 이미지를 추출하려면?

getImages() 호출은 DOCX 파일에서 embedded images를 자동으로 반환합니다(인라인, 플로팅, 도형의 일부 등). 추가 API 호출이 필요 없습니다.

docx에서 이미지를 추출하여 PNG로 저장하려면?

Step 3에 표시된 ImageOptions 객체가 출력 형식을 설정합니다. ImageFormat.Png를 전달하면 추출된 각 이미지는 PNG 파일로 저장되어 save word images png 요구 사항을 충족합니다.

실용적인 활용 사례

  1. Content Management: 레거시 Word 파일에서 이미지를 추출하여 디지털 자산 라이브러리에 저장합니다.
  2. Data Migration: 임베디드 그래픽을 새 CMS로 수동 복사‑붙여넣기 없이 이동합니다.
  3. Document Archiving: 이미지를 별도로 저장해 아카이브 크기를 줄이고 검색성을 향상시킵니다.
  4. Automated Publishing: 추출된 PNG를 웹 페이지 생성기나 이메일 템플릿에 직접 전달합니다.

성능 고려 사항

  • Memory: 대용량 문서를 처리할 때 충분한 힙(-Xmx2g 이상)을 할당합니다.
  • Batch Processing: 파일 폴더를 순회하면서 문서당 Parser 인스턴스를 재사용해 메모리 사용량을 낮게 유지합니다.
  • File Handles: try‑with‑resources 블록으로 파서를 즉시 닫아 리소스 누수를 방지합니다.

일반적인 문제와 해결책

문제해결책
OutOfMemoryError가 발생하는 대용량 DOCX 파일JVM 힙을 늘리거나 문서를 더 작은 배치로 처리

Q: 암호로 보호된 Word 파일에서 이미지를 추출할 수 있나요?
A: 예—비밀번호를 Parser 생성자에 전달하면 라이브러리가 문서를 복호화한 후 추출합니다.

Q: 특정 이미지 유형(예: JPEG만)만 추출하는 방법이 있나요?
A: PageImageArea 객체를 가져온 후 image.getFormat()을 검사하여 저장하기 전에 원하는 형식으로 필터링합니다.

**Q지만, 추출 로직을 별도 스레드에 감싸거나 Java의 CompletableFuture를 사용해 병렬 처리할 수 있습니다.

Q: 프로덕션 사용을 위해 상용 라이선스가 필요합니까?
A: 평가용으로는 무료 체험으로 충분하지만, 상용 배포에는 유료 라이선스가 필요합니다.

결론

이제 GroupDocs.Parser for Java를 사용하여 how to extract images from word 문서를 추출하고 save word images png 하는 완전하고 프로덕션 준비된 솔루션을 갖추었습니다. 이 코드를 기존 파이프라인에 통합하고 배치 추출을 자동화하여 Word 파일에 숨겨진 시각 자산을 활용하세요.


마지막 업데이트: 2026-01-19
테스트 대상: GroupDocs.Parser 25.5
작성자: GroupDocs

리소스