ดึงรูปภาพ PDF จากพื้นที่เฉพาะโดยใช้ GroupDocs.Parser Java API

การดึงรูปภาพ PDF จากพื้นที่ที่กำหนดของ PDF เป็นความต้องการทั่วไปเมื่อคุณต้องการการจับข้อมูลที่แม่นยำ—เช่น ใบแจ้งหนี้ รายงาน หรือแบบฟอร์มที่สแกน ในบทแนะนำนี้คุณจะ** จากโซนสี่เหลี่ยมที่แน่นอนโดยใช้ไลบรารี GroupDocs.Parser Java เราจะอธิบายขั้นตอนการตั้งค่าสภาพแวดลล็ดลับเพื่อให้กระบวนการทำงานเร็วและเชื่อถือได้.

##ในบทแ GroupDocsารถใช้รุ่นทดลองฟรีสำหรับการทดสอบ; ต้องมีลิขสิทธิ์ถาวรสำหรับการใช้งานในผลิตภัณฑ์.

  • สามารถประมวลผลหลายไฟล์พร้อมกันได้หรือไม่? ได้—ผสานโค้ดที่แสดงกับลูปแบชเพื่อดึงรูปภาพ PDF แบบแบช.
  • ต้องใช้ Java เวอร์ชันใด? J.

“extract pdf images” คืออะไรในบริบทของ PDF?

เมื่อ PDF มีรูปภาพที่ฝังอยู่, โลโก้, หรือกราฟิกที่สแกน, องค์ประกอบเหล่านั้นจะถูกเก็บเป็นอ็อบเจ็กต์รูปภาพ การดึงรูปเหล่านี้ออกทำให้คุณสามารถนำกราฟิกไปใช้ที่อื่นได้ เช่น นำโลโก้ไปใช้ในกระบวนการสร้างแบรนด์หรือส่งภาพสแกนเข้าไปในไพป์ไลน์ OCR.

ทำไมต้องใช้ไม่ PDF ระดับลเอกสารขนาดใหญ่ด้วยการสตรีมที่ใช้หน่วยความจำน้อย.

ข้อกำหนดเบื้องต้น

  • Java Development Kit (JDK) 8+ – ตรวจสอบว่า java -version แสดง 8 หรือสูงกว่า.
  • Maven – ไม่บังคับแต่แนะนำสำหรับการจัดการ dependencies.
  • IDE – IntelliJ IDEA, Eclipse หรือเครื่องมือแก้ไขใด ๆ ที่คุณชอบ.

ไลบรารีและ Dependencies ที่ต้องใช้

Maven Installation

เพิ่มการกำหนดค่าดังต่อไปนี้ในไฟล์ pom.xml ของคุณ:

<repositories>
   <repository>
      <id>repository.groupdocs.com</id>
      <name>GroupDocs Repository</name>
      <url>https://releases.groupdocs.com/parser/java/</url>
   </repository>
</repositories>

<dependencies>
   <dependency>
      <groupId>com.groupdocs</groupId>
      <artifactId>groupdocs-parser</artifactId>
      <version>25.5</version>
   </dependency>
</dependencies>

Direct Download
หรือคุณสามารถดาวน์โหลดเวอร์ชันล่าสุดโดยตรงจาก GroupDocs.Parser for Java releases.

ต้องการ:** พิจารณาซื้อลิขสิทธิ์เต็มรูปแบบสำหรับยาว.

การตั้งค่า GroupDocs.Parser สำหรับ Java

Maven Configuration

หากคุณใช้ Maven, โค้ดสแนปด้านบนจะดึง JAR ที่จำเป็นโดยอัตโนมัติ.

Direct Download Setup

สำหรับวิธีการแบบแมนนวล, ให้วาง JAR ที่ดาวน์โหลดไว้ในโฟลเดอร์ libs ของโปรเจกต์และเพิ่มเข้าไปใน build path ของ IDE ของคุณ.

วิธีดึงรูปภาพ PDF จากพื้นที่เฉพาะของ PDF?

1. ภาพรวมฟีเจอร์

ฟีเจอร์นี้ให้คุณกำหนดพื้นที่สี่เหลี่ยมบนหน้า PDF และดึงเฉพาะรูปภาพที่ตัดกับพื้นที่นั้นออกมา เหมาะสำหรับการแยกโลโก้, ลายเซ็น, หรือส่วนของแผนภาพ.

2. เริ่มต้นอ็อบเจ็กต์ Parser

สร้างอินสแตนซ์ของคลาส Parser พร้อมเส้นทางไปยังไฟล์ PDF ของคุณ:

import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.PageImageArea;
import com.groupdocs.parser.options.PageAreaOptions;
import com.groupdocs.parser.exceptions.UnsupportedDocumentFormatException;

try (Parser parser = new Parser("YOUR_DOCUMENT_DIRECTORY/SampleImagesPdf.pdf")) {
    // Code for image extraction will follow here
} catch (UnsupportedDocumentFormatException e) {
    System.err.println("The provided document format is not supported.");
}

3. กำหนดพื้นที่การดึงข้อมูล

ระบุสี่เหลี่ยมที่ต้องการสแกน ในตัวอย่างนี้เริ่มที่จุด (340, 150) และจับพื้นที่ 300 × 100 พิกเซล:

import com.groupdocs.parser.options.PageAreaOptions;
import java.awt.Rectangle;
import java.awt.Point;
import java.awt.Size;

PageAreaOptions options = new PageAreaOptions(new Rectangle(
    new Point(340, 150),
    new Size(300, 100)
));

4. ดึงรูปชันที่สามารถวนลูปได้ของอ็อบเจ็กต์ PageImageArea:

Iterable<PageImageArea> images = parser.getImages(options);

if (images == null) {
    System.out.println("Image extraction isn't supported in this area");
} else {
    // Process extracted images here
}

ตัวเลือกการกำหนดค่ การกำหนดสี่เหลี่ยม: ปรับ Point (x, y) และ Size (width, height) เพื่อกำหนดเป้าหมายส่วนใดของหน้า.

  • การจัดการข้อผิดพลาด: ห่อการเรียกในบล็อก try‑catch เพื่อจัดการรูปแบบที่ไม่รองรับหรือความล้มเหลวในการดึงข้อมูลอย่างราบรื่น.

การประยุกต์ใช้งานจริง

  1. การประมวลผลใบแจ้งหนี้: ดึงโลโก้, บาร์โค้ด, หรือฟิลด์เฉพาะสำหรับการตรวจสอบอัตโนมัติ.
  2. การแปลงเอกสารเป็นดิจิทัล: ดึงแผนภาพหรือแผนภูมิจากรายงานที่สแกนเพื่อใช้ซ้ำใน pipeline ข้อมูล.
  3. **การจัดเก็บเนและเก็บทรัพยากรภาพจากงานวิจัยหรือโบรชัวร์การตลาด.

ข้อควรพิจารณาด้านประสิทธิภาพ

  • เพิ่มประสิทธิภาพการใช้หน่วยความจำ: ประมวลผลหน้าแบบต่อเนื่องและปล่อยทรัพยากรหลังจากแต่ละรอบเพื่อให้ใช้หน่วยความจำน้อยในลูปที่วนผ่านรายการไฟล์ PDF เพื่อทำการดึงรูปภาพ PDF แบบแบช,และขขนาดใหญ่กว่าสำหรับการทดสอบ. | | UnsupportedDocumentFormatException | เวอร์ชัน PDF ไม่รองรับ | อัปเดตเป็นเวอร์ชันล่าสุดของ GroupDocs.Parser หรือแปลง PDF เป็นเวอร์ชันที่รองรับ. | | เกิดข้อผิดพลาด Out‑of‑memory กับไฟล์ขนาดใหญ่ | โหลดเอกสารทั้งหมดพร้อมกัน | ประมวลผลทีละหน้าและทำลายอ็แต่ละไฟล์. |

คำถามที่พบบ่อย

ถาม: เวอร์ชัน Java ขั้นต่ำที่ต้องการสำหรับ GroupDocs.Parser คืออะไร?
ตอบ: แนะนำให้ใช้ JDK 8 หรือใหม่กว่าเพื่อความเข้ากันได้และประสิทธิภาพที่ดีที่สุด.


ตอบ: ใช้บล็อก try‑catch รอบการเริ่มต้น Parser และการเรียกดึงข้อมูลเพื่อจับ UnsupportedDocumentFormatException และข้อยกเว้นอื่น ๆ ที่เกิดขึ้น.

ถาม: มีวิธีเพิ่มประสิทธิภาพสำหรับ PDF ขนาดใหญ่หรือไม่?
ตอบ: ใช่—ประมวลผลเอกสารเป็นแบช, จำกัดพื้นที่ดึงให้แคบที่สุดตามที่ต้อง Parser เดียวกันซ้ำเมื่อเป็นไปได้.

ถาม: GroupDocs.Parser ทำงานกับภาษาโปรแกรมอื่นหรือไม่?
ตอบ: แม้คู่มือนี้จะเน้นที่ Java, GroupDocs มีไลบรารีที่คล้ายกันสำหรับ .NET, Python และแพลตฟอร์มอื่น ๆ.

แหล่งข้อมูล


**Last Updated:**Tested With: GroupDocs.Parser 25.5 for Java
Author: GroupDocs