ดึงข้อความจาก PDF Java: สร้างดัชนีเอกสารด้วย GroupDocs.Search

ในคู่มือเชิงปฏิบัตินี้คุณจะค้นพบ วิธีดึงข้อความจาก PDF Java ในแอปพลิเคชันและแปลงเนื้อหาดิบนั้นให้เป็นดัชนีที่ค้นหาได้แบบเต็มข้อความที่รวดเร็ว ไม่ว่าคุณจะสร้างฐานความรู้ภายใน, พอร์ทัลค้นหาเอกสัญญา, หรือเครื่องมือค้นหาที่กำหนดเอง ขั้นตอนต่อไปนี้จะนำคุณผ่านทุกอย่าง—from การดึงข้อความออกจาก PDFs ไปจนถึงการทำซีเรียลไลซ์ข้อมูล, การสร้างดัชนี, และสุดท้ายการรันคิวรี. มาดำดิ่งและดูว่าทำไม GroupDocs.Search ทำให้กระบวนการทั้งหมดราบรื่นและขยายได้

คำตอบด่วน

  • วัตถุประสงค์หลักคืออะไร? เพื่อดึงข้อความจากไฟล์ PDF Java และสร้างดัชนีเอกสารที่ค้นหาได้ด้วย GroupDocs.Search.
  • เวอร์ชันของไลบรารีคืออะไร? GroupDocs.Search 25.4 (หรือรุ่นล่าสุด).
  • ต้องการใบอนุญาตหรือไม่? ทดลองใช้ฟรีทำงานได้สำหรับการพัฒนา; จำเป็นต้องมีใบอนุญาตเต็มสำหรับการใช้งานจริง.
  • สามารถทำดัชนี PDFs ได้หรือไม่? ได้—ดึงข้อความจาก PDF แล้วเพิ่มลงในดัชนี.
  • จะรันการค้นหาอย่างไร? ใช้เมธอด index.search(query) หลังจากเพิ่มข้อมูลแล้ว.

ดัชนีเอกสารคืออะไร?

ดัชนีเอกสารคือการรวบรวมโครงสร้างของคำที่สามารถค้นหาได้ซึ่งถูกสกัดจากไฟล์ของคุณ โดยการสร้างดัชนีเอกสาร คุณจะทำให้การค้นหาเต็มข้อความแบบรวดเร็วทั่วคลังข้อมูลขนาดใหญ่เป็นไปได้อย่างมีประสิทธิภาพและแม่นยำมากขึ้น

ทำไมต้องใช้ GroupDocs.Search สำหรับ Java?

  • การสกัดที่แข็งแรง – รองรับ PDF, Word, Excel และอื่น ๆ
  • การทำซีเรียลไลซ์ที่ง่าย – เก็บข้อมูลที่สกัดเป็นอาร์เรย์ไบต์เพื่อใช้งานต่อในภายหลัง
  • การทำดัชนีที่ขยายได้ – สามารถทำดัชนีเอกสารหลายล้านไฟล์ได้อย่างมีประสิทธิภาพ
  • ภาษาคิวรีที่ทรงพลัง – รองรับคิวรีการค้นหาเต็มข้อความแบบซับซ้อนใน Java

ข้อกำหนดเบื้องต้น

  • GroupDocs.Search for Java (เวอร์ชัน 25.4 หรือใหม่กว่า)
  • Java Development Kit (JDK) ที่เข้ากันได้กับเวอร์ชัน GroupDocs ของคุณ
  • IDE เช่น IntelliJ IDEA หรือ Eclipse
  • Maven สำหรับการจัดการ dependencies

การตั้งค่า GroupDocs.Search สำหรับ Java

แรกสุดให้เพิ่มไลบรารีลงในโปรเจกต์ของคุณ

Maven Setup
ใส่โค้ดต่อไปนี้ในไฟล์ pom.xml ของคุณ:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Direct Download
หรือคุณสามารถดาวน์โหลดเวอร์ชันล่าสุดจาก GroupDocs.Search for Java releases

การรับใบอนุญาต

  • Free Trial – ทดลองใช้ทุกฟีเจอร์ด้วยใบอนุญาตชั่วคราว
  • Purchase – รับการเข้าถึงเต็มรูปแบบและการสนับสนุนระดับพรีเมียม

การดำเนินการแบบขั้นตอนต่อขั้นตอน

วิธีดึงข้อความจาก PDFs (และเอกสารอื่น ๆ)

การสกัดข้อความดิบหรือข้อความที่จัดรูปแบบเป็นขั้นตอนแรกในการสร้างดัชนีเอกสาร เมื่อคุณ ดึงข้อความจาก PDF Java คุณจะให้เครื่องมือค้นหาได้ข้อมูลที่มันเข้าใจ

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

เคล็ดลับ: ตั้งค่า setUseRawTextExtraction(true) หากคุณต้องการข้อความธรรมดาโดยไม่มีการจัดรูปแบบ

วิธีทำซีเรียลไลซ์ข้อมูลที่สกัด

การทำซีเรียลไลซ์ช่วยให้คุณเก็บข้อมูลที่สกัดไว้เพื่อทำดัชนีในภายหลัง

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

วิธีทำดีซีเรียลไลซ์ข้อมูลที่สกัด

เมื่อพร้อมสร้างดัชนี ให้แปลงอาร์เรย์ไบต์กลับเป็นอ็อบเจกต์

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

วิธีสร้างดัชนีเอกสาร

ตอนนี้คุณมี deserializedData แล้ว สามารถสร้างดัชนีที่เก็บคำที่ค้นหาได้แล้ว

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

วิธีเพิ่มข้อมูลลงในดัชนีและทำการค้นหา

การเพิ่มข้อมูลและการคิวรีดัชนีเป็นขั้นตอนสุดท้ายของเวิร์กโฟลว์ ดึงข้อความจาก PDF Java

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Pro tip: ใช้ index.search("your query", SearchOptions) เพื่อปรับแต่งการจัดอันดับความเกี่ยวข้องให้ละเอียดขึ้น

กรณีการใช้งานทั่วไป

  1. Document Management Systems – ค้นหาเอกสัญญา, ใบแจ้งหนี้, หรือนโยบายได้อย่างรวดเร็ว
  2. Content‑Based Search Engines – เสริมฐานความรู้ภายในด้วยความสามารถการค้นหาเต็มข้อความใน Java
  3. Data Archiving Solutions – ทำดัชนีบันทึกประวัติศาสตร์เพื่อการเรียกคืนข้อมูลทันที

พิจารณาด้านประสิทธิภาพ

  • Memory Management: ปรับขนาด heap ของ JVM สำหรับชุดเอกสารขนาดใหญ่
  • Indexing Options: ปิดฟีเจอร์ที่ไม่จำเป็น (เช่น term vectors) เพื่อเร่งความเร็วการทำดัชนี
  • Regular Updates: รักษา GroupDocs.Search ให้เป็นเวอร์ชันล่าสุดเพื่อรับแพตช์ประสิทธิภาพ

คำถามที่พบบ่อย

Q: จะจัดการไฟล์ PDF ขนาดใหญ่มากอย่างมีประสิทธิภาพอย่างไร?
A: ใช้ Extractor สตรีมไฟล์และประมวลผลเป็นชิ้นส่วน; เพิ่มขนาด heap ของ JVM หากจำเป็น

Q: สามารถปรับแต่งไวยากรณ์ของคิวรีการค้นหาได้หรือไม่?
A: ได้—GroupDocs.Search รองรับตัวดำเนินการ Boolean, วายลด์การ์ด, และการค้นหาแบบใกล้เคียง

Q: จะทำอย่างไรหากการทำซีเรียลไลซ์ล้มเหลว?
A: ตรวจสอบว่าอ็อบเจกต์ทั้งหมด implements Serializable และจับ IOException เพื่อบันทึกรายละเอียด

Q: สามารถทำดัชนีเฉพาะส่วนของเอกสารได้หรือไม่?
A: แน่นอน—กำหนดค่า ExtractionOptions เพื่อกรองหน้า หรือส่วนก่อนทำดัชนี

Q: จะอัปเกรดเป็นเวอร์ชัน GroupDocs.Search ที่ใหม่กว่าอย่างไร?
A: ปรับหมายเลขเวอร์ชันใน pom.xml แล้วรัน mvn clean install; ตรวจสอบคู่มือการย้ายเวอร์ชันสำหรับการเปลี่ยนแปลงที่ทำลายการทำงาน

แหล่งข้อมูล


Last Updated: 2026-02-19
Tested With: GroupDocs.Search 25.4 for Java
Author: GroupDocs