PDF Java szöveg kinyerése: Dokumentumindex létrehozása a GroupDocs.Search segítségével

Ebben a gyakorlati útmutatóban felfedezheted, hogyan kell szöveget kinyerni PDF Java alkalmazásokból, és hogyan alakíthatod ezt a nyers tartalmat egy gyors, teljes‑szöveges kereshető indexszé. Akár belső tudásbázist, szerződés‑kereső portált vagy egyedi keresőmotort építesz, az alábbi lépések mindent végigvezetnek – a PDF‑ekből való szövegkinyeréstől az adatok sorosításán, az index létrehozásán, egészen a lekérdezések futtatásáig. Merüljünk el, és nézzük meg, miért teszi a GroupDocs.Search a teljes folyamatot zökkenőmentessé és skálázhatóvá.

Gyors válaszok

  • Mi a fő cél? PDF Java fájlok szövegének kinyerése és kereshető dokumentumindex létrehozása a GroupDocs.Search segítségével.
  • Melyik könyvtár verzió? GroupDocs.Search 25.4 (vagy a legújabb kiadás).
  • Szükségem van licencre? A ingyenes próba verzió fejlesztéshez működik; a teljes licenc szükséges a termeléshez.
  • Indexelhetek PDF-eket? Igen – PDF szöveget kinyer és hozzáadja az indexhez.
  • Hogyan futtathatok keresést? Használja a index.search(query) metódust az adatok hozzáadása után.

Mi az a dokumentumindex?

A dokumentumindex a fájljaidból kinyert kereshető kifejezések strukturált gyűjteménye. Dokumentumindex létrehozásával gyors teljes‑szöveges kereséseket teszel lehetővé nagy adattárakban, jelentősen javítva a visszakeresés sebességét és pontosságát.

Miért használjuk a GroupDocs.Search‑t Java‑hoz?

  • Robusztus kinyerés – Kezeli a PDF‑eket, Word‑et, Excel‑t és még sok mást.
  • Egyszerű sorosítás – Tárold a kinyert adatokat bájt tömbként a későbbi újrahasználathoz.
  • Skálázható indexelés – Hatékonyan indexelhet millió dokumentumot.
  • Erőteljes lekérdezési nyelv – Támogatja a komplex teljes‑szöveges keresési Java lekérdezéseket.

Előfeltételek

  • GroupDocs.Search for Java (25.4 vagy újabb verzió).
  • Java Development Kit (JDK), amely kompatibilis a GroupDocs verzióddal.
  • Egy IDE, például IntelliJ IDEA vagy Eclipse.
  • Maven a függőségkezeléshez.

A GroupDocs.Search beállítása Java‑hoz

Először add hozzá a könyvtárat a projektedhez.

Maven beállítás
Add hozzá a következőt a pom.xml fájlodhoz:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Közvetlen letöltés
Alternatívaként töltsd le a legújabb verziót a GroupDocs.Search for Java releases oldalról.

Licenc beszerzése

  • Ingyenes próba – Teszteld az összes funkciót egy ideiglenes licenccel.
  • Vásárlás – Szerezz teljes hozzáférést és prioritásos támogatást.

Lépésről‑lépésre megvalósítás

Hogyan kell szöveget kinyerni PDF‑ekből (és más dokumentumokból)

A nyers vagy formázott szöveg kinyerése az első lépés a dokumentumindex létrehozásához. Amikor szöveget nyersz ki PDF Java‑ból, a keresőmotor számára érthető adatot adsz.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Tip: Állítsd be a setUseRawTextExtraction(true) értéket, ha formázás nélküli egyszerű szöveget szeretnél.

Hogyan sorosítsuk a kinyert adatokat

A sorosítás lehetővé teszi, hogy a kinyert adatokat későbbi indexeléshez tárold.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Hogyan deszerializáljuk a kinyert adatokat

Amikor készen állsz az index felépítésére, alakítsd vissza a bájt tömböt objektummá.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Hogyan hozzunk létre dokumentumindexet

Miután megvan a deserializedData, létrehozhatod az indexet, amely a kereshető kifejezéseket tartalmazza.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Hogyan adjunk adatot az indexhez és hajtsunk végre keresést

Az adatok hozzáadása és az index lekérdezése befejezi a PDF Java szöveg kinyerése munkafolyamatot.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Pro tip: Használd az index.search("your query", SearchOptions) metódust a relevancia rangsorolás finomhangolásához.

Gyakori felhasználási esetek

  1. Dokumentumkezelő rendszerek – Gyorsan megtalálhatók a szerződések, számlák vagy irányelvek.
  2. Tartalom‑alapú keresőmotorok – Támogasd a belső tudásbázisokat a teljes‑szöveges keresési Java képességekkel.
  3. Adatarchiválási megoldások – Indexeld a történelmi rekordokat azonnali visszakereséshez.

Teljesítmény szempontok

  • Memóriakezelés: Állítsd be a JVM heap méretét nagy dokumentumcsoportokhoz.
  • Indexelési beállítások: Kapcsold ki a felesleges funkciókat (pl. term vectorok) az indexelés felgyorsításához.
  • Rendszeres frissítések: Tartsd naprakészen a GroupDocs.Search‑t, hogy élvezd a teljesítményjavító javításokat.

Gyakran feltett kérdések

Q: Hogyan kezeljem hatékonyan a nagyon nagy PDF fájlokat?
A: Streameld a fájlt az Extractor segítségével, és dolgozd fel darabokban; szükség esetén növeld a JVM heap méretét.

Q: Testreszabhatom a keresési lekérdezés szintaxisát?
A: Igen – a GroupDocs.Search támogatja a logikai operátorokat, helyettesítő karaktereket és közelségi kereséseket.

Q: Mit tegyek, ha a sorosítás meghiúsul?
A: Ellenőrizd, hogy minden objektum implementálja a Serializable interfészt, és kapd el az IOException‑t a részletek naplózásához.

Q: Lehetséges-e csak a dokumentum bizonyos szakaszait indexelni?
A: Teljesen – állítsd be az ExtractionOptions‑t, hogy szűrj oldalakat vagy szakaszokat az indexelés előtt.

Q: Hogyan frissíthetem a GroupDocs.Search újabb verziójára?
A: Módosítsd a verziószámot a pom.xml‑ben, majd futtasd a mvn clean install parancsot; tekintsd át a migrációs útmutatót a töréspontokért.

Források


Last Updated: 2026-02-19
Tested With: GroupDocs.Search 25.4 for Java
Author: GroupDocs