PDF Java szöveg kinyerése: Dokumentumindex létrehozása a GroupDocs.Search segítségével
Ebben a gyakorlati útmutatóban felfedezheted, hogyan kell szöveget kinyerni PDF Java alkalmazásokból, és hogyan alakíthatod ezt a nyers tartalmat egy gyors, teljes‑szöveges kereshető indexszé. Akár belső tudásbázist, szerződés‑kereső portált vagy egyedi keresőmotort építesz, az alábbi lépések mindent végigvezetnek – a PDF‑ekből való szövegkinyeréstől az adatok sorosításán, az index létrehozásán, egészen a lekérdezések futtatásáig. Merüljünk el, és nézzük meg, miért teszi a GroupDocs.Search a teljes folyamatot zökkenőmentessé és skálázhatóvá.
Gyors válaszok
- Mi a fő cél? PDF Java fájlok szövegének kinyerése és kereshető dokumentumindex létrehozása a GroupDocs.Search segítségével.
- Melyik könyvtár verzió? GroupDocs.Search 25.4 (vagy a legújabb kiadás).
- Szükségem van licencre? A ingyenes próba verzió fejlesztéshez működik; a teljes licenc szükséges a termeléshez.
- Indexelhetek PDF-eket? Igen – PDF szöveget kinyer és hozzáadja az indexhez.
- Hogyan futtathatok keresést? Használja a
index.search(query)metódust az adatok hozzáadása után.
Mi az a dokumentumindex?
A dokumentumindex a fájljaidból kinyert kereshető kifejezések strukturált gyűjteménye. Dokumentumindex létrehozásával gyors teljes‑szöveges kereséseket teszel lehetővé nagy adattárakban, jelentősen javítva a visszakeresés sebességét és pontosságát.
Miért használjuk a GroupDocs.Search‑t Java‑hoz?
- Robusztus kinyerés – Kezeli a PDF‑eket, Word‑et, Excel‑t és még sok mást.
- Egyszerű sorosítás – Tárold a kinyert adatokat bájt tömbként a későbbi újrahasználathoz.
- Skálázható indexelés – Hatékonyan indexelhet millió dokumentumot.
- Erőteljes lekérdezési nyelv – Támogatja a komplex teljes‑szöveges keresési Java lekérdezéseket.
Előfeltételek
- GroupDocs.Search for Java (25.4 vagy újabb verzió).
- Java Development Kit (JDK), amely kompatibilis a GroupDocs verzióddal.
- Egy IDE, például IntelliJ IDEA vagy Eclipse.
- Maven a függőségkezeléshez.
A GroupDocs.Search beállítása Java‑hoz
Először add hozzá a könyvtárat a projektedhez.
Maven beállítás
Add hozzá a következőt a pom.xml fájlodhoz:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Közvetlen letöltés
Alternatívaként töltsd le a legújabb verziót a GroupDocs.Search for Java releases oldalról.
Licenc beszerzése
- Ingyenes próba – Teszteld az összes funkciót egy ideiglenes licenccel.
- Vásárlás – Szerezz teljes hozzáférést és prioritásos támogatást.
Lépésről‑lépésre megvalósítás
Hogyan kell szöveget kinyerni PDF‑ekből (és más dokumentumokból)
A nyers vagy formázott szöveg kinyerése az első lépés a dokumentumindex létrehozásához. Amikor szöveget nyersz ki PDF Java‑ból, a keresőmotor számára érthető adatot adsz.
String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);
Tip: Állítsd be a
setUseRawTextExtraction(true)értéket, ha formázás nélküli egyszerű szöveget szeretnél.
Hogyan sorosítsuk a kinyert adatokat
A sorosítás lehetővé teszi, hogy a kinyert adatokat későbbi indexeléshez tárold.
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();
Hogyan deszerializáljuk a kinyert adatokat
Amikor készen állsz az index felépítésére, alakítsd vissza a bájt tömböt objektummá.
ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);
Hogyan hozzunk létre dokumentumindexet
Miután megvan a deserializedData, létrehozhatod az indexet, amely a kereshető kifejezéseket tartalmazza.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);
Hogyan adjunk adatot az indexhez és hajtsunk végre keresést
Az adatok hozzáadása és az index lekérdezése befejezi a PDF Java szöveg kinyerése munkafolyamatot.
ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);
Pro tip: Használd az
index.search("your query", SearchOptions)metódust a relevancia rangsorolás finomhangolásához.
Gyakori felhasználási esetek
- Dokumentumkezelő rendszerek – Gyorsan megtalálhatók a szerződések, számlák vagy irányelvek.
- Tartalom‑alapú keresőmotorok – Támogasd a belső tudásbázisokat a teljes‑szöveges keresési Java képességekkel.
- Adatarchiválási megoldások – Indexeld a történelmi rekordokat azonnali visszakereséshez.
Teljesítmény szempontok
- Memóriakezelés: Állítsd be a JVM heap méretét nagy dokumentumcsoportokhoz.
- Indexelési beállítások: Kapcsold ki a felesleges funkciókat (pl. term vectorok) az indexelés felgyorsításához.
- Rendszeres frissítések: Tartsd naprakészen a GroupDocs.Search‑t, hogy élvezd a teljesítményjavító javításokat.
Gyakran feltett kérdések
Q: Hogyan kezeljem hatékonyan a nagyon nagy PDF fájlokat?
A: Streameld a fájlt az Extractor segítségével, és dolgozd fel darabokban; szükség esetén növeld a JVM heap méretét.
Q: Testreszabhatom a keresési lekérdezés szintaxisát?
A: Igen – a GroupDocs.Search támogatja a logikai operátorokat, helyettesítő karaktereket és közelségi kereséseket.
Q: Mit tegyek, ha a sorosítás meghiúsul?
A: Ellenőrizd, hogy minden objektum implementálja a Serializable interfészt, és kapd el az IOException‑t a részletek naplózásához.
Q: Lehetséges-e csak a dokumentum bizonyos szakaszait indexelni?
A: Teljesen – állítsd be az ExtractionOptions‑t, hogy szűrj oldalakat vagy szakaszokat az indexelés előtt.
Q: Hogyan frissíthetem a GroupDocs.Search újabb verziójára?
A: Módosítsd a verziószámot a pom.xml‑ben, majd futtasd a mvn clean install parancsot; tekintsd át a migrációs útmutatót a töréspontokért.
Források
- Dokumentáció: GroupDocs Documentation
- API referencia: GroupDocs API Reference
- Letöltés: GroupDocs Downloads
- GitHub: GroupDocs GitHub Repository
- Ingyenes támogatás: GroupDocs Forum
- Ideiglenes licenc: Obtain a Temporary License
Last Updated: 2026-02-19
Tested With: GroupDocs.Search 25.4 for Java
Author: GroupDocs