Dokumentumindex létrehozása a GroupDocs.Search for Java-val: Teljes útmutató
A mai digitális korban a dokumentumindex gyors létrehozása és annak hatékony keresése igazi áttörést jelent bármely szervezet számára. Akár dokumentumkezelő rendszert, akár egyedi keresőmotort építesz, a GroupDocs.Search for Java megadja az eszközöket a szöveg kinyeréséhez, az adatok sorosításához és a teljes‑szöveges keresés Java műveletek egyszerű végrehajtásához. Ez a bemutató minden lépésen végigvezet – a PDF‑szöveg kinyerésétől az adatok indexbe való felvételéig és a indexelt dokumentumok kereséséig.
Gyors válaszok
- Mi a fő cél? Kereshető dokumentumindex létrehozása a GroupDocs.Search for Java segítségével.
- Melyik könyvtárverzió? GroupDocs.Search 25.4 (vagy a legújabb kiadás).
- Szükség van licencre? Fejlesztéshez egy ingyenes próbaelérhető; a termeléshez teljes licenc szükséges.
- Indexelhetők PDF‑ek? Igen – kinyerheted a PDF‑szöveget és hozzáadhatod az indexhez.
- Hogyan futtathatok keresést? Használd a
index.search(query)metódust az adatok felvétele után.
Mi az a dokumentumindex?
A dokumentumindex a fájlokból kinyert kereshető kifejezések strukturált gyűjteménye. Dokumentumindex létrehozásával gyors teljes‑szöveges kereséseket teszel lehetővé nagy adattárakban, jelentősen javítva a visszakeresés sebességét és pontosságát.
Miért a GroupDocs.Search for Java?
- Robusztus kinyerés – Kezeli a PDF‑eket, Word‑et, Excelt és további formátumokat.
- Egyszerű sorosítás – A kinyert adatokat bájt‑tömbként tárolhatod későbbi újrahasználatra.
- Skálázható indexelés – Hatékonyan indexelhet több millió dokumentumot.
- Erőteljes lekérdezési nyelv – Támogatja a komplex teljes‑szöveges keresés Java lekérdezéseket.
Előfeltételek
- GroupDocs.Search for Java (25.4 vagy újabb verzió).
- Java Development Kit (JDK), amely kompatibilis a GroupDocs verzióddal.
- Egy IDE, például IntelliJ IDEA vagy Eclipse.
- Maven a függőségkezeléshez.
A GroupDocs.Search for Java beállítása
Először add hozzá a könyvtárat a projektedhez.
Maven beállítás
Illeszd be a következőt a pom.xml fájlodba:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Közvetlen letöltés
Alternatívaként töltsd le a legújabb verziót a GroupDocs.Search for Java releases oldalról.
Licenc beszerzése
- Ingyenes próba – Teszteld az összes funkciót egy ideiglenes licenccel.
- Megvásárlás – Szerezd meg a teljes hozzáférést és a prioritásos támogatást.
Lépés‑ről‑lépésre megvalósítás
Hogyan nyerjünk ki szöveget PDF‑ekből (és más dokumentumokból)
A nyers vagy formázott szöveg kinyerése az első lépés a dokumentumindex létrehozásához.
String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);
Tipp: Állítsd be a
setUseRawTextExtraction(true)opciót, ha formázás nélküli egyszerű szöveget szeretnél.
Hogyan sorosítsuk a kinyert adatokat
A sorosítás lehetővé teszi a kinyert adatok tárolását későbbi indexeléshez.
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();
Hogyan deszerializáljuk a kinyert adatokat
Amikor készen állsz az index felépítésére, alakítsd vissza a bájt‑tömböt objektummá.
ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);
Hogyan hozzunk létre dokumentumindexet
Miután megvan a deserializedData, létrehozhatod azt az indexet, amely a kereshető kifejezéseket tárolja.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);
Hogyan adjuk hozzá az adatokat az indexhez és hajtsunk végre keresést
Az adatok felvétele és az index lekérdezése befejezi a dokumentumindex létrehozása munkafolyamatot.
ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);
Pro tipp: Használd a
index.search("your query", SearchOptions)metódust a relevancia rangsorolás finomhangolásához.
Gyakori felhasználási esetek
- Dokumentumkezelő rendszerek – Gyorsan megtalálhatók a szerződések, számlák vagy szabályzatok.
- Tartalom‑alapú keresőmotorok – Teljes‑szöveges keresés Java képességekkel támogatja a belső tudásbázisokat.
- Adatarchiválási megoldások – Indexeld a régi nyilvántartásokat azonnali visszakereséshez.
Teljesítménybeli megfontolások
- Memóriakezelés: Állítsd be a JVM heap méretét nagy dokumentumcsomagokhoz.
- Indexelési beállítások: Kapcsold ki a felesleges funkciókat (pl. term vectorok) a gyorsabb indexelés érdekében.
- Rendszeres frissítések: Tartsd naprakészen a GroupDocs.Search‑t, hogy élvezd a teljesítményjavító javításokat.
Gyakran feltett kérdések
Q: Hogyan kezeljek nagyon nagy PDF fájlokat hatékonyan?
A: Streameld a fájlt az Extractor segítségével, és dolgozd fel darabokban; szükség esetén növeld a JVM heap méretét.
Q: Testreszabhatom a keresési lekérdezés szintaxisát?
A: Igen – a GroupDocs.Search támogatja a logikai operátorokat, helyettesítő karaktereket és a közelségi kereséseket.
Q: Mit tegyek, ha a sorosítás sikertelen?
A: Ellenőrizd, hogy minden objektum implementálja a Serializable interfészt, és fogj IOException‑t a részletes naplózáshoz.
Q: Lehetséges-e csak a dokumentum bizonyos szakaszait indexelni?
A: Teljesen – állítsd be az ExtractionOptions‑t, hogy szűrje a lapokat vagy szakaszokat az indexelés előtt.
Q: Hogyan frissíthetem egy újabb GroupDocs.Search verzióra?
A: Módosítsd a verziószámot a pom.xml‑ben, majd futtasd a mvn clean install parancsot; tekintsd át a migrációs útmutatót a töréspontok miatt.
Források
- Dokumentáció: GroupDocs Documentation
- API referencia: GroupDocs API Reference
- Letöltés: GroupDocs Downloads
- GitHub: GroupDocs GitHub Repository
- Ingyenes támogatás: GroupDocs Forum
- Ideiglenes licenc: Obtain a Temporary License
Utoljára frissítve: 2025-12-18
Tesztelve: GroupDocs.Search 25.4 for Java
Szerző: GroupDocs