Tekst extraheren uit PDF Java: Documentindex bouwen met GroupDocs.Search
In deze praktische gids ontdek je hoe je tekst uit PDF Java applicaties kunt extraheren en die ruwe inhoud kunt omzetten in een snelle, full‑text doorzoekbare index. Of je nu een interne kennisbank, een contract‑zoekportaal of een aangepaste zoekmachine bouwt, de onderstaande stappen leiden je door alles—van het halen van tekst uit PDF’s tot het serialiseren van de gegevens, het maken van de index en uiteindelijk het uitvoeren van queries. Laten we beginnen en zien waarom GroupDocs.Search het hele proces soepel en schaalbaar maakt.
Snelle antwoorden
- Wat is het belangrijkste doel? Tekst extraheren uit PDF Java‑bestanden en een doorzoekbare documentindex maken met GroupDocs.Search.
- Welke bibliotheekversie? GroupDocs.Search 25.4 (of de nieuwste release).
- Heb ik een licentie nodig? Een gratis proefversie werkt voor ontwikkeling; een volledige licentie is vereist voor productie.
- Kan ik PDF’s indexeren? Ja—extrait PDF‑tekst en voeg deze toe aan de index.
- Hoe voer ik een zoekopdracht uit? Gebruik de
index.search(query)‑methode na het toevoegen van gegevens.
Wat is een documentindex?
Een documentindex is een gestructureerde verzameling doorzoekbare termen die uit je bestanden zijn geëxtraheerd. Door een documentindex te maken, kun je snelle full‑text zoekopdrachten uitvoeren over grote repositories, waardoor de snelheid en nauwkeurigheid van het ophalen aanzienlijk verbetert.
Waarom GroupDocs.Search voor Java gebruiken?
- Robuuste extractie – Ondersteunt PDF’s, Word, Excel en meer.
- Eenvoudige serialisatie – Sla geëxtraheerde gegevens op als byte‑arrays voor later hergebruik.
- Schaalbare indexering – Indexeer efficiënt miljoenen documenten.
- Krachtige querytaal – Ondersteunt complexe full‑text zoek‑Java‑queries.
Vereisten
- GroupDocs.Search voor Java (Versie 25.4 of nieuwer).
- Java Development Kit (JDK) compatibel met je GroupDocs‑versie.
- Een IDE zoals IntelliJ IDEA of Eclipse.
- Maven voor afhankelijkheidsbeheer.
GroupDocs.Search voor Java instellen
Voeg eerst de bibliotheek toe aan je project.
Maven‑configuratie
Voeg het volgende toe aan je pom.xml‑bestand:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Directe download
Alternatief kun je de nieuwste versie downloaden van GroupDocs.Search for Java releases.
Licentie verkrijgen
- Gratis proefversie – Test alle functies met een tijdelijke licentie.
- Aankoop – Verkrijg volledige toegang en prioriteitsondersteuning.
Stapsgewijze implementatie
Hoe tekst uit PDF’s (en andere documenten) te extraheren
Het extraheren van ruwe of opgemaakte tekst is de eerste stap naar het maken van een documentindex. Wanneer je tekst uit PDF Java extraheert, geef je de zoekmachine iets dat het kan begrijpen.
String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);
Tip: Stel
setUseRawTextExtraction(true)in als je platte tekst zonder opmaak nodig hebt.
Hoe geëxtraheerde gegevens te serialiseren
Serialisatie stelt je in staat de geëxtraheerde gegevens op te slaan voor latere indexering.
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();
Hoe geëxtraheerde gegevens te deserialiseren
Wanneer je klaar bent om de index te bouwen, converteer je de byte‑array terug naar een object.
ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);
Hoe een documentindex te maken
Nu je deserializedData hebt, kun je de index maken die doorzoekbare termen bevat.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);
Hoe gegevens aan de index toe te voegen en een zoekopdracht uit te voeren
Het toevoegen van gegevens en het bevragen van de index voltooit de tekst uit PDF Java extraheren workflow.
ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);
Pro tip: Gebruik
index.search("your query", SearchOptions)om de relevantiesortering fijn af te stemmen.
Veelvoorkomende gebruikssituaties
- Document Management Systemen – Snel contracten, facturen of beleidsdocumenten vinden.
- Content‑gebaseerde zoekmachines – Voorzie interne kennisbanken van full‑text zoek‑Java‑mogelijkheden.
- Data‑archiveringsoplossingen – Indexeer historische records voor directe ophalen.
Prestatie‑overwegingen
- Geheugenbeheer: Pas de JVM‑heap‑grootte aan voor grote documentbatches.
- Indexeringsopties: Schakel onnodige functies uit (bijv. term‑vectors) om het indexeren te versnellen.
- Regelmatige updates: Houd GroupDocs.Search up‑to‑date om te profiteren van prestatie‑patches.
Veelgestelde vragen
Q: Hoe ga ik efficiënt om met zeer grote PDF‑bestanden?
A: Stream het bestand met Extractor en verwerk het in delen; vergroot ook de JVM‑heap indien nodig.
Q: Kan ik de zoek‑query‑syntaxis aanpassen?
A: Ja—GroupDocs.Search ondersteunt Booleaanse operatoren, wildcards en nabijheidszoekopdrachten.
Q: Wat moet ik doen als serialisatie mislukt?
A: Controleer of alle objecten Serializable implementeren en vang IOException om details te loggen.
Q: Is het mogelijk om alleen specifieke secties van een document te indexeren?
A: Absoluut—configureer ExtractionOptions om pagina’s of secties te filteren vóór het indexeren.
Q: Hoe upgrade ik naar een nieuwere GroupDocs.Search‑versie?
A: Werk het versienummer bij in je pom.xml en voer mvn clean install uit; bekijk de migratie‑gids voor breaking changes.
Bronnen
- Documentatie: GroupDocs Documentation
- API‑referentie: GroupDocs API Reference
- Download: GroupDocs Downloads
- GitHub: GroupDocs GitHub Repository
- Gratis ondersteuning: GroupDocs Forum
- Tijdelijke licentie: Obtain a Temporary License
Laatst bijgewerkt: 2026-02-19
Getest met: GroupDocs.Search 25.4 for Java
Auteur: GroupDocs