Estrarre testo da PDF Java: creare indice di documenti con GroupDocs.Search

In questa guida pratica scoprirai come estrarre testo da PDF Java dalle applicazioni e trasformare quel contenuto grezzo in un indice veloce e ricercabile a testo pieno. Che tu stia costruendo una base di conoscenza interna, un portale di ricerca contratti o un motore di ricerca personalizzato, i passaggi seguenti ti guideranno attraverso tutto — dall’estrazione del testo dai PDF alla serializzazione dei dati, alla creazione dell’indice e infine all’esecuzione delle query. Immergiamoci e vediamo perché GroupDocs.Search rende l’intero processo fluido e scalabile.

Risposte rapide

Qual è lo scopo principale? Estrarre testo da file PDF Java e creare un indice di documenti ricercabile con GroupDocs.Search.
Quale versione della libreria? GroupDocs.Search 25.4 (o l’ultima release).
È necessaria una licenza? Una prova gratuita è sufficiente per lo sviluppo; è necessaria una licenza completa per la produzione.
Posso indicizzare PDF? Sì — estrai il testo PDF e aggiungilo all’indice.
Come eseguire una ricerca? Usa il metodo index.search(query) dopo aver aggiunto i dati.

Cos’è un indice di documento?

Un indice di documento è una raccolta strutturata di termini ricercabili estratti dai tuoi file. Creando un indice di documento, abiliti ricerche a testo pieno rapide su grandi repository, migliorando drasticamente la velocità e l’accuratezza del recupero.

Perché usare GroupDocs.Search per Java?

Estrazione robusta – Gestisce PDF, Word, Excel e altro.
Serializzazione semplice – Memorizza i dati estratti come array di byte per riutilizzo futuro.
Indicizzazione scalabile – Indicizza milioni di documenti in modo efficiente.
Linguaggio di query potente – Supporta query Java complesse a testo pieno.

Prerequisiti

GroupDocs.Search per Java (Versione 25.4 o più recente).
Java Development Kit (JDK) compatibile con la tua versione di GroupDocs.
Un IDE come IntelliJ IDEA o Eclipse.
Maven per la gestione delle dipendenze.

Configurazione di GroupDocs.Search per Java

Per prima cosa, aggiungi la libreria al tuo progetto.

Configurazione Maven
Includi quanto segue nel tuo file pom.xml:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Download diretto
In alternativa, scarica l’ultima versione da GroupDocs.Search for Java releases.

Acquisizione della licenza

Prova gratuita – Prova tutte le funzionalità con una licenza temporanea.
Acquisto – Ottieni accesso completo e supporto prioritario.

Implementazione passo‑passo

Come estrarre testo da PDF (e altri documenti)

Estrarre testo grezzo o formattato è il primo passo per creare un indice di documento. Quando estrai testo da PDF Java, fornisci al motore di ricerca qualcosa che può comprendere.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);

ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

Suggerimento: Imposta setUseRawTextExtraction(true) se ti serve testo semplice senza formattazione.

Come serializzare i dati estratti

La serializzazione ti consente di memorizzare i dati estratti per indicizzarli in seguito.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Come deserializzare i dati estratti

Quando sei pronto a costruire l’indice, converti l’array di byte nuovamente in un oggetto.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Come creare un indice di documento

Ora che hai deserializedData, puoi creare l’indice che conterrà i termini ricercabili.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Come aggiungere dati all’indice ed eseguire una ricerca

Aggiungere dati e interrogare l’indice completa il flusso di lavoro extract text from PDF Java.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());

String query = "ipsum";
SearchResult result = index.search(query);

Consiglio professionale: Usa index.search("your query", SearchOptions) per affinare il ranking di rilevanza.

Casi d’uso comuni

Sistemi di gestione documentale – Trova rapidamente contratti, fatture o politiche.
Motori di ricerca basati sul contenuto – Alimenta basi di conoscenza interne con capacità di ricerca a testo pieno Java.
Soluzioni di archiviazione dati – Indicizza record storici per un recupero istantaneo.

Considerazioni sulle prestazioni

Gestione della memoria: Regola la dimensione dell’heap JVM per grandi lotti di documenti.
Opzioni di indicizzazione: Disabilita funzionalità non necessarie (ad es., term vectors) per velocizzare l’indicizzazione.
Aggiornamenti regolari: Mantieni GroupDocs.Search aggiornato per beneficiare delle patch di prestazioni.

Domande frequenti

D: Come gestisco file PDF molto grandi in modo efficiente?
R: Esegui lo streaming del file usando Extractor e processalo a blocchi; aumenta anche l’heap JVM se necessario.

D: Posso personalizzare la sintassi della query di ricerca?
R: Sì — GroupDocs.Search supporta operatori booleani, wildcard e ricerche di prossimità.

D: Cosa devo fare se la serializzazione fallisce?
R: Verifica che tutti gli oggetti implementino Serializable e cattura IOException per registrare i dettagli.

D: È possibile indicizzare solo sezioni specifiche di un documento?
R: Assolutamente — configura ExtractionOptions per filtrare pagine o sezioni prima dell’indicizzazione.

D: Come aggiorno a una versione più recente di GroupDocs.Search?
R: Aggiorna il numero di versione nel tuo pom.xml ed esegui mvn clean install; consulta la guida di migrazione per le modifiche breaking.

Risorse

Documentazione: GroupDocs Documentation
Riferimento API: GroupDocs API Reference
Download: GroupDocs Downloads
GitHub: GroupDocs GitHub Repository
Supporto gratuito: GroupDocs Forum
Licenza temporanea: Obtain a Temporary License

Ultimo aggiornamento: 2026-02-19
Testato con: GroupDocs.Search 25.4 per Java
Autore: GroupDocs