PDF Java’dan Metin Çıkarma: GroupDocs.Search ile Belge Dizini Oluşturma

Bu uygulamalı rehberde PDF Java’dan metin nasıl çıkarılır keşfedecek ve bu ham içeriği hızlı, tam metin aranabilir bir dizine dönüştüreceksiniz. İster dahili bir bilgi tabanı, bir sözleşme arama portalı ya da özel bir arama motoru oluşturuyor olun, aşağıdaki adımlar her şeyi adım adım gösterir—PDF’lerden metin çekmekten veriyi serileştirmeye, dizini oluşturmaya ve sonunda sorgular çalıştırmaya kadar. Hadi başlayalım ve GroupDocs.Search’in tüm süreci nasıl sorunsuz ve ölçeklenebilir kıldığını görelim.

Hızlı Yanıtlar

  • Ana amaç nedir? PDF Java dosyalarından metin çıkarmak ve GroupDocs.Search ile aranabilir bir belge dizini oluşturmak.
  • Hangi kütüphane sürümü? GroupDocs.Search 25.4 (veya en son sürüm).
  • Lisans gerekli mi? Geliştirme için ücretsiz deneme yeterlidir; üretim için tam lisans gereklidir.
  • PDF’leri dizine ekleyebilir miyim? Evet—PDF metnini çıkarın ve dizine ekleyin.
  • Aramayı nasıl çalıştırırım? Veri ekledikten sonra index.search(query) metodunu kullanın.

Belge Dizini Nedir?

Belge dizini, dosyalarınızdan çıkarılan aranabilir terimlerin yapılandırılmış bir koleksiyonudur. Bir belge dizini oluşturarak, büyük depolarda hızlı tam metin aramaları yapabilir ve geri getirme hızı ile doğruluğunu büyük ölçüde artırabilirsiniz.

GroupDocs.Search for Java Neden Kullanılmalı?

  • Güçlü çıkarma – PDF, Word, Excel ve daha fazlasını işler.
  • Kolay serileştirme – Çıkarılan veriyi daha sonra yeniden kullanmak için bayt dizileri olarak saklayın.
  • Ölçeklenebilir indeksleme – Milyonlarca belgeyi verimli bir şekilde indeksleyin.
  • Güçlü sorgu dili – Karmaşık tam metin arama Java sorgularını destekler.

Önkoşullar

  • GroupDocs.Search for Java (Sürüm 25.4 veya daha yeni).
  • Java Development Kit (JDK), GroupDocs sürümünüzle uyumlu.
  • IntelliJ IDEA veya Eclipse gibi bir IDE.
  • Bağımlılık yönetimi için Maven.

GroupDocs.Search for Java Kurulumu

First, add the library to your project.

Maven Kurulumu
Aşağıdakileri pom.xml dosyanıza ekleyin:

<repositories>
    <repository>
        <id>repository.groupdocs.com</id>
        <name>GroupDocs Repository</name>
        <url>https://releases.groupdocs.com/search/java/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>com.groupdocs</groupId>
        <artifactId>groupdocs-search</artifactId>
        <version>25.4</version>
    </dependency>
</dependencies>

Doğrudan İndirme
Alternatif olarak, en son sürümü GroupDocs.Search for Java releases adresinden indirin.

Lisans Edinme

  • Ücretsiz Deneme – Tüm özellikleri geçici bir lisansla test edin.
  • Satın Alma – Tam erişim ve öncelikli destek alın.

Adım Adım Uygulama

PDF’lerden (ve diğer belgelerden) metin nasıl çıkarılır

Ham ya da biçimlendirilmiş metni çıkarmak, bir belge dizini oluşturmanın ilk adımıdır. PDF Java’dan metin çıkardığınızda, arama motoruna anlayabileceği bir şey sağlamış olursunuz.

String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);

İpucu: Biçimlendirme olmadan düz metin ihtiyacınız varsa setUseRawTextExtraction(true) ayarlayın.

Çıkarılan veriyi serileştirme

Serileştirme, çıkarılan veriyi daha sonra indekslemek üzere saklamanızı sağlar.

ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();

Çıkarılan veriyi seriden çıkarma

İndeksi oluşturmaya hazır olduğunuzda, bayt dizisini tekrar bir nesneye dönüştürün.

ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);

Belge dizini oluşturma

Artık deserializedData‘ya sahip olduğunuzda, aranabilir terimleri tutacak dizini oluşturabilirsiniz.

String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);

Veriyi dizine ekleme ve arama yapma

Veriyi eklemek ve dizini sorgulamak, PDF Java’dan metin çıkarma iş akışını tamamlar.

ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);

Pro ipucu: İlgililik sıralamasını ince ayarlamak için index.search("your query", SearchOptions) kullanın.

Yaygın Kullanım Senaryoları

  1. Belge Yönetim Sistemleri – Sözleşmeleri, faturaları veya politikaları hızlıca bulun.
  2. İçerik Tabanlı Arama Motorları – İç bilgi tabanlarını tam metin arama Java yetenekleriyle güçlendirin.
  3. Veri Arşivleme Çözümleri – Tarihi kayıtları anında erişim için indeksleyin.

Performans Düşünceleri

  • Bellek Yönetimi: Büyük belge grupları için JVM yığın boyutunu ayarlayın.
  • İndeksleme Seçenekleri: Gereksiz özellikleri (ör. terim vektörleri) devre dışı bırakarak indekslemeyi hızlandırın.
  • Düzenli Güncellemeler: Performans yamalarından yararlanmak için GroupDocs.Search’i güncel tutun.

Sıkça Sorulan Sorular

S: Çok büyük PDF dosyalarını verimli bir şekilde nasıl yönetirim?
C: Dosyayı Extractor ile akışa alıp parçalar halinde işleyin; ayrıca gerekirse JVM yığınını artırın.

S: Arama sorgusu sözdizimini özelleştirebilir miyim?
C: Evet—GroupDocs.Search Boolean operatörleri, joker karakterler ve yakınlık aramaları destekler.

S: Serileştirme başarısız olursa ne yapmalıyım?
C: Tüm nesnelerin Serializable implement ettiğini doğrulayın ve detayları kaydetmek için IOException yakalayın.

S: Bir belgenin yalnızca belirli bölümlerini indekslemek mümkün mü?
C: Kesinlikle—İndekslemeden önce sayfaları veya bölümleri filtrelemek için ExtractionOptions yapılandırın.

S: Daha yeni bir GroupDocs.Search sürümüne nasıl yükseltirim?
C: pom.xml dosyanızdaki sürüm numarasını güncelleyin ve mvn clean install çalıştırın; kırılma değişiklikleri için geçiş kılavuzunu inceleyin.

Kaynaklar


Last Updated: 2026-02-19
Test Edilen Versiyon: GroupDocs.Search 25.4 for Java
Yazar: GroupDocs