GroupDocs.Search for Java ile Belge Dizini Oluşturma: Tam Kılavuz
Günümüz dijital çağında, belge dizini oluşturma yeteneği ve bunu verimli bir şekilde arama yapabilmek, herhangi bir organizasyon için oyunu değiştiren bir faktördür. İster bir belge yönetim sistemi ister özel bir arama motoru oluşturuyor olun, GroupDocs.Search for Java, metin çıkarma, veri serileştirme ve tam metin arama Java işlemlerini kolaylıkla gerçekleştirmenizi sağlayan araçları sunar. Bu öğretici, PDF metni çıkarmaktan veriyi dizine eklemeye ve dizinlenmiş belgeleri aramaya kadar her adımı size gösterir.
Hızlı Yanıtlar
- Ana amaç nedir? GroupDocs.Search for Java kullanarak aranabilir bir belge dizini oluşturmak.
- Hangi kütüphane sürümü? GroupDocs.Search 25.4 (veya en son sürüm).
- Lisans gerekli mi? Geliştirme için ücretsiz deneme çalışır; üretim için tam lisans gereklidir.
- PDF’leri dizine ekleyebilir miyim? Evet—pdf metnini çıkarın ve dizine ekleyin.
- Aramayı nasıl çalıştırırım? Veri ekledikten sonra
index.search(query)metodunu kullanın.
Belge Dizini Nedir?
Bir belge dizini, dosyalarınızdan çıkarılan aranabilir terimlerin yapılandırılmış bir koleksiyonudur. Belge dizini oluşturarak, büyük depolar üzerinde hızlı tam metin aramaları yapabilir ve geri getirme hızı ile doğruluğunu büyük ölçüde artırabilirsiniz.
Neden GroupDocs.Search for Java Kullanmalı?
- Robust extraction – PDF, Word, Excel ve daha fazlasını işler.
- Easy serialization – Çıkarılan verileri daha sonra yeniden kullanmak için byte dizileri olarak depolar.
- Scalable indexing – Milyonlarca belgeyi verimli bir şekilde dizine ekler.
- Powerful query language – Karmaşık tam metin arama Java sorgularını destekler.
Önkoşullar
- GroupDocs.Search for Java (Sürüm 25.4 veya daha yeni).
- Java Development Kit (JDK), GroupDocs sürümünüzle uyumlu.
- IntelliJ IDEA veya Eclipse gibi bir IDE.
- Bağımlılık yönetimi için Maven.
GroupDocs.Search for Java Kurulumu
İlk olarak, kütüphaneyi projenize ekleyin.
Maven Kurulumupom.xml dosyanıza aşağıdakileri ekleyin:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/search/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-search</artifactId>
<version>25.4</version>
</dependency>
</dependencies>
Doğrudan İndirme
Alternatif olarak, en son sürümü GroupDocs.Search for Java releases adresinden indirin.
Lisans Edinme
- Free Trial – Tüm özellikleri geçici bir lisansla test edin.
- Purchase – Tam erişim ve öncelikli destek alın.
Adım‑Adım Uygulama
PDF’lerden (ve diğer belgelerden) metin nasıl çıkarılır
Ham veya biçimlendirilmiş metin çıkarma, belge dizini oluşturmanın ilk adımıdır.
String documentPath = "YOUR_DOCUMENT_DIRECTORY/Lorem ipsum.pdf";
Extractor extractor = new Extractor();
Document document = Document.createFromFile(documentPath);
ExtractionOptions extractionOptions = new ExtractionOptions();
extractionOptions.setUseRawTextExtraction(false); // Extract with formatting
ExtractedData extractedData = extractor.extract(document, extractionOptions);
İpucu: Biçimlendirme olmadan düz metin ihtiyacınız varsa
setUseRawTextExtraction(true)ayarlayın.
Çıkarılan veriyi nasıl serileştirirsiniz
Serileştirme, çıkarılan veriyi daha sonra dizine eklemek için depolamanızı sağlar.
ByteArrayOutputStream outputStream = new ByteArrayOutputStream();
extractedData.serialize(outputStream);
byte[] serializedArray = outputStream.toByteArray();
Çıkarılan veriyi nasıl seriden çıkarırsınız
Dizini oluşturmaya hazır olduğunuzda, byte dizisini tekrar bir nesneye dönüştürün.
ByteArrayInputStream inputStream = new ByteArrayInputStream(serializedArray);
ExtractedData deserializedData = ExtractedData.deserialize(inputStream);
Belge dizini nasıl oluşturulur
Artık deserializedData olduğuna göre, aranabilir terimleri tutacak dizini oluşturabilirsiniz.
String indexFolder = "YOUR_OUTPUT_DIRECTORY/AdvancedUsage/Indexing/SeparateDataExtraction";
com.groupdocs.search.Index index = new com.groupdocs.search.Index(indexFolder);
Veriyi dizine ekleme ve arama gerçekleştirme
Veri eklemek ve dizini sorgulamak, belge dizini oluşturma iş akışını tamamlar.
ExtractedData[] dataToIndex = new ExtractedData[] { deserializedData };
index.add(dataToIndex, new IndexingOptions());
String query = "ipsum";
SearchResult result = index.search(query);
Pro ipucu: İlgililik sıralamasını ince ayarlamak için
index.search("your query", SearchOptions)kullanın.
Yaygın Kullanım Senaryoları
- Document Management Systems – Sözleşmeleri, faturaları veya politikaları hızlıca bulun.
- Content‑Based Search Engines – İç bilgi tabanlarını tam metin arama Java yetenekleriyle güçlendirin.
- Data Archiving Solutions – Tarihi kayıtları anında erişim için dizine ekleyin.
Performans Düşünceleri
- Memory Management: Büyük belge grupları için JVM yığın boyutunu ayarlayın.
- Indexing Options: Gereksiz özellikleri (ör. terim vektörleri) devre dışı bırakarak dizinleme hızını artırın.
- Regular Updates: Performans yamalarından faydalanmak için GroupDocs.Search’ı güncel tutun.
Sıkça Sorulan Sorular
S: Çok büyük PDF dosyalarını verimli bir şekilde nasıl yönetirim?
C: Dosyayı Extractor ile akışa alıp parçalar halinde işleyin; ayrıca gerekirse JVM yığınını artırın.
S: Arama sorgusu sözdizimini özelleştirebilir miyim?
C: Evet—GroupDocs.Search, Boolean operatörlerini, joker karakterleri ve yakınlık aramalarını destekler.
S: Serileştirme başarısız olursa ne yapmalıyım?
C: Tüm nesnelerin Serializable arayüzünü uyguladığını doğrulayın ve ayrıntıları kaydetmek için IOException yakalayın.
S: Bir belgenin yalnızca belirli bölümlerini dizine eklemek mümkün mü?
C: Kesinlikle—dizinlemeden önce sayfaları veya bölümleri filtrelemek için ExtractionOptions yapılandırın.
S: Daha yeni bir GroupDocs.Search sürümüne nasıl yükseltirim?
C: pom.xml dosyanızdaki sürüm numarasını güncelleyin ve mvn clean install çalıştırın; kırılma değişiklikleri için geçiş kılavuzunu inceleyin.
Kaynaklar
- Documentation: GroupDocs Documentation
- API Referansı: GroupDocs API Reference
- İndirme: GroupDocs Downloads
- GitHub: GroupDocs GitHub Repository
- Ücretsiz Destek: GroupDocs Forum
- Geçici Lisans: Obtain a Temporary License
Son Güncelleme: 2025-12-18
Test Edilen: GroupDocs.Search 25.4 for Java
Yazar: GroupDocs