Jak parsować PDF przy użyciu GroupDocs.Parser w Javie
W dzisiejszym świecie napędzanym danymi, jak parsować PDF efektywnie może mieć ogromny wpływ na wydajność. Niezależnie od tego, czy automatyzujesz przetwarzanie faktur, cyfryzujesz dokumenty, czy wyodrębniasz tekst z raportów PDF, odpowiednia biblioteka oszczędza czas i zmniejsza liczbę błędów. W tym przewodniku dowiesz się, jak parsować dokumenty PDF przy użyciu GroupDocs.Parser w Javie, definiować pola szablonu, tworzyć szablon dokumentu i pewnie wyodrębniać dane z plików PDF.
Szybkie odpowiedzi
- Jaki jest podstawowy cel GroupDocs.Parser? Wyodrębnia strukturalne dane z PDF, DOCX i innych formatów dokumentów.
- Czy mogę wyodrębniać dane z PDF bez szablonu? Tak, ale użycie szablonu zwiększa dokładność w przypadku dokumentów o stałym układzie.
- Czy potrzebuję licencji, aby wypróbować? Dostępna jest bezpłatna wersja próbna lub tymczasowa licencja do oceny.
- Jakiej wersji Javy wymaga? Java 8 lub wyższa; biblioteka działa z JDK 11, 17 itp.
- Czy Maven jest jedynym sposobem dodania biblioteki? Nie, możesz także pobrać plik JAR bezpośrednio z oficjalnego repozytorium.
Co to jest „jak parsować PDF” z GroupDocs.Parser?
Parsowanie PDF oznacza odczytanie wewnętrznej struktury pliku i wyciągnięcie potrzebnych informacji — tekstu, tabel lub konkretnych pól — tak aby aplikacja mogła je wykorzystać programowo.
Dlaczego używać GroupDocs.Parser do parsowania PDF?
- Wysoka dokładność przy szablonach o stałej pozycji.
- Wsparcie wielu formatów poza PDF (DOCX, XLSX itp.).
- Łatwa integracja przez Maven lub bezpośrednie pobranie JAR.
- Solidna obsługa błędów dla nieobsługiwanych formatów.
Wymagania wstępne
Zanim zaczniemy, upewnij się, że masz następujące elementy:
- GroupDocs.Parser wersja 25.5 lub nowsza.
- Java Development Kit (JDK) 8 lub nowszy zainstalowany.
- IDE, takie jak IntelliJ IDEA lub Eclipse.
- Maven do zarządzania zależnościami (opcjonalny, ale zalecany).
Wymagane biblioteki
- GroupDocs.Parser wersja 25.5 lub nowsza.
- Upewnij się, że Java Development Kit (JDK) jest zainstalowany na twoim komputerze.
Wymagania dotyczące konfiguracji środowiska
- Zintegrowane środowisko programistyczne Java (IDE), takie jak IntelliJ IDEA lub Eclipse.
- Maven do zarządzania zależnościami (opcjonalny, ale zalecany).
Wymagania wiedzy
- Podstawowa znajomość koncepcji programowania w Javie.
- Znajomość struktury dokumentów PDF oraz pól szablonów.
Konfigurowanie GroupDocs.Parser dla Javy
Aby rozpocząć korzystanie z GroupDocs.Parser w projektach Java, musisz dodać bibliotekę do konfiguracji kompilacji.
Konfiguracja Maven
Dodaj następującą konfigurację do pliku pom.xml, aby uwzględnić GroupDocs.Parser jako zależność:
<repositories>
<repository>
<id>repository.groupdocs.com</id>
<name>GroupDocs Repository</name>
<url>https://releases.groupdocs.com/parser/java/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser</artifactId>
<version>25.5</version>
</dependency>
</dependencies>
Bezpośrednie pobranie
Alternatywnie możesz pobrać najnowszą wersję z GroupDocs.Parser for Java releases.
Uzyskiwanie licencji
- Uzyskaj bezpłatną wersję próbną lub tymczasową licencję, aby przetestować pełne możliwości GroupDocs.Parser.
- Możesz zakupić licencję, jeśli uznasz, że spełnia twoje potrzeby.
Po zainstalowaniu zainicjalizuj GroupDocs.Parser w projekcie, importując niezbędne klasy i konfigurując podstawowe ustawienia. Przejdźmy teraz do implementacji podstawowej.
Przewodnik po implementacji
Przejdziemy przez trzy kluczowe kroki: definiowanie pól szablonu, tworzenie szablonu dokumentu oraz parsowanie PDF przy użyciu tego szablonu.
Definiowanie pól szablonu o stałej pozycji
Dokładne określenie położenia danych na stronie jest niezbędne do wiarygodnego wyodrębniania. Poniżej znajduje się kod definiujący pole szablonu.
Krok 1: Import wymaganych klas
import com.groupdocs.parser.templates.TemplateField;
import com.groupdocs.parser.templates.Rectangle;
import com.groupdocs.parser.templates.Size;
import com.groupdocs.parser.templates.Point;
Krok 2: Utworzenie pola szablonu
// Define a rectangle for fixed positioning of the field
templateField = new TemplateField(
new Rectangle(new Point(35, 135), new Size(100, 10)), // Coordinates and size
"FromCompany"); // Name of the field
Fragment tworzy obiekt TemplateField o nazwie FromCompany umieszczony w punkcie (35, 135) o rozmiarze 100 × 10 punktów. Tak precyzyjne położenie pomaga parserowi wyodrębniać dane z PDF w dokumentach, w których układ nigdy się nie zmienia.
Tworzenie szablonu dokumentu z zdefiniowanymi polami
Teraz połącz pola w szablon wielokrotnego użytku.
Krok 1: Import wymaganych klas
import com.groupdocs.parser.templates.Template;
import com.groupdocs.parser.templates.TemplateItem;
import java.util.Arrays;
Krok 2: Utworzenie i dodanie pól szablonu
// Construct a template with specified fields
template = new Template(Arrays.asList(new TemplateItem[]{field}));
Wszystkie zdefiniowane pola są teraz częścią jednego szablonu dokumentu, gotowego do parsowania.
Parsowanie PDF przy użyciu szablonu
Po przygotowaniu szablonu możesz wyodrębnić pożądane informacje z dowolnego pasującego pliku PDF.
Krok 1: Import wymaganych klas
import com.groupdocs.parser.Parser;
import com.groupdocs.parser.data.DocumentData;
import com.groupdocs.parser.data.PageTextArea;
import com.groupdocs.parser.exceptions.UnsupportedDocumentFormatException;
Krok 2: Parsowanie dokumentu
String inputFilePath = "YOUR_DOCUMENT_DIRECTORY/sample_invoice.pdf"; // Replace with your document path
try (Parser parser = new Parser(inputFilePath)) {
if (!parser.getFeatures().isText()) {
throw new UnsupportedDocumentFormatException("The document format is not supported.");
}
// Parse the document using the template
DocumentData data = parser.parseByTemplate(template);
// Extract and print all relevant data from the parsed document
for (int i = 0; i < data.getCount(); i++) {
Object pageArea = data.get(i).getPageArea();
PageTextArea area = pageArea instanceof PageTextArea ? (PageTextArea) pageArea : null;
// Output extracted field name and text content if available
String fieldName = data.get(i).getName();
String fieldValue = area == null ? "Not a template field" : area.getText();
}
} catch (UnsupportedDocumentFormatException e) {
System.err.println("Error: " + e.getMessage());
}
Kod otwiera PDF, weryfikuje, czy wyodrębnianie tekstu jest obsługiwane, parsuje plik z szablonem, a następnie iteruje po każdym wyodrębnionym polu. Jeśli format dokumentu nie jest obsługiwany, zostaje zgłoszony czytelny wyjątek.
Praktyczne zastosowania
GroupDocs.Parser sprawdza się w wielu rzeczywistych scenariuszach:
- Przetwarzanie faktur – Automatyczne pobieranie dat, kwot i nazw dostawców.
- Ekstrakcja danych z formularzy – Zbieranie wypełnionych pól ze skanowanych formularzy.
- Zarządzanie umowami – Identyfikacja kluczowych warunków, stron i dat w umowach.
Wskazówki dotyczące wydajności
- Niezwłocznie zwalniaj obiekty
Parser, aby zwolnić pamięć. - Utrzymuj szablony tak proste, jak to możliwe; niepotrzebne pola zwiększają obciążenie.
- Regularnie aktualizuj bibliotekę, aby korzystać z poprawek wydajności.
Typowe problemy i rozwiązania
| Problem | Rozwiązanie |
|---|---|
| Unsupported format error | Zweryfikuj, czy PDF zawiera wyodrębnialny tekst (a nie tylko obrazy). W razie potrzeby użyj wstępnego przetwarzania OCR. |
| Incorrect field values | Sprawdź ponownie współrzędne prostokąta; użyj przeglądarki PDF do dokładnego pomiaru pozycji. |
| Memory spikes on large files | Parsuj strony pojedynczo lub zwiększ rozmiar sterty JVM (-Xmx). |
Najczęściej zadawane pytania
Q: Co to jest GroupDocs.Parser?
A: Biblioteka Java, która wyodrębnia strukturalne dane z PDF, DOCX, XLSX i innych formatów dokumentów.
Q: Jak obsłużyć nieobsługiwane formaty dokumentów?
A: Skorzystaj z obsługi wyjątków (jak pokazano), aby przechwycić UnsupportedDocumentFormatException i poinformować użytkownika w przyjazny sposób.
Q: Czy mogę parsować obrazy w PDF przy użyciu GroupDocs.Parser?
A: Tak, ale musisz upewnić się, że funkcje wyodrębniania obrazów w bibliotece są włączone dla danego typu dokumentu.
Q: Jakie są typowe kroki rozwiązywania problemów, jeśli
A: (Oryginalny tutorial urwał ten punkt; możesz kontynuować rozwiązywanie problemów, sprawdzając uprawnienia do pliku, potwierdzając, że współrzędne szablonu odpowiadają układowi PDF oraz upewniając się, że używana jest najnowsza wersja biblioteki.)
Zakończenie
Gratulacje! Teraz wiesz, jak parsować PDF przy użyciu GroupDocs.Parser Java, od definiowania precyzyjnych pól szablonu po niezawodne wyodrębnianie danych. Tworząc wielokrotnego użytku szablon dokumentu, możesz automatyzować powtarzalne zadania związane z pozyskiwaniem danych i skupić się na pracy o wyższej wartości.
Kolejne kroki
- Spróbuj parsować różne typy dokumentów (DOCX, XLSX).
- Eksperymentuj z integracją OCR dla zeskanowanych PDF‑ów.
- Poznaj zaawansowane funkcje, takie jak wyodrębnianie tabel i własne procesory danych.
Po więcej szczegółów odwiedź oficjalną GroupDocs Documentation i dołącz do społeczności na Support Forum.
Ostatnia aktualizacja: 2026-01-09
Testowano z: GroupDocs.Parser 25.5
Autor: GroupDocs