Zuletzt aktualisiert: 2026-03-14
Getestet mit: GroupDocs.Editor für .NET (neueste Version)
Autor: GroupDocs"

Make sure markdown formatting preserved.

Now produce final content.# Bilder aus DOCX extrahieren – Erweiterte Verwendung bearbeitbarer Dokumente

Wenn Sie ein .NET‑Entwickler sind und Bilder aus DOCX extrahieren sowie Ihre Dokumenten‑Bearbeitungsfunktionen erweitern möchten, bietet GroupDocs.Editor für .NET eine leistungsstarke Werkzeugpalette. Dieser umfassende Leitfaden führt Sie durch die erweiterte Nutzung bearbeitbarer Dokumente mit GroupDocs.Editor und erklärt jeden Schritt im Detail, sodass Sie das volle Potenzial ausschöpfen können.

Schnelle Antworten

  • Wie kann ich Bilder aus einer DOCX‑Datei extrahieren? Verwenden Sie EditableDocument.Images nach dem Laden des Dokuments mit Editor.
  • Kann ich DOCX in HTML mit eingebetteten Ressourcen konvertieren? Ja – rufen Sie EditableDocument.GetEmbeddedHtml() oder GetContent() für das HTML‑Markup auf.
  • Welche Methode speichert das bearbeitete Dokument als HTML? EditableDocument.Save(htmlFilePath) erstellt eine HTML‑Datei mit einem Ressourcen‑Ordner.
  • Ist es möglich, Schriftarten aus einem Word‑Dokument zu extrahieren? Verwenden Sie EditableDocument.Fonts, um alle Schrift‑Ressourcen abzurufen.
  • Benötige ich eine Lizenz für den Produktionseinsatz? Eine gültige GroupDocs.Editor‑Lizenz ist erforderlich; ein kostenloser Testzeitraum ist verfügbar.

Was ist extract images from docx?

Das Extrahieren von Bildern aus einer DOCX‑Datei bedeutet, jedes im Word‑Dokument eingebettete Bild programmgesteuert abzurufen, um es separat wiederzuverwenden, zu bearbeiten oder zu speichern. GroupDocs.Editor stellt die Images‑Sammlung auf einer EditableDocument‑Instanz bereit, wodurch diese Aufgabe unkompliziert wird.

Warum GroupDocs.Editor für diesen Workflow verwenden?

  • Vollständige Kontrolle über Dokumentressourcen (Bilder, Schriftarten, CSS) ohne manuelle ZIP‑Verarbeitung.
  • Nahtlose Konvertierung von DOCX zu HTML bei gleichzeitiger Beibehaltung von Layout und Stil.
  • Einfache Ressourcenextraktion für benutzerdefinierte Bildverarbeitung, Schrift‑Einbettung oder CDN‑Bereitstellung.
  • Robustes Entsorgungsmuster stellt sicher, dass es in langlaufenden Diensten keine Speicherlecks gibt.

Voraussetzungen

  • Visual Studio ist auf Ihrem Entwicklungsrechner installiert.
  • .NET Framework, das mit GroupDocs.Editor kompatibel ist.
  • GroupDocs.Editor für .NET Bibliothek. Sie können sie hier herunterladen.
  • Eine gültige GroupDocs.Editor‑Lizenz. Sie können eine kostenlose Testversion erhalten oder eine temporäre Lizenz erwerben.

Namespaces importieren

Um zu beginnen, stellen Sie sicher, dass Sie die erforderlichen Namespaces in Ihrem .NET‑Projekt importieren:

using System;
using System.Collections.Generic;
using System.IO;
using GroupDocs.Editor.HtmlCss.Resources;
using GroupDocs.Editor.HtmlCss.Resources.Fonts;
using GroupDocs.Editor.HtmlCss.Resources.Images;
using GroupDocs.Editor.HtmlCss.Resources.Textual;
using GroupDocs.Editor.Options;

Schritt 1: Erstellen einer EditableDocument‑Instanz

Zuerst müssen Sie eine Instanz von EditableDocument erstellen, indem Sie ein Eingabedokument eines unterstützten Formats laden und bearbeiten.

string inputFilePath = "YourSampleDocument.docx";
Editor editor = new Editor(inputFilePath, delegate { return new WordProcessingLoadOptions(); });
EditableDocument beforeEdit = editor.Edit(new WordProcessingEditOptions());

In diesem Schritt laden wir das Eingabedokument und bereiten es für die Bearbeitung vor.

Wie man extract images from DOCX?

Im Folgenden gehen wir auf die Möglichkeiten zur Ressourcenextraktion ein, beginnend mit dem häufigsten Bedarf – alle Bilder aus einer Word‑Datei zu erhalten.

Schritt 2: Dokumentressourcen extrahieren

Das EditableDocument enthält verschiedene Ressourcen, die extrahiert und manipuliert werden können. Lassen Sie uns diese aufschlüsseln:

Schritt 2.1: Gesamtes Dokument als HTML extrahieren

Sie können eine einzelne Zeichenkette erzeugen, die das gesamte Dokument mit allen eingebetteten Ressourcen als HTML enthält.

string allAsHtmlInsideOneString = beforeEdit.GetEmbeddedHtml();

Schritt 2.2: Alle Bilder extrahieren (primary keyword in action)

Extrahieren Sie alle Bilder aus dem Dokument – dies ist der Kern von extract images from docx.

List<IImageResource> allImages = beforeEdit.Images;

Schritt 2.3: Alle Schriftarten extrahieren (secondary keyword)

Falls Sie auch Schriftarten aus Word extrahieren müssen, verwenden Sie den folgenden Aufruf:

List<FontResourceBase> allFonts = beforeEdit.Fonts;

Schritt 2.4: Alle Stylesheets extrahieren

Extrahieren Sie alle Stylesheets im Textformat.

List<CssText> allStylesheets = beforeEdit.Css;

Schritt 2.5: Alle Ressourcen sammeln

Sammeln Sie alle Ressourcen in einem Aufruf.

List<IHtmlResource> allResources = beforeEdit.AllResources;

Dies umfasst Bilder, Schriftarten und Stylesheets.

Schritt 2.6: HTML‑Markup erhalten

Erhalten Sie das HTML‑Markup des Dokuments ohne eingebettete Ressourcen.

string htmlMarkup = beforeEdit.GetContent();

Wie man convert docx to html mit benutzerdefinierter Handhabung?

Manchmal müssen Sie externe Links anpassen, damit sie auf Ihre eigenen Ressourcen‑Handler verweisen.

Schritt 3.1: Benutzerdefinierte Präfixe vorbereiten

Bereiten Sie Präfixe vor, die den ursprünglichen externen Links vorangestellt werden.

string customImagesRequesthandlerUri = "http://example.com/ImagesHandler/id=";
string customCssRequesthandlerUri = "http://example.com/CssHandler/id=";
string customFontsRequesthandlerUri = "http://example.com/FontsHandler/id=";

Schritt 3.2: Präfixiertes HTML‑Markup generieren

Generieren Sie HTML‑Markup mit angepassten Links.

string prefixedHtmlMarkup = beforeEdit.GetContent(customImagesRequesthandlerUri, customCssRequesthandlerUri);

Schritt 3.3: Nur‑Body‑HTML‑Inhalt erhalten

Einige WYSIWYG‑Editoren verarbeiten nur reines HTML‑Markup ohne Header.

string onlyBodyContent = beforeEdit.GetBodyContent();

Schritt 3.4: Präfixierter Nur‑Body‑Inhalt

Generieren Sie Nur‑Body‑Inhalt mit benutzerdefinierten Bild‑Präfixen.

string prefixedBodyContent = beforeEdit.GetBodyContent(customImagesRequesthandlerUri);

Schritt 3.5: Stylesheets extrahieren

Extrahieren Sie die im Dokument verwendeten Stylesheets.

List<string> stylesheets = beforeEdit.GetCssContent();

Schritt 3.6: Präfixierte Stylesheets

Extrahieren Sie Stylesheets mit benutzerdefinierten Präfixen.

List<string> prefixedStylesheets = beforeEdit.GetCssContent(customImagesRequesthandlerUri, customFontsRequesthandlerUri);

Wie man save document as html korrekt speichert?

Schritt 4: Dokument als HTML speichern

Speichern Sie das bearbeitete Dokument als HTML‑Datei, einschließlich seiner Ressourcen.

string htmlFilePath = Path.Combine("output", Path.GetFileNameWithoutExtension(inputFilePath) + ".html");
beforeEdit.Save(htmlFilePath);

Diese Methode erstellt ein separates Verzeichnis für Ressourcen wie Stylesheets, Bilder und Schriftarten.

Schritt 5: Entsorgung von EditableDocument

EditableDocument implementiert IDisposable und bietet die Möglichkeit zu prüfen, ob die Instanz bereits entsorgt wurde.

Console.WriteLine("EditableDocument is {0} disposed", !beforeEdit.IsDisposed ? "not" : "already");

Schritt 5.1: Umgang mit dem Dispose‑Ereignis

Sie können sich auch für das Dispose‑Ereignis anmelden.

EventHandler someMethod = delegate { Console.WriteLine("Disposing event was spotted!"); };
beforeEdit.Disposed += someMethod;

Schritt 6: EditableDocument aus HTML erstellen

Erstellen Sie eine Instanz von EditableDocument aus einem HTML‑Dokument.

Schritt 6.1: Aus HTML‑Datei

EditableDocument afterEditFromFile = EditableDocument.FromFile(htmlFilePath, null);

Schritt 6.2: Aus HTML‑Markup

EditableDocument afterEditFromMarkup = EditableDocument.FromMarkup(htmlMarkup, allResources);

Diese Instanzen (afterEditFromFile und afterEditFromMarkup) sind identisch mit dem Original (beforeEdit).

Schritt 7: Manuelle Entsorgung

Entsorgen Sie Ihre EditableDocument‑Instanzen manuell.

beforeEdit.Dispose();
afterEditFromFile.Dispose();
afterEditFromMarkup.Dispose();
editor.Dispose();

Damit wird eine ordnungsgemäße Bereinigung der Ressourcen sichergestellt.

Häufige Probleme und Lösungen

  • Bilder erscheinen nach der Extraktion nicht: Stellen Sie sicher, dass das Dokument tatsächlich eingebettete Bilder enthält und dass Sie nach dem Aufruf von Edit auf beforeEdit.Images zugreifen.
  • Schriftarten fehlen in der HTML‑Ausgabe: Stellen Sie sicher, dass Sie GetCssContent(customImagesRequesthandlerUri, customFontsRequesthandlerUri) aufrufen, um Schrift‑URLs korrekt einzubetten.
  • Große HTML‑Zeichenketten verursachen Speicherbelastung: Verwenden Sie GetContent() für Markup ohne eingebettete Ressourcen und stellen Sie Bilder/CSS aus separaten Dateien bereit.

Häufig gestellte Fragen

F: Welche Formate unterstützt GroupDocs.Editor?
A: GroupDocs.Editor unterstützt DOCX, XLSX, PPTX und viele andere gängige Office‑Formate.

F: Kann ich GroupDocs.Editor ohne Lizenz verwenden?
A: Ja, Sie können es mit einer kostenlosen Testversion oder einer temporären Lizenz nutzen.

F: Wie extrahiere ich bestimmte Ressourcen aus einem Dokument?
A: Verwenden Sie die Sammlungen Images, Fonts und Css auf der EditableDocument‑Instanz.

F: Ist es möglich, Links in der HTML‑Ausgabe anzupassen?
A: Ja, übergeben Sie benutzerdefinierte URI‑Präfixe an GetContent oder GetBodyContent, um Bild‑, CSS‑ und Schrift‑Links umzuschreiben.

F: Wie speichere ich ein bearbeitetes Dokument als HTML‑Datei?
A: Rufen Sie die Save‑Methode auf der EditableDocument‑Instanz auf und geben Sie einen Dateipfad an, der mit .html endet.


Zuletzt aktualisiert: 2026-03-14
Getestet mit: GroupDocs.Editor für .NET (neueste Version)
Autor: GroupDocs