Bilder aus PDF extrahieren

Holen Sie alle eingebetteten Bilder aus einem PDF heraus und laden Sie sie einzeln oder als .zip herunter. Kein Upload.

PDF hier ablegen oder
  1. Legen Sie ein PDF ab oder klicken Sie auf „durchsuchen".
  2. Klicken Sie auf „Bilder extrahieren" — ein Thumbnail-Raster erscheint.
  3. Klicken Sie auf ein Thumbnail, um das Bild herunterzuladen, oder „Alle als .zip herunterladen" für ein Bündel.
  4. Bilder werden als PNG gespeichert; die Original-Kodierung wird zuerst in ein Canvas dekodiert.
Was macht es?

Durchläuft jede Seite des PDFs, lokalisiert jede paintImageXObject-Operation und extrahiert das zugrundeliegende Bild-Bitmap. Jedes extrahierte Bild wird über Canvas zu PNG normalisiert — JPEG-Quellen verlieren ihre ursprüngliche Komprimierung, aber die Ausgabepixel sind dieselben wie das, was das PDF gerendert hat. Bilder, die in nicht unterstützten Codecs (JBIG2, CCITT für Fax, JPX für JPEG 2000) gespeichert sind, werden in der Zählung gemeldet, aber nicht dekodiert — diese würden dedizierte Codec-Bibliotheken jenseits von pdfjs-dist erfordern.

Häufige Probleme

PDF-Bildextraktion ist grundsätzlich codec-abhängig. Die meisten PDFs funktionieren — dies sind die Muster, bei denen die Extraktion überraschende Ergebnisse liefern kann.

  • Nicht unterstützte Bild-Codecs. JBIG2 (einige gescannte Dokumente), CCITT (Fax-ähnliche Scans) und JPEG 2000 (JPX) werden nicht dekodiert. Die Statuszeile meldet, wie viele übersprungen wurden. Um diese zu extrahieren, rendern Sie stattdessen über /pdf-to-images — das rastert die gesamte Seite einschließlich des Bildes.
  • Originale JPEG-Qualität verloren. Bilder werden als PNG exportiert, um Transparenz zu erhalten und Doppelkomprimierungs-Artefakte zu vermeiden. Wenn Ihre Quelle ein in das PDF eingebettetes JPEG war, ist die PNG-Ausgabe größer, aber pixelidentisch zu dem, was pdf-lib dekodiert hat.
  • Inline-Bilder verpasst. Einige PDFs verwenden Inline-Bilddaten (BI/ID/EI-Operatoren) anstelle von XObjects — typischerweise sehr kleine Bilder. v1 extrahiert diese nicht. Die meisten Fotos und Screenshots sind XObjects und werden korrekt extrahiert.
  • Dasselbe Bild, mehrmals. PDFs referenzieren oft ein Bild-XObject von mehreren Seiten. v1 extrahiert das Bild einmal pro paintImageXObject-Aufruf, sodass ein dupliziertes Logo einmal pro Verwendung erscheint. Deduplizieren Sie bei Bedarf nach Dateiname oder Hash.
  • Verschlüsselte PDFs. Passwortgeschützte PDFs können ohne Passwort nicht geöffnet werden. Führen Sie sie zuerst durch /pdf-unlock, wenn Sie das Eigentümerpasswort haben.
  • Sehr große PDFs. Jedes extrahierte Bild lebt im Browser-Speicher, bis Sie es löschen oder die Seite verlassen. PDFs mit Hunderten hochauflösender Bilder können Hunderte MB RAM verwenden. Verwenden Sie den .zip-Download zügig und klicken Sie auf Leeren, wenn Sie fertig sind.
Häufig gestellte Fragen

Warum sind meine Bilder PNG, nicht JPG?

PNG bewahrt Transparenz und vermeidet Neukodierungs-Artefakte. Die Pixel sind dieselben wie das Original; die Datei ist größer, weil PNG verlustfrei ist. Um Speicherplatz zu sparen, lassen Sie das Ergebnis durch /image-compress im WebP-Modus laufen.

Wie erkenne ich, von welcher Seite jedes Bild stammt?

Dateinamen folgen dem Muster `pageN-imgM.png` — N ist die Quellseiten-Nummer, M ist eine Sequenznummer innerhalb dieser Seite. Sortieren Sie nach Dateinamen, um die Reihenfolge zu sehen, in der sie im PDF erscheinen.

Werden verschlüsselte Bilder verzerrt herauskommen?

Bilddaten innerhalb eines unverschlüsselten PDFs sind nicht separat verschlüsselt — sie werden normal dekodiert. Wenn das PDF selbst verschlüsselt ist, kann das Werkzeug es überhaupt nicht lesen (siehe den Hinweis zu verschlüsselten PDFs oben).

Warum ist die Anzahl höher als die sichtbaren Bilder?

Einige PDFs verwenden mehrere Bild-XObjects pro sichtbarem Bild (z. B. ein Soft-Mask-Alphakanal, der als separates Graustufenbild gespeichert ist). v1 extrahiert jedes — die Soft-Mask lässt das Hauptbild beim Komponieren richtig aussehen, erscheint aber allein als schwarzweiße Silhouette.

Wird mein PDF hochgeladen?

Nein. Alles läuft in Ihrem Browser — Ihr PDF wird von pdfjs-dist geparst und Bild-Bitmaps werden über Canvas gerendert, alles clientseitig. Es werden keine Netzwerkanfragen ausgelöst.

Wie groß kann ein PDF sein, aus dem ich extrahieren kann?

Bis zu etwa 100 MB PDF, bevor der Browser sich träge anfühlt. Die harte Grenze ist Ihr Tab-Speicher — wenn die Extraktion OOM geht, teilen Sie das PDF über /pdf-split und führen Sie jeden Abschnitt separat aus.