So extrahieren Sie Text aus Screenshots und Fotos – kostenloser OCR-Leitfaden
Sie haben einen Screenshot eines Codeausschnitts aus einem Tutorial-Video. Oder ein Foto eines Whiteboards aus einer Besprechung. Oder ein gescannter Vertrag, der nur als Bild in einem PDF vorliegt. Der Text ist genau dort – Sie können ihn mit Ihren Augen lesen – aber Sie können ihn nicht auswählen, kopieren oder nach einem bestimmten Wort suchen. Genau dieses Problem löst OCR, und es hat sich in den letzten Jahren bemerkenswert gut entwickelt.
Was ist OCR und wie funktioniert es?
OCR steht für Optical Character Recognition. Dabei handelt es sich um eine Technologie, die die Pixel in einem Bild analysiert, Muster identifiziert, die Buchstaben, Zahlen und Symbolen entsprechen, und diese Muster in tatsächlich bearbeitbaren Text umwandelt. Moderne OCR geht über den einfachen Mustervergleich hinaus – sie nutzt Modelle des maschinellen Lernens, die den Kontext verstehen, mehrere Schriftarten und -größen im selben Bild verarbeiten und sogar Text in leichten Winkeln oder auf gekrümmten Oberflächen erkennen können.
Die iFormat OCR-Tool verarbeitet Ihre Bilder direkt im Browser. Laden Sie einen Screenshot, ein Foto oder ein gescanntes Dokument hoch und es extrahiert den gesamten Text, den es identifizieren kann. Anschließend können Sie den extrahierten Text kopieren, bearbeiten oder zur Verwendung in Dokumenten, Tabellenkalkulationen oder E-Mails speichern.
Wann benötigen Sie OCR?
Die häufigsten Szenarien sind alltäglicher, als Sie vielleicht denken. Screenshots: Sie haben einen Screenshot einer Fehlermeldung, eines Rezepts, eines Social-Media-Beitrags oder eines Codeblocks gemacht und möchten nun den Text sehen, ohne ihn erneut eingeben zu müssen. Gescannte Dokumente: Alte Verträge, Quittungen oder Formulare, die als Bilder als PDF gescannt wurden – der Text ist visuell vorhanden, aber nicht auswählbar. Whiteboard-Fotos: Mit einer Telefonkamera aufgenommene Besprechungsnotizen, die Sie in Besprechungsprotokolle umwandeln müssen.
Handschriftliche Notizen: Vorlesungsskripte, Tagebucheinträge oder Planungsskizzen fotografiert für die digitale Archivierung. Visitenkarten: Anstatt die Kontaktdaten einer Person manuell einzugeben, fotografieren Sie die Karte und extrahieren Sie den Text. Buchseiten und Artikel: Extrahieren von Zitaten oder Daten aus gedrucktem Material, ohne ganze Absätze neu eingeben zu müssen. Quittungen und Rechnungen: Abrufen von Beträgen, Daten und Lieferantennamen aus fotografierten Belegen zur Spesenverfolgung.
Tipps für eine bessere OCR-Genauigkeit
Maximieren Sie die OCR-Genauigkeit
Auflösung ist wichtig: Bilder mit höherer Auflösung führen zu besseren Ergebnissen. Verwenden Sie beim Scannen eines Dokuments mindestens 300 DPI.
Der Kontrast ist der Schlüssel: Dunkler Text auf hellem Hintergrund funktioniert am besten. Vermeiden Sie Fotos mit Schatten, die über den Text fallen.
Geradeausrichtung: Text, der gerade und rechtwinklig zur Kamera ausgerichtet ist, kann von OCR leichter verarbeitet werden. Verzerrter oder gedrehter Text verringert die Genauigkeit.
Komprimierungsartefakte vermeiden: Stark komprimierte JPEGs verwischen die Ränder von Buchstaben. Verwenden Sie PNG für Screenshots oder hochwertiges JPEG für Fotos.
Wenn Ihr Bild dunkel oder kontrastarm ist, sollten Sie die Helligkeit und den Kontrast anpassen, bevor Sie OCR ausführen. Eine schnelle Anpassung im integrierten Fotoeditor Ihres Telefons – eine leichte Erhöhung von Helligkeit und Kontrast – kann die Texterkennungsgenauigkeit erheblich verbessern, insbesondere bei Whiteboard-Fotos, die in dunklen Konferenzräumen aufgenommen wurden.
Mehrsprachige Unterstützung
Moderne OCR-Engines unterstützen Dutzende Sprachen, darunter Sprachen mit lateinischem Alphabet (Englisch, Spanisch, Französisch, Deutsch), Kyrillisch (Russisch, Ukrainisch), Arabisch, Chinesisch (vereinfacht und traditionell), Japanisch, Koreanisch, Hindi und viele mehr. Die Qualität variiert je nach Sprache – Sprachen mit lateinischem Alphabet weisen in der Regel die höchste Genauigkeit auf, da sie über die meisten Trainingsdaten verfügen, aber die Erkennung von CJK (Chinesisch, Japanisch, Koreanisch) hat sich in den letzten Jahren dramatisch verbessert.
Wenn Ihr Dokument mehrere Sprachen enthält (üblich in wissenschaftlichen Arbeiten oder internationalen Verträgen), kann OCR in der Regel den gemischten Text verarbeiten, allerdings kann die Genauigkeit an den Grenzen zwischen Skripten sinken. Um optimale Ergebnisse mit nicht-lateinischen Schriften zu erzielen, stellen Sie sicher, dass das Bild eine hohe Auflösung hat und der Text deutlich gedruckt und nicht handgeschrieben ist.
Was OCR (noch) nicht kann
OCR weist Einschränkungen auf, die es wert sind, verstanden zu werden, damit Ihre Erwartungen der Realität entsprechen. Handschrifterkennung ist immer noch inkonsistent – saubere, gedruckte Handschrift funktioniert einigermaßen gut, aber kursive oder unordentliche Handschrift führt zu unzuverlässigen Ergebnissen. Dekorative und stilisierte Schriftarten (die Art, die in Logos, Postern und künstlerischen Designs verwendet wird) verwirren oft OCR-Engines, weil die Buchstabenformen erheblich von Standardschriftarten abweichen.
Sehr kleiner Text, überlagerter Text auf unruhigen Hintergründen (z. B. Text auf einem Foto) und stark beeinträchtigter oder verblasster Text beeinträchtigen die Genauigkeit. OCR behält auch nicht die ursprüngliche Formatierung bei – es extrahiert Rohtext, nicht das Layout mit Spalten, Tabellen und Einrückungen. Bei strukturierten Daten wie Tabellen müssen Sie den extrahierten Text möglicherweise manuell neu organisieren. Trotz dieser Einschränkungen liegt die moderne OCR-Genauigkeit bei gedrucktem Standardtext in klaren Bildern bei über 99 %, was sie schneller und zuverlässiger macht als die manuelle Transkription.
Nachdem Sie den Text extrahiert haben, möchten Sie ihn möglicherweise in ein sauberes Dokumentformat umwandeln. Sie können es in ein Textverarbeitungsprogramm einfügen und in PDF konvertierenoder wenn das Originalbild ein ungewöhnliches Format hat, Konvertieren Sie es um die besten Ergebnisse zu erzielen.