Ekran Görüntülerinden ve Fotoğraflardan Metin Nasıl Çıkarılır — Ücretsiz OCR Kılavuzu
Bir eğitim videosundaki kod pasajının ekran görüntüsüne sahipsiniz. Veya bir toplantıdan beyaz tahtanın fotoğrafı. Veya yalnızca PDF'de resim olarak bulunan taranmış bir sözleşme. Metin tam oradadır; gözlerinizle okuyabilirsiniz ancak onu seçemez, kopyalayamaz veya belirli bir kelimeyi arayamazsınız. Bu tam olarak OCR'nin çözdüğü sorundur ve son birkaç yılda oldukça iyi bir noktaya geldi.
OCR Nedir ve Nasıl Çalışır?
OCR, Optik Karakter Tanıma anlamına gelir. Bir görüntüdeki pikselleri analiz eden, harflere, sayılara ve sembollere karşılık gelen desenleri tanımlayan ve bu desenleri gerçek düzenlenebilir metne dönüştüren bir teknolojidir. Modern OCR, basit desen eşleştirmenin ötesine geçer; bağlamı anlayan, aynı görüntüde birden fazla yazı tipi ve boyutu işleyebilen ve hatta hafif açılı veya kavisli yüzeylerdeki metni tanıyabilen makine öğrenimi modellerini kullanır.
The iFormat OCR aracı görsellerinizi doğrudan tarayıcıda işler. Bir ekran görüntüsü, fotoğraf veya taranmış belge yükleyin; tanımlayabildiği tüm metni çıkarır. Daha sonra çıkarılan metni kopyalayabilir, düzenleyebilir veya belgelerde, e-tablolarda veya e-postalarda kullanmak üzere kaydedebilirsiniz.
OCR'a Ne Zaman İhtiyacınız Var?
En yaygın senaryolar, düşündüğünüzden daha gündeliktir. Ekran görüntüleri: Bir hata mesajının, bir tarifin, bir sosyal medya gönderisinin veya bir kod bloğunun ekran görüntüsünü aldınız ve artık metni yeniden yazmadan istiyorsunuz. Taranan belgeler: PDF'ye resim olarak taranan eski sözleşmeler, makbuzlar veya formlar; metin görsel olarak mevcuttur ancak seçilemez. Beyaz tahta fotoğrafları: Toplantı tutanaklarına dönüştürmeniz gereken, telefon kamerasına kaydedilen toplantı notları.
El yazısı notlar: Dijital arşivleme için fotoğraflanan ders notları, günlük girişleri veya planlama taslakları. Kartvizitler: Birinin iletişim bilgilerini manuel olarak yazmak yerine kartın fotoğrafını çekin ve metni çıkarın. Kitap sayfaları ve makaleler: Tüm paragrafları yeniden yazmaya gerek kalmadan basılı materyalden alıntı veya veri çıkarma. Makbuzlar ve faturalar: Gider takibi için fotoğraflı makbuzlardan tutarların, tarihlerin ve satıcı adlarının alınması.
Daha İyi OCR Doğruluğu için İpuçları
OCR Doğruluğunu En Üst Düzeye Çıkarın
Çözünürlük önemlidir: Daha yüksek çözünürlüklü görüntüler daha iyi sonuçlar verir. Bir belge tarıyorsanız en az 300 DPI kullanın.
Kontrast önemlidir: Açık renkli bir arka plan üzerinde koyu metin en iyi sonucu verir. Metnin üzerine gölge düşen fotoğraflardan kaçının.
Düz hizalama: Kameraya göre düz ve kare olan metinlerin OCR tarafından işlenmesi daha kolaydır. Eğik veya döndürülmüş metin doğruluğu azaltır.
Sıkıştırma artefaktlarından kaçının: Ağır şekilde sıkıştırılmış JPEG'ler harflerin kenarlarını bulanıklaştırır. Ekran görüntüleri için PNG'yi veya fotoğraflar için yüksek kaliteli JPEG'i kullanın.
Görüntünüz karanlık veya düşük kontrastlıysa OCR'yi çalıştırmadan önce parlaklık ve kontrastı ayarlamayı düşünün. Telefonunuzun yerleşik fotoğraf düzenleyicisinde hızlı bir ayarlama (parlaklığı ve kontrastı biraz artırarak) özellikle loş konferans odalarında çekilen beyaz tahta fotoğrafları için metin tanıma doğruluğunu önemli ölçüde artırabilir.
Çoklu Dil Desteği
Modern OCR motorları, Latin alfabesi dilleri (İngilizce, İspanyolca, Fransızca, Almanca), Kiril (Rusça, Ukraynaca), Arapça, Çince (basitleştirilmiş ve geleneksel), Japonca, Korece, Hintçe ve çok daha fazlası dahil olmak üzere düzinelerce dili destekler. Kalite dile göre değişir; Latin alfabesi dilleri en yüksek doğruluğa sahip olma eğilimindedir çünkü en fazla eğitim verisine sahiptirler, ancak CJK (Çince, Japonca, Korece) tanıma son yıllarda önemli ölçüde iyileşmiştir.
Belgeniz birden fazla dil içeriyorsa (akademik makalelerde veya uluslararası sözleşmelerde yaygın olarak kullanılır), OCR genellikle karışık metni işleyebilir, ancak doğruluk, komut dosyaları arasındaki sınırlara düşebilir. Latince olmayan alfabelerle en iyi sonuçları elde etmek için görselin yüksek çözünürlüklü olduğundan ve metnin el yazısı yerine net bir şekilde yazdırıldığından emin olun.
OCR Neleri Yapamaz (Henüz)
OCR'nin anlamaya değer sınırlamaları vardır, bu nedenle beklentileriniz gerçeklerle eşleşir. El yazısı tanıma hala tutarsızdır; düzgün, basılı el yazısı oldukça iyi çalışır, ancak el yazısı veya dağınık el yazısı güvenilmez sonuçlar doğurur. Dekoratif ve stilize yazı tipleri (logolarda, posterlerde ve sanatsal tasarımlarda kullanılan tür), harf şekillerinin standart yazı tiplerinden önemli ölçüde sapması nedeniyle OCR motorlarının sıklıkla kafasını karıştırır.
Çok küçük metinler, kalabalık arka planların üzerine yerleştirilmiş metinler (fotoğraftaki metinler gibi) ve aşırı derecede bozulmuş veya soluk metinlerin tümü doğruluğu azaltır. OCR aynı zamanda orijinal biçimlendirmeyi de korumaz; sütunlar, tablolar ve girintiler içeren düzeni değil, ham metni çıkarır. Tablolar gibi yapılandırılmış veriler için çıkarılan metni manuel olarak yeniden düzenlemeniz gerekebilir. Bu sınırlamalara rağmen, net görüntülerdeki standart basılı metinler için modern OCR doğruluğu %99'un üzerindedir, bu da onu manuel transkripsiyona göre daha hızlı ve daha güvenilir kılar.
Metni çıkardıktan sonra temiz bir belge formatına koymak isteyebilirsiniz. Bunu bir kelime işlemciye yapıştırabilir ve PDF'ye dönüştürveya orijinal görsel alışılmadık bir formattaysa, dönüştür onu En iyi sonuçları elde etmek için OCR'yi çalıştırmadan önce standart bir formata dönüştürün.