スクリーンショットや写真からテキストを抽出する方法 — 無料の OCR ガイド
チュートリアル ビデオのコード スニペットのスクリーンショットがあります。または、会議のホワイトボードの写真。または、PDF 内の画像としてのみ存在する、スキャンされた契約書。テキストはすぐそこにあり、目で読むことはできますが、選択したり、コピーしたり、特定の単語を検索したりすることはできません。これはまさに OCR が解決する問題であり、OCR はここ数年で著しく改善されました。
OCR とは何ですか?またその仕組みは何ですか?
OCR は光学式文字認識の略です。 これは、画像内のピクセルを分析し、文字、数字、記号に対応するパターンを識別し、それらのパターンを実際の編集可能なテキストに変換するテクノロジーです。最新の OCR は、単純なパターン マッチングを超えています。コンテキストを理解し、同じ画像内の複数のフォントとサイズを処理でき、わずかな角度や曲面上のテキストも認識できる機械学習モデルを使用します。
の iFormat OCR ツール 画像をブラウザ内で直接処理します。スクリーンショット、写真、またはスキャンした文書をアップロードすると、識別できるすべてのテキストが抽出されます。抽出したテキストをコピー、編集したり、文書、スプレッドシート、または電子メールで使用するために保存したりできます。
OCRが必要になるのはどんなときですか?
最も一般的なシナリオは、あなたが思っているよりも日常的なものです。 スクリーンショット: エラー メッセージ、レシピ、ソーシャル メディアの投稿、またはコード ブロックのスクリーンショットを撮った後、再入力せずにテキストを取得したいとします。 スキャンした文書: 画像として PDF にスキャンされた古い契約書、領収書、またはフォーム — テキストは視覚的に存在しますが、選択できません。 ホワイトボードの写真: 携帯電話のカメラで撮影された会議メモ。会議議事録に書き写す必要があります。
手書きのメモ: デジタルアーカイブ用に撮影された講義ノート、日記、または計画スケッチ。 名刺: 誰かの連絡先の詳細を手動で入力するのではなく、カードを写真に撮ってテキストを抽出します。 本のページと記事: 段落全体を再入力することなく、印刷物から引用またはデータを抽出します。 領収書と請求書: 支出を追跡するために、撮影した領収書から金額、日付、ベンダー名を抽出します。
OCR の精度を高めるためのヒント
OCR精度を最大化
解像度が重要: 画像の解像度が高いほど、より良い結果が得られます。ドキュメントをスキャンする場合は、少なくとも 300 DPI を使用してください。
コントラストが重要です: 明るい背景に濃い色のテキストが最適です。テキストに影がかかる写真は避けてください。
直線配置: カメラに対して水平で正方形のテキストは、OCR で処理しやすくなります。テキストが傾いたり回転したりすると、精度が低下します。
圧縮アーティファクトを回避します。 高度に圧縮された JPEG では、文字の端がぼやけます。スクリーンショットには PNG を使用し、写真には高品質 JPEG を使用します。
画像が暗いかコントラストが低い場合は、OCR を実行する前に明るさとコントラストを調整することを検討してください。携帯電話の内蔵写真エディターを簡単に調整して、明るさとコントラストをわずかに増加させると、特に薄暗い会議室で撮影されたホワイトボードの写真の場合、テキスト認識の精度が大幅に向上します。
多言語サポート
最新の OCR エンジンは、ラテンアルファベット言語 (英語、スペイン語、フランス語、ドイツ語)、キリル文字 (ロシア語、ウクライナ語)、アラビア語、中国語 (簡体字および繁体字)、日本語、韓国語、ヒンディー語など、多数の言語をサポートしています。品質は言語によって異なります。ラテンアルファベット言語はトレーニング データが最も多いため、精度が最も高くなる傾向がありますが、CJK (中国語、日本語、韓国語) の認識は近年劇的に向上しました。
文書に複数の言語が含まれている場合 (学術論文や国際契約書などで一般的)、OCR は通常、混合テキストを処理できますが、スクリプト間の境界で精度が低下する可能性があります。非ラテン文字で最良の結果を得るには、画像が高解像度であり、テキストが手書きではなくはっきりと印刷されていることを確認してください。
OCR で (まだ) できないこと
OCR には、期待が現実と一致するように理解する価値のある制限があります。 手書き認識 はまだ一貫性がありません。きちんと印刷された手書きの場合はかなりうまく機能しますが、筆記体や乱雑な手書きの場合は信頼性の低い結果が生成されます。 装飾的で様式化されたフォント (ロゴ、ポスター、芸術的なデザインで使用される種類) は、文字の形状が標準の書体から大幅に逸脱しているため、OCR エンジンを混乱させることがよくあります。
非常に小さいテキスト、混雑した背景にオーバーレイされたテキスト (写真上のテキストなど)、および著しく劣化または色褪せたテキストはすべて精度を低下させます。また、OCR は元の書式を保持しません。列、表、インデントを含むレイアウトではなく、生のテキストを抽出します。表などの構造化データの場合、抽出されたテキストを手動で再編成する必要がある場合があります。これらの制限にもかかわらず、鮮明な画像で印刷された標準的なテキストの場合、最新の OCR 精度は 99% 以上であり、手動転写よりも高速かつ信頼性が高くなります。