วิธีแยกข้อความจากภาพหน้าจอและภาพถ่าย — คู่มือ OCR ฟรี

มี.ค. 13, 2026

อ่าน 6 นาที

คุณมีภาพหน้าจอของข้อมูลโค้ดจากวิดีโอแนะนำการใช้งาน หรือรูปถ่ายไวท์บอร์ดจากการประชุม หรือสัญญาที่สแกนซึ่งมีอยู่เฉพาะในรูปแบบรูปภาพในรูปแบบ PDF ข้อความอยู่ตรงนั้น — คุณสามารถอ่านได้ด้วยตา — แต่คุณไม่สามารถเลือก คัดลอก หรือค้นหาคำใดคำหนึ่งโดยเฉพาะได้ นี่เป็นปัญหาที่ OCR แก้ไขได้อย่างแน่นอน และมันก็ดีขึ้นอย่างน่าทึ่งในช่วงไม่กี่ปีที่ผ่านมา

OCR คืออะไรและทำงานอย่างไร?

OCR ย่อมาจาก Optical Character Recognition เป็นเทคโนโลยีที่วิเคราะห์พิกเซลในรูปภาพ ระบุรูปแบบที่สอดคล้องกับตัวอักษร ตัวเลข และสัญลักษณ์ และแปลงรูปแบบเหล่านั้นให้เป็นข้อความที่แก้ไขได้จริง OCR สมัยใหม่เป็นมากกว่าการจับคู่รูปแบบธรรมดา โดยใช้โมเดลการเรียนรู้ของเครื่องที่เข้าใจบริบท สามารถจัดการแบบอักษรและขนาดหลายแบบในภาพเดียวกัน และแม้แต่จดจำข้อความที่มุมเล็กน้อยหรือบนพื้นผิวโค้ง

ที่ เครื่องมือ iFormat OCR ประมวลผลภาพของคุณโดยตรงในเบราว์เซอร์ อัปโหลดภาพหน้าจอ รูปภาพ หรือเอกสารที่สแกน และจะแยกข้อความทั้งหมดที่สามารถระบุได้ จากนั้นคุณสามารถคัดลอกข้อความที่แยกออกมา แก้ไข หรือบันทึกเพื่อใช้ในเอกสาร สเปรดชีต หรืออีเมลได้

คุณต้องการ OCR เมื่อใด

สถานการณ์ที่พบบ่อยที่สุดเกิดขึ้นทุกวันมากกว่าที่คุณคิด ภาพหน้าจอ: คุณถ่ายภาพหน้าจอของข้อความแสดงข้อผิดพลาด สูตรอาหาร โพสต์บนโซเชียลมีเดีย หรือบล็อกโค้ด และตอนนี้คุณต้องการข้อความโดยไม่ต้องพิมพ์ซ้ำ เอกสารที่สแกน: สัญญา ใบเสร็จรับเงิน หรือแบบฟอร์มเก่าที่สแกนเป็น PDF เป็นรูปภาพ — ข้อความปรากฏให้เห็นแต่ไม่สามารถเลือกได้ ภาพถ่ายไวท์บอร์ด: บันทึกการประชุมที่บันทึกไว้ในกล้องโทรศัพท์ที่คุณต้องบันทึกลงในรายงานการประชุม

บันทึกที่เขียนด้วยลายมือ: บันทึกการบรรยาย รายการบันทึกประจำวัน หรือภาพร่างการวางแผนที่ถ่ายเพื่อการเก็บถาวรแบบดิจิทัล นามบัตร: แทนที่จะพิมพ์รายละเอียดการติดต่อของผู้อื่นด้วยตนเอง ให้ถ่ายรูปการ์ดและดึงข้อความออกมา หน้าหนังสือและบทความ: การแยกคำพูดหรือข้อมูลจากสื่อสิ่งพิมพ์โดยไม่ต้องพิมพ์ซ้ำทั้งย่อหน้า ใบเสร็จรับเงินและใบแจ้งหนี้: การดึงจำนวนเงิน วันที่ และชื่อผู้ขายจากใบเสร็จรับเงินที่มีรูปถ่ายเพื่อการติดตามค่าใช้จ่าย

เคล็ดลับเพื่อความแม่นยำของ OCR ที่ดีขึ้น

เพิ่มความแม่นยำ OCR สูงสุด

ความละเอียดมีความสำคัญ: ภาพที่มีความละเอียดสูงกว่าจะให้ผลลัพธ์ที่ดีกว่า หากสแกนเอกสาร ให้ใช้อย่างน้อย 300 DPI

ความคมชัดเป็นสิ่งสำคัญ: ข้อความสีเข้มบนพื้นหลังสีอ่อนทำงานได้ดีที่สุด หลีกเลี่ยงรูปภาพที่มีเงาพาดผ่านข้อความ

การจัดแนวตรง: ข้อความที่อยู่ในระดับและเป็นสี่เหลี่ยมจัตุรัสสำหรับกล้องจะช่วยให้ OCR ประมวลผลได้ง่ายกว่า ข้อความที่เอียงหรือหมุนจะลดความแม่นยำ

หลีกเลี่ยงสิ่งแปลกปลอมในการบีบอัด: JPEG ที่ถูกบีบอัดอย่างหนักทำให้ขอบตัวอักษรเบลอ ใช้ PNG สำหรับภาพหน้าจอ หรือใช้ JPEG คุณภาพสูงสำหรับรูปภาพ

หากรูปภาพของคุณมืดหรือคอนทราสต์ต่ำ ให้พิจารณาปรับความสว่างและคอนทราสต์ก่อนเรียกใช้ OCR การปรับเปลี่ยนอย่างรวดเร็วในโปรแกรมแก้ไขภาพในโทรศัพท์ของคุณ โดยการเพิ่มความสว่างและคอนทราสต์เล็กน้อย สามารถปรับปรุงความแม่นยำในการจดจำข้อความได้อย่างมาก โดยเฉพาะอย่างยิ่งสำหรับภาพถ่ายไวท์บอร์ดที่ถ่ายในห้องประชุมที่มีแสงสลัว

การสนับสนุนหลายภาษา

กลไก OCR สมัยใหม่รองรับภาษาต่างๆ มากมาย รวมถึงภาษาอักษรละติน (อังกฤษ สเปน ฝรั่งเศส เยอรมัน) ซีริลลิก (รัสเซีย ยูเครน) อารบิก จีน (ตัวย่อและตัวเต็ม) ญี่ปุ่น เกาหลี ฮินดี และอื่นๆ อีกมากมาย คุณภาพจะแตกต่างกันไปตามภาษา — ภาษาอักษรละตินมีแนวโน้มที่จะมีความแม่นยำสูงสุดเนื่องจากมีข้อมูลการฝึกอบรมมากที่สุด แต่การจดจำของ CJK (จีน ญี่ปุ่น เกาหลี) ได้รับการปรับปรุงอย่างมากในช่วงไม่กี่ปีที่ผ่านมา

หากเอกสารของคุณมีหลายภาษา (โดยทั่วไปในเอกสารทางวิชาการหรือสัญญาระหว่างประเทศ) โดยทั่วไป OCR จะสามารถจัดการกับข้อความแบบผสมได้ แม้ว่าความแม่นยำอาจลดลงที่ขอบเขตระหว่างสคริปต์ก็ตาม เพื่อให้ได้ผลลัพธ์ที่ดีที่สุดเมื่อใช้สคริปต์ที่ไม่ใช่ภาษาละติน ตรวจสอบให้แน่ใจว่ารูปภาพมีความละเอียดสูงและข้อความได้รับการพิมพ์อย่างชัดเจน แทนที่จะเขียนด้วยลายมือ

สิ่งที่ OCR ไม่สามารถทำได้ (ยัง)

OCR มีข้อจำกัดที่ควรทำความเข้าใจ ดังนั้นความคาดหวังของคุณจึงตรงกับความเป็นจริง การรู้จำลายมือ ยังคงไม่สอดคล้องกัน - การเขียนด้วยลายมือที่เรียบร้อยและพิมพ์ออกมาทำงานได้ดีพอสมควร แต่การเขียนด้วยลายมือแบบตัวสะกดหรือยุ่งเหยิงให้ผลลัพธ์ที่ไม่น่าเชื่อถือ แบบอักษรตกแต่งและมีสไตล์ (ชนิดที่ใช้ในโลโก้ โปสเตอร์ และการออกแบบทางศิลปะ) มักจะสร้างความสับสนให้กับกลไก OCR เนื่องจากรูปร่างตัวอักษรเบี่ยงเบนไปจากแบบอักษรมาตรฐานอย่างมาก

ข้อความขนาดเล็กมาก ข้อความที่วางซ้อนบนพื้นหลังที่ยุ่งวุ่นวาย (เช่น ข้อความบนภาพถ่าย) และข้อความที่ลดคุณภาพลงอย่างมากหรือจางลง ล้วนลดความแม่นยำลง นอกจากนี้ OCR จะไม่รักษาการจัดรูปแบบดั้งเดิม แต่จะแยกข้อความดิบ ไม่ใช่เค้าโครงที่มีคอลัมน์ ตาราง และการเยื้อง สำหรับข้อมูลที่มีโครงสร้าง เช่น ตาราง คุณอาจต้องจัดระเบียบข้อความที่แยกออกมาใหม่ด้วยตนเอง แม้จะมีข้อจำกัดเหล่านี้ แต่สำหรับข้อความที่พิมพ์มาตรฐานในภาพที่ชัดเจน ความแม่นยำของ OCR สมัยใหม่นั้นสูงกว่า 99% ซึ่งทำให้รวดเร็วและเชื่อถือได้มากกว่าการถอดเสียงด้วยตนเอง

เมื่อคุณแยกข้อความแล้ว คุณอาจต้องการจัดรูปแบบเอกสารให้สะอาดตา คุณสามารถวางลงในโปรแกรมประมวลผลคำและ แปลงเป็น PDFหรือหากภาพต้นฉบับอยู่ในรูปแบบที่ผิดปกติ แปลงมัน เป็นรูปแบบมาตรฐานก่อนรัน OCR เพื่อผลลัพธ์ที่ดีที่สุด