Cách trích xuất văn bản từ ảnh chụp màn hình và ảnh - Hướng dẫn OCR miễn phí
Bạn có ảnh chụp màn hình đoạn mã từ video hướng dẫn. Hoặc một bức ảnh chụp tấm bảng trắng trong một cuộc họp. Hoặc hợp đồng được quét chỉ tồn tại dưới dạng hình ảnh ở dạng PDF. Văn bản ở ngay đó — bạn có thể đọc bằng mắt — nhưng bạn không thể chọn, sao chép hoặc tìm kiếm một từ cụ thể. Đây chính xác là vấn đề mà OCR giải quyết được và nó đã hoạt động khá tốt trong vài năm qua.
OCR là gì và nó hoạt động như thế nào?
OCR là viết tắt của Nhận dạng ký tự quang học. Đây là công nghệ phân tích các pixel trong hình ảnh, xác định các mẫu tương ứng với các chữ cái, số và ký hiệu và chuyển đổi các mẫu đó thành văn bản có thể chỉnh sửa thực tế. OCR hiện đại vượt xa việc khớp mẫu đơn giản — nó sử dụng các mô hình máy học để hiểu ngữ cảnh, có thể xử lý nhiều phông chữ và kích thước trong cùng một hình ảnh và thậm chí nhận dạng văn bản ở các góc nhỏ hoặc trên bề mặt cong.
các Công cụ iFormat OCR xử lý hình ảnh của bạn trực tiếp trong trình duyệt. Tải lên ảnh chụp màn hình, ảnh hoặc tài liệu được quét và nó trích xuất tất cả văn bản mà nó có thể xác định. Sau đó, bạn có thể sao chép văn bản được trích xuất, chỉnh sửa hoặc lưu nó để sử dụng trong tài liệu, bảng tính hoặc email.
Khi nào bạn cần OCR?
Các tình huống phổ biến nhất xảy ra hàng ngày nhiều hơn bạn nghĩ. Ảnh chụp màn hình: Bạn đã chụp ảnh màn hình thông báo lỗi, công thức nấu ăn, bài đăng trên mạng xã hội hoặc khối mã và bây giờ bạn muốn văn bản mà không cần nhập lại. Tài liệu được quét: Hợp đồng, biên lai hoặc biểu mẫu cũ đã được quét sang PDF dưới dạng hình ảnh - văn bản tồn tại trực quan nhưng không thể chọn được. Hình ảnh bảng trắng: Ghi chú cuộc họp được ghi lại trên camera điện thoại mà bạn cần ghi lại thành biên bản cuộc họp.
Ghi chú viết tay: Ghi chú bài giảng, mục nhật ký hoặc bản phác thảo kế hoạch được chụp ảnh để lưu trữ kỹ thuật số. Thẻ kinh doanh: Thay vì nhập thông tin liên hệ của ai đó theo cách thủ công, hãy chụp ảnh thẻ và trích xuất văn bản. Các trang sách và bài viết: Trích xuất các trích dẫn hoặc dữ liệu từ tài liệu in mà không cần gõ lại toàn bộ đoạn văn. Biên lai và hóa đơn: Lấy số tiền, ngày tháng và tên nhà cung cấp từ biên lai có ảnh để theo dõi chi phí.
Mẹo để có độ chính xác OCR tốt hơn
Tối đa hóa độ chính xác OCR
Vấn đề giải quyết: Hình ảnh có độ phân giải cao hơn mang lại kết quả tốt hơn. Nếu quét tài liệu, hãy sử dụng ít nhất 300 dpi.
Độ tương phản là chìa khóa: Văn bản tối trên nền sáng hoạt động tốt nhất. Tránh những bức ảnh có bóng đổ ngang qua văn bản.
Căn chỉnh thẳng: Văn bản ngang bằng và vuông góc với máy ảnh sẽ dễ dàng được OCR xử lý hơn. Văn bản bị lệch hoặc xoay làm giảm độ chính xác.
Tránh các đồ tạo tác nén: Các ảnh JPEG được nén mạnh sẽ làm mờ các cạnh của chữ cái. Sử dụng PNG cho ảnh chụp màn hình hoặc JPEG chất lượng cao cho ảnh.
Nếu hình ảnh của bạn tối hoặc có độ tương phản thấp, hãy cân nhắc điều chỉnh độ sáng và độ tương phản trước khi chạy OCR. Một điều chỉnh nhanh trong trình chỉnh sửa ảnh tích hợp trong điện thoại của bạn — tăng độ sáng và độ tương phản một chút — có thể cải thiện đáng kể độ chính xác của nhận dạng văn bản, đặc biệt đối với ảnh bảng trắng được chụp trong phòng hội nghị thiếu ánh sáng.
Hỗ trợ đa ngôn ngữ
Công cụ OCR hiện đại hỗ trợ hàng chục ngôn ngữ, bao gồm các ngôn ngữ theo bảng chữ cái Latinh (tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức), tiếng Cyrillic (tiếng Nga, tiếng Ukraina), tiếng Ả Rập, tiếng Trung (giản thể và truyền thống), tiếng Nhật, tiếng Hàn, tiếng Hindi và nhiều ngôn ngữ khác. Chất lượng thay đổi tùy theo ngôn ngữ — các ngôn ngữ sử dụng bảng chữ cái Latinh có xu hướng có độ chính xác cao nhất vì chúng có nhiều dữ liệu đào tạo nhất, nhưng khả năng nhận dạng CJK (tiếng Trung, tiếng Nhật, tiếng Hàn) đã được cải thiện đáng kể trong những năm gần đây.
Nếu tài liệu của bạn chứa nhiều ngôn ngữ (phổ biến trong các tài liệu học thuật hoặc hợp đồng quốc tế), OCR thường có thể xử lý văn bản hỗn hợp, mặc dù độ chính xác có thể giảm ở ranh giới giữa các chữ viết. Để có kết quả tốt nhất với các chữ viết không phải tiếng Latinh, hãy đảm bảo hình ảnh có độ phân giải cao và văn bản được in rõ ràng thay vì viết tay.
OCR không thể làm gì (chưa)
OCR có những hạn chế đáng hiểu để kỳ vọng của bạn phù hợp với thực tế. Nhận dạng chữ viết tay vẫn chưa nhất quán - chữ viết gọn gàng, được in ra hoạt động khá tốt, nhưng chữ viết tay lộn xộn hoặc lộn xộn tạo ra kết quả không đáng tin cậy. Phông chữ trang trí và cách điệu (loại được sử dụng trong logo, áp phích và thiết kế nghệ thuật) thường gây nhầm lẫn cho các công cụ OCR vì hình dạng chữ cái sai lệch đáng kể so với kiểu chữ tiêu chuẩn.
Văn bản rất nhỏ, văn bản bị che phủ trên nền nhiều chi tiết (như văn bản trên ảnh) và văn bản bị giảm chất lượng hoặc mờ nhạt đều làm giảm độ chính xác. OCR cũng không giữ nguyên định dạng ban đầu — nó trích xuất văn bản thô chứ không phải bố cục có cột, bảng và thụt lề. Đối với dữ liệu có cấu trúc như bảng, bạn có thể cần phải sắp xếp lại văn bản được trích xuất theo cách thủ công. Bất chấp những hạn chế này, đối với văn bản in tiêu chuẩn có hình ảnh rõ nét, độ chính xác của OCR hiện đại là trên 99%, giúp tốc độ này nhanh hơn và đáng tin cậy hơn so với phiên âm thủ công.
Khi bạn đã trích xuất văn bản, bạn có thể muốn chuyển nó sang định dạng tài liệu rõ ràng. Bạn có thể dán nó vào một trình xử lý văn bản và chuyển đổi sang PDF, hoặc nếu ảnh gốc có định dạng khác thường, chuyển đổi nó sang định dạng chuẩn trước khi chạy OCR để có kết quả tốt nhất.