Logo iformat.io iformat.io

Chuyển đổi hình ảnh thành văn bản (OCR)

Trích xuất văn bản từ hình ảnh và PDF ngay lập tức. OCR hình ảnh chạy hoàn toàn trong trình duyệt của bạn — các tệp của bạn không bao giờ rời khỏi thiết bị của bạn.

Kích thước tệp tối đa 10 MB. Đăng ký để biết thêm.

Bạn cũng có thể dán hình ảnh từ clipboard (Ctrl+V / Cmd+V)

Cách trích xuất văn bản trong 3 bước

Tải hình ảnh hoặc PDF lên, để OCR thực hiện công việc và nhận văn bản có thể chỉnh sửa ngay lập tức.

Tải tập tin của bạn lên

Thả hình ảnh hoặc PDF vào khu vực tải lên. Hỗ trợ các định dạng PNG, JPG, WebP, BMP, GIF và PDF.

OCR trích xuất văn bản

Công cụ của chúng tôi xử lý tệp của bạn và trích xuất tất cả văn bản. Hình ảnh được xử lý trong trình duyệt của bạn để bảo mật.

Sao chép hoặc tải xuống

Xem lại văn bản đã trích xuất, thực hiện bất kỳ chỉnh sửa nào, sau đó sao chép vào khay nhớ tạm hoặc tải xuống dưới dạng tệp .txt.

Tại sao nên sử dụng công cụ chuyển hình ảnh thành văn bản của chúng tôi

100% riêng tư

Hình ảnh OCR chạy hoàn toàn trong trình duyệt của bạn. Các tập tin của bạn không bao giờ rời khỏi thiết bị của bạn.

OCR đa ngôn ngữ

Hỗ trợ hơn 100 ngôn ngữ bao gồm tiếng Anh, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Hindi, v.v.

Hỗ trợ PDF

Trích xuất văn bản từ cả tệp PDF kỹ thuật số và tệp được quét. Các tệp PDF kỹ thuật số được xử lý ngay lập tức.

Không cần đăng ký

Sử dụng công cụ ngay mà không cần tạo tài khoản hay cài đặt bất kỳ phần mềm nào.

Dán bảng nhớ tạm

Dán ảnh chụp màn hình trực tiếp từ khay nhớ tạm của bạn bằng Ctrl+V. Không cần lưu tập tin.

Kết quả có thể chỉnh sửa

Văn bản được trích xuất hoàn toàn có thể chỉnh sửa được. Sửa mọi lỗi OCR trước khi sao chép hoặc tải xuống.

Nhóm ngôn ngữ được hỗ trợ

Công cụ OCR của chúng tôi hỗ trợ hơn 100 ngôn ngữ trên các dòng chữ viết chính. Chọn ngôn ngữ chính trước khi xử lý để có độ chính xác tốt nhất.

Nhóm ngôn ngữ Ví dụ kịch bản
tiếng Latinh Tiếng Anh, tiếng Pháp, tiếng Tây Ban Nha, tiếng Đức, tiếng Bồ Đào Nha tiếng Latinh
chữ cái Cyrillic Tiếng Nga, tiếng Ukraina, tiếng Bungari, tiếng Serbia chữ cái Cyrillic
CJK Tiếng Trung (Giản thể/Phồn thể), tiếng Nhật, tiếng Hàn CJK
tiếng Ả Rập Tiếng Ả Rập, tiếng Urdu, tiếng Ba Tư tiếng Ả Rập
chỉ số Tiếng Hindi, tiếng Bengal, tiếng Tamil, tiếng Telugu Devanagari và những người khác
Khác Tiếng Thái, tiếng Hy Lạp, tiếng Do Thái, tiếng Georgia khác nhau

Câu hỏi thường gặp

Trình chuyển đổi hình ảnh sang văn bản hoạt động như thế nào?

Đối với hình ảnh, công cụ của chúng tôi sử dụng Tesseract.js — một công cụ OCR mạnh mẽ chạy hoàn toàn trong trình duyệt của bạn. Hình ảnh của bạn không bao giờ được tải lên bất kỳ máy chủ nào. Đối với các tệp PDF, chúng tôi trích xuất phía máy chủ văn bản nhúng bằng PyMuPDF và đối với các tệp PDF được quét, các trang được hiển thị dưới dạng hình ảnh và được xử lý bằng OCR trong trình duyệt của bạn. Kết quả xuất hiện trong hộp văn bản có thể chỉnh sửa mà bạn có thể sao chép hoặc tải xuống.

Những định dạng tập tin nào được hỗ trợ?

Chúng tôi hỗ trợ tất cả các định dạng hình ảnh phổ biến bao gồm PNG, JPG, JPEG, WebP, BMP và GIF. Các tệp PDF cũng được hỗ trợ - cả tệp PDF kỹ thuật số với văn bản có thể lựa chọn và tệp PDF được quét có chứa hình ảnh. Đối với các tệp PDF được quét, tối đa 10 trang được xử lý bằng OCR phía máy khách để có được sự riêng tư tốt nhất.

Dữ liệu của tôi có riêng tư và an toàn không?

Đúng. Quá trình xử lý OCR hình ảnh diễn ra hoàn toàn trong trình duyệt của bạn bằng Tesseract.js — hình ảnh của bạn không bao giờ rời khỏi thiết bị của bạn. Để trích xuất văn bản PDF, các tệp được xử lý trên máy chủ của chúng tôi và bị loại bỏ ngay lập tức sau khi trích xuất văn bản. Không có tập tin hoặc nội dung trích xuất nào được lưu trữ hoặc ghi lại từ phía chúng tôi.

Những ngôn ngữ nào được hỗ trợ?

Công cụ OCR của chúng tôi hỗ trợ hơn 100 ngôn ngữ bao gồm tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Trung, tiếng Nhật, tiếng Hàn, tiếng Ả Rập, tiếng Hindi, tiếng Bồ Đào Nha, tiếng Nga và nhiều ngôn ngữ khác. Chọn ngôn ngữ của bạn từ danh sách thả xuống trước khi xử lý để có kết quả tốt nhất. Tài liệu đa ngôn ngữ hoạt động tốt nhất khi bạn chọn ngôn ngữ chính.

Việc trích xuất văn bản chính xác đến mức nào?

Độ chính xác phụ thuộc vào chất lượng hình ảnh. Hình ảnh rõ ràng, độ phân giải cao với độ tương phản tốt thường đạt độ chính xác trên 95%. Văn bản viết tay, hình ảnh mờ hoặc phông chữ bất thường có thể mang lại độ chính xác thấp hơn. Để có kết quả tốt nhất, hãy sử dụng ảnh văn bản in có độ sáng tốt và cắt bỏ các đường viền không cần thiết trước khi tải lên.

Có giới hạn kích thước tập tin?

Đối với hình ảnh, không có giới hạn nghiêm ngặt vì quá trình xử lý diễn ra trong trình duyệt của bạn — mặc dù các tệp rất lớn có thể chậm hơn trên thiết bị di động. Đối với tệp PDF, kích thước tệp tối đa là 20 MB để đảm bảo xử lý phía máy chủ nhanh chóng. Nếu tệp PDF của bạn lớn hơn, trước tiên hãy cân nhắc việc chia nó thành các tệp nhỏ hơn.

Tôi có thể trích xuất văn bản từ ảnh chụp màn hình không?

Tuyệt đối! Ảnh chụp màn hình là một trong những trường hợp sử dụng phổ biến nhất. Chỉ cần dán hoặc tải ảnh chụp màn hình lên và công cụ OCR sẽ trích xuất tất cả văn bản hiển thị, giúp bạn dễ dàng sao chép văn bản từ hình ảnh, thông báo lỗi, cửa sổ trò chuyện hoặc bất kỳ nội dung trên màn hình nào mà bạn thường không thể chọn.

Tôi có thể trích xuất văn bản từ ảnh tài liệu được chụp bằng điện thoại của mình không?

Đúng. Ảnh chụp tài liệu, biên lai, bảng trắng và trang sách trên điện thoại đều hoạt động tốt. Để có độ chính xác cao nhất, hãy giữ máy ảnh song song với tài liệu, đảm bảo ánh sáng đều không có bóng và tránh làm nghiêng trang. Việc cắt hình ảnh chỉ còn vùng văn bản trước khi tải lên cũng cải thiện kết quả đáng kể.

Công cụ OCR có giữ nguyên định dạng như bảng và cột không?

Công cụ OCR trích xuất văn bản theo thứ tự đọc nhưng không tái tạo lại cấu trúc bảng phức tạp hoặc bố cục nhiều cột. Văn bản một cột đơn giản được sao chép chính xác. Đối với các tài liệu có bảng, bạn có thể cần điều chỉnh văn bản được trích xuất theo cách thủ công hoặc sử dụng chế độ trích xuất PDF kỹ thuật số để giữ nguyên bố cục tốt hơn.

Quá trình xử lý OCR mất bao lâu?

Thời gian xử lý tùy thuộc vào kích thước hình ảnh, độ phức tạp và hiệu suất thiết bị của bạn. Hầu hết các hình ảnh đơn lẻ được xử lý trong 3 đến 10 giây. Hình ảnh đầu tiên có thể mất nhiều thời gian hơn một chút vì công cụ OCR cần tải tệp dữ liệu ngôn ngữ. Những hình ảnh tiếp theo sử dụng cùng một ngôn ngữ sẽ xử lý nhanh hơn.

Hướng dẫn trích xuất văn bản và OCR

Các bài viết hữu ích về OCR, tệp PDF được quét, trích xuất văn bản từ ảnh chụp màn hình và khắc phục các sự cố định dạng hoặc tải lên phổ biến.

Hướng dẫn chuyển đổi tệp dành cho giáo viên - Tạo tài liệu học tập có thể truy cập

Hướng dẫn chuyển đổi tệp dành cho giáo viên: tạo tài liệu học tập có thể truy cập ở dạng PDF, âm thanh MP3 và các định dạng thân thiện với web. Công cụ miễn phí, không có phần mềm.

Tài liệu được quét quá lớn? Cách nén mà không làm mất khả năng đọc

Tài liệu được quét quá lớn để gửi email hoặc tải lên? Nén bản PDF được quét miễn phí mà không làm mất khả năng đọc. Giảm kích thước điển hình 70–80%.

Cách trích xuất văn bản từ ảnh chụp màn hình và ảnh - Hướng dẫn OCR miễn phí

Trích xuất văn bản từ ảnh chụp màn hình và ảnh miễn phí bằng OCR. Sao chép văn bản từ hình ảnh, tài liệu được quét và tệp PDF trong vài giây.

Cách điền biểu mẫu PDF trực tuyến miễn phí - Không cần Adobe

Cần điền vào biểu mẫu PDF nhưng không thể chỉnh sửa nó? Điền vào biểu mẫu PDF trực tuyến miễn phí - hoạt động trên các biểu mẫu tương tác và các tệp PDF được quét phẳng. Không có Adobe, không có tài khoản.

Cách xoay và sửa các trang PDF được quét bị lộn ngược

Sửa các trang PDF được quét lộn ngược hoặc sang một bên miễn phí. Xoay từng trang riêng lẻ hoặc toàn bộ tài liệu và tải xuống ngay lập tức.