Tài liệu được quét quá lớn? Cách nén mà không làm mất khả năng đọc
Bạn đã quét thẻ Aadhaar, bảng đánh dấu và bằng chứng địa chỉ bằng ứng dụng quét điện thoại. Mỗi trang xuất hiện dưới dạng PDF 3 MB. Bạn cần tải tất cả chúng lên một cổng thông tin chính phủ chấp nhận tối đa 500 KB cho mỗi tài liệu. Các con số không cộng lại và bạn bắt đầu nghĩ rằng mình cần một máy quét khác. Bạn không - bạn cần một cách tiếp cận khác đối với kích thước tệp.
Tại sao bản quét lại lớn như vậy
Khi bạn quét tài liệu (hoặc chụp ảnh bằng ứng dụng máy quét), kết quả về cơ bản là một bức ảnh của một trang. Hình ảnh toàn trang ở 300 dpi có kích thước khoảng 2480 x 3508 pixel — tức là hình ảnh 8,7 megapixel trên mỗi trang. Ngay cả khi nén JPG, mỗi trang vẫn có dung lượng 1-3 MB. Một tài liệu 10 trang sẽ có dung lượng 10-30 MB. Để so sánh, cùng một nội dung văn bản được gõ vào tài liệu Word sẽ có dung lượng khoảng 50 KB.
Cách khắc phục nhanh: Nén tệp PDF
A Trình nén PDF giảm độ phân giải của hình ảnh nhúng trong khi vẫn giữ nguyên cấu trúc tài liệu tổng thể. Một trang được quét ở 300 dpi được nén xuống 150 dpi sẽ giảm kích thước tệp xuống gần một nửa. Đối với hầu hết các mục đích xem và tải lên trên màn hình, 150 dpi là hoàn toàn có thể đọc được — bạn chỉ cần 300 dpi để in.
Nếu cổng cần tệp dưới 200 KB, bạn có thể cần nén mạnh hơn. Ở 100DPI, văn bản vẫn có thể đọc được nhưng các chi tiết nhỏ (chữ ký, chữ in nhỏ) bắt đầu mờ đi. Kiểm tra bằng cách phóng to phiên bản nén - nếu bạn có thể đọc được tất cả các phần quan trọng thì đủ tốt.
Cách tiếp cận tốt hơn: Quét thông minh hơn
Nếu bạn chưa quét hoặc có thể quét lại, hãy điều chỉnh cài đặt máy quét trước khi quét. Đặt độ phân giải thành 150-200DPI thay vì mặc định 300. Chọn thang độ xám thay vì màu cho tài liệu văn bản (màu tăng gấp ba lần kích thước tệp không có lợi cho tài liệu đen trắng). Sử dụng định dạng JPG ở chất lượng 85% thay vì PNG hoặc TIFF.
Các ứng dụng quét điện thoại như CamScanner, Adobe Scan và Microsoft Lens có cài đặt "kích thước tệp" hoặc "chất lượng" được ẩn trong menu cài đặt của chúng. Việc chuyển chất lượng từ "Cao" sang "Trung bình" thường làm giảm 60% sản lượng mà không có sự khác biệt rõ ràng về khả năng đọc văn bản.
Đối với tài liệu văn bản: OCR thay đổi mọi thứ
Nếu tài liệu được quét của bạn chủ yếu là văn bản (chứng chỉ, chữ cái, bảng đánh dấu), OCR (Nhận dạng ký tự quang học) có thể chuyển đổi hình ảnh trang thành văn bản thực tế. Một công cụ chuyển hình ảnh thành văn bản trích xuất nội dung văn bản, sau đó bạn có thể dán vào tài liệu Word và lưu dưới dạng PDF. Chứng chỉ được quét 3 MB sẽ trở thành bản PDF dựa trên văn bản 100 KB.
OCR hoạt động tốt nhất trên văn bản được in rõ ràng với độ tương phản tốt. Nội dung viết tay, bản in bị mờ hoặc bản quét có độ tương phản thấp có thể chuyển đổi không chính xác. Đối với các tài liệu ID chính phủ mà bạn cần bản sao trực quan chính xác (như Aadhaar hoặc PAN), việc nén thường tốt hơn OCR.
Quét và hợp nhất nhiều trang
Cổng thông tin chính phủ và đơn đăng ký của trường đại học thường yêu cầu nhiều tài liệu (bằng chứng nhận dạng, bằng chứng địa chỉ, bảng đánh dấu) được kết hợp thành một tệp PDF duy nhất. Quét từng tài liệu riêng biệt và hợp nhất chúng thành một tệp sẽ sạch hơn so với quét mọi thứ trong một lần. Quét từng tài liệu, nén từng tệp PDF riêng lẻ theo kích thước mục tiêu, sau đó hợp nhất chúng bằng công cụ hợp nhất PDF. Điều này cho phép bạn kiểm soát nhiều hơn chất lượng của từng phần và giữ cho kích thước tệp cuối cùng có thể dự đoán được.
Khi hợp nhất, hãy kiểm tra tổng kích thước tệp của tài liệu được kết hợp. Nếu cổng có giới hạn nghiêm ngặt (giả sử là 2 MB cho tất cả tài liệu được kết hợp), hãy chia ngân sách cho các trang của bạn. Bốn trang được quét ở 150 dpi ở định dạng PDF nén JPG thường có tổng dung lượng dưới 1 MB — nằm trong hầu hết các giới hạn tải lên.
Tham khảo nhanh
Khắc phục nhanh: Nén tệp PDF được quét để giảm độ phân giải hình ảnh được nhúng. Cần dưới 500 KB? Nén tới 150 dpi — vẫn có thể đọc được trên màn hình. Cần dưới 200 KB? Nén đến 100 dpi và sử dụng thang độ xám. Bạn chưa quét? Quét ở độ phân giải 150-200 dpi ở định dạng JPG thang độ xám. Tài liệu văn bản? Sử dụng OCR để chuyển đổi hình ảnh thành văn bản — các tệp có kích thước nhỏ hơn đáng kể. Nguyên tắc vàng: Quét một lần ở chất lượng cao, sau đó nén các bản sao cho các yêu cầu tải lên khác nhau.