Cách chuyển đổi PDF sang Word khi tệp gốc không còn nữa
Ở đâu đó giữa "chúng tôi đã chia sẻ bản PDF cuối cùng vào năm ngoái" và "chúng tôi cần cập nhật nó ngay bây giờ", tệp Word gốc sẽ biến mất. Có lẽ nó nằm trên máy tính xách tay của một đồng nghiệp cũ. Có thể nó đã bị chôn vùi trong một tập tin đính kèm email đã được lưu trữ. Dù lý do là gì thì hiện tại bạn đang giữ một tệp PDF và cần thứ gì đó có thể chỉnh sửa được.
Tin vui: Việc chuyển đổi PDF sang Word đã trải qua một chặng đường dài. Tin trung thực: những gì bạn nhận lại phụ thuộc rất nhiều vào cách tạo tệp PDF ngay từ đầu.
Các tệp PDF dựa trên văn bản chuyển đổi rõ ràng
Nếu tệp PDF được xuất trực tiếp từ Word, InDesign hoặc bất kỳ công cụ nguồn tài liệu nào khác thì văn bản bên trong nó là văn bản thực, có thể chọn nằm ở tọa độ cụ thể trên mỗi trang. Chuyển đổi nó trở lại DOCX về cơ bản là xây dựng lại các đoạn văn, tiêu đề và bảng từ các thành phần văn bản được định vị đó.
Thả tệp PDF vào Trình chuyển đổi PDF sang Word, tải xuống DOCX và bạn đã có phiên bản có thể chỉnh sửa. Văn bản, ngắt đoạn, hầu hết các kiểu tiêu đề và hình ảnh nội tuyến đều được sử dụng. Các bảng phức tạp thường có cấu trúc nguyên vẹn. Phông chữ tùy chỉnh thay thế bằng phông chữ tương đương phổ biến gần nhất.
Bạn có thể biết liệu PDF của bạn có dựa trên văn bản không?
Mở tệp PDF trong bất kỳ trình đọc nào và cố gắng đánh dấu văn bản bằng con trỏ. Nếu bạn có thể chọn từng từ riêng lẻ và sao chép chúng thì nó sẽ dựa trên văn bản và sẽ chuyển đổi rõ ràng. Nếu thao tác kéo chỉ chọn một hình chữ nhật lớn xung quanh toàn bộ hình ảnh thì đó là bản quét và trước tiên sẽ cần OCR.
Các tệp PDF được quét cần OCR trước
Nếu tệp PDF là bản quét hoặc ảnh chụp các trang được lưu dưới dạng PDF thì "văn bản" bạn nhìn thấy thực sự là hình ảnh của văn bản. Không có dữ liệu ký tự cơ bản nào để trích xuất - phần mềm phải nhìn vào hình ảnh và đọc lại các từ, từng ký tự. Đó là nhận dạng ký tự quang học (OCR).
Bộ chuyển đổi tự động chạy OCR khi phát hiện bản PDF được quét. Chất lượng phụ thuộc rất nhiều vào nguồn hàng:
- Quét văn phòng sạch sẽ: phục hồi văn bản gần như hoàn hảo.
- Ảnh điện thoại của các trang: Độ chính xác 80-95%, thỉnh thoảng có những thay đổi kỳ lạ.
- Tài liệu cũ được fax hoặc sao chép nhiều: Độ chính xác 60-80%, cần dọn dẹp thủ công.
- Ghi chú viết tay: đừng bận tâm — ngay cả những cuộc đấu tranh OCR tốt nhất.
Điều gì còn sót lại sau chuyến trở lại DOCX
Kỳ vọng nhất quán, rõ ràng:
- Nội dung văn bản: vâng, đầy đủ.
- Cấu trúc đoạn văn: vâng, chủ yếu.
- Tiêu đề: có, nếu tài liệu gốc sử dụng kiểu tiêu đề phù hợp.
- Bàn: vâng, nếu chúng là các bảng trong bản gốc. Nếu chúng là các lưới hộp văn bản được vẽ thủ công, chúng sẽ xuất hiện dưới dạng văn bản lỏng lẻo.
- Hình ảnh nội tuyến: vâng.
- Định dạng cơ bản (đậm, nghiêng, gạch chân): vâng.
- Danh sách có dấu đầu dòng/đánh số: thường là có, đôi khi có những điều kỳ quặc.
- Bố cục nhiều cột: chỉnh lại thành các cột đơn trừ khi PDF bảo toàn chúng một cách rõ ràng.
- Chú thích cuối trang: thường xuyên, nhưng vị trí có thể thay đổi.
- Sơ đồ phức tạp và biểu đồ vector: hiển thị dưới dạng hình ảnh phẳng - dễ đọc nhưng không thể chỉnh sửa lại.
Thứ gần như không bao giờ tồn tại
Một số thứ không thể được xây dựng lại từ PDF:
- Theo dõi các thay đổi và chuỗi nhận xét (chúng không có trong bản PDF).
- Mã trường dành riêng cho từ (số trang, tham chiếu chéo).
- Cấp phép phông chữ gốc (phông chữ có thể nhúng nhưng bạn không thể cấp phép lại chúng).
- Bố cục bảng rất phức tạp (bảng lồng nhau, ô được hợp nhất với các mẫu khác thường).
- Logic trường biểu mẫu tương tác.
Nếu tệp PDF của bạn ban đầu là tài liệu Word có nhiều thay đổi được theo dõi hoặc mã trường được nhúng, thì quá trình chuyển đổi sẽ mang lại cho bạn nội dung hiển thị chứ không phải hệ thống ống nước vô hình.
Quy trình làm việc thực sự hiệu quả
- Chuyển đổi PDF sang DOCX bằng công cụ trực tuyến.
- Mở DOCX trong Word và quét qua hai trang đầu tiên. Khắc phục mọi sự cố định dạng rõ ràng (tiêu đề bị hỏng, đoạn văn có khoảng cách sai, hình ảnh không đúng chỗ).
- Kiểm tra mục lục - nếu tệp PDF có mục lục, nó thường chuyển đổi dưới dạng văn bản tĩnh chứ không phải TOC trực tiếp. Xóa nó và tạo lại.
- Thực hiện chỉnh sửa của bạn.
- Chuyển đổi trở lại PDF để gửi.
Toàn bộ quy trình làm việc chỉ mất vài phút đối với một bản PDF dựa trên văn bản. Đối với bản PDF được quét có định dạng nặng, hãy dành khoảng một giờ để dọn dẹp trên tài liệu dài hơn.
Mất mát khứ hồi là có thật
Chuyển đổi PDF → Word → PDF sẽ mất định dạng tinh tế trên mỗi lần chuyển đổi. Nếu bạn dự định thực hiện nhiều chỉnh sửa trong tương lai thì điều này đáng để suy nghĩ. Khi bạn đã lấy lại được file Word, hãy thực hiện tất cả các chỉnh sửa của mình ở đóvà chỉ xuất sang PDF để gửi. Tránh chuyển đổi lại tệp PDF đã gửi trở lại Word để thực hiện một đợt chỉnh sửa khác — hãy giữ DOCX làm nguồn thông tin chính xác của bạn về sau.
Các tệp PDF được bảo vệ bằng mật khẩu cần có mật khẩu
Nếu tệp PDF của bạn yêu cầu mật khẩu để mở trong Adobe Reader thì tệp PDF đó sẽ bị khóa đối với các công cụ chuyển đổi cho đến khi bạn cung cấp cùng một mật khẩu. Không có cách bỏ qua thông minh nào cả — mã hóa là có thật. Nếu bạn không có mật khẩu, bạn không thể chuyển đổi.
Nếu bạn sở hữu tệp PDF và quên mật khẩu, có một số công cụ khôi phục mật khẩu dành cho các tệp được bảo vệ yếu. Đối với những cái được mã hóa mạnh, bạn không gặp may.
Điểm mấu chốt
Các tệp PDF dựa trên văn bản chuyển đổi thành Word có thể chỉnh sửa trong vài giây với độ trung thực cao. Các tệp PDF được quét cần OCR và tạo ra một bản nháp đang hoạt động cần được dọn dẹp. Lập ngân sách thời gian của bạn dựa trên bản chất thực sự của PDF chứ không phải những gì bạn mong muốn. Và sau khi bạn lấy lại được DOCX, hãy coi nó như bản chính - các chỉnh sửa trong tương lai sẽ ở đó chứ không phải ở bản PDF.
Chuyển đổi PDF sang Word ngay bây giờ
Các tệp PDF dựa trên văn bản chuyển đổi trong vài giây. Các tệp PDF được quét sẽ tự động nhận được OCR. Tập tin bị xóa trong vòng 30 phút.