元のファイルがなくなったときに PDF を Word に変換する方法
「最終的な PDF は昨年共有しました」と「今すぐ更新する必要があります」の間のどこかで、元の Word ファイルが消えてしまいます。おそらく元同僚のラップトップにあったのでしょう。アーカイブされた電子メールの添付ファイルに埋め込まれていた可能性があります。理由が何であれ、あなたは今 PDF を持っていて、編集可能なものが必要です。
良いニュースです。PDF から Word への変換は大きな進歩を遂げました。正直なところ、何が返されるかは、PDF が最初にどのように作成されたかによって大きく異なります。
テキストベースの PDF はきれいに変換されます
PDF が Word、InDesign、またはその他のドキュメント ソース ツールから直接エクスポートされた場合、その内部のテキストは、各ページの特定の座標にある実際の選択可能なテキストです。これを DOCX に変換して戻すことは、基本的に、配置されたテキスト要素から段落、見出し、表を再構築することです。
PDF を PDFからWordへのコンバーター、DOCX をダウンロードすると、編集可能なバージョンが得られます。テキスト、段落区切り、ほとんどの見出しスタイル、インライン画像はすべて表示されます。複雑なテーブルは通常、構造がそのままの状態で渡されます。カスタム フォントは、一般的に最も近い同等のフォントに置き換えられます。
PDF がテキストベースかどうかわかりますか?
任意のリーダーで PDF を開き、カーソルでテキストを強調表示してみてください。個々の単語を選択してコピーできれば、テキストベースなのできれいに変換されます。ドラッグによって画像全体を囲む大きな四角形が選択されただけの場合、それはスキャンとなり、最初に OCR が必要になります。
スキャンした PDF には最初に OCR が必要です
PDF が PDF として保存されたページのスキャンまたは写真である場合、表示される「テキスト」は実際にはテキストの画像です。抽出するための基礎となる文字データはありません。ソフトウェアは画像を見て、単語を 1 文字ずつ読み戻す必要があります。それが光学式文字認識 (OCR) です。
コンバーターは、スキャンされた PDF を検出すると、自動的に OCR を実行します。品質はソースに大きく依存します。
- クリーンオフィススキャン: ほぼ完璧なテキスト復元。
- ページの電話写真: 精度は 80 ~ 95% ですが、時々奇妙な置換が行われます。
- 古いファックスまたは大量にコピーされた文書: 60 ~ 80% の精度、手動クリーンアップが必要。
- 手書きのメモ: 心配しないでください。最高の OCR でも苦労します。
DOCX に戻るまでに何が生き残るのか
一貫した明確な期待:
- テキストの内容:はい、全部です。
- 段落構造:はい、ほとんどです。
- 見出し: はい、元の文書が適切な見出しスタイルを使用していれば可能です。
- テーブル: はい、元のテーブルであれば可能です。手動で描画されたテキスト ボックスのグリッドである場合、それらは緩いテキストとして表示されます。
- インライン画像: はい。
- 基本的な書式設定 (太字、斜体、下線): はい。
- 箇条書き/番号付きリスト: 通常はそうですが、場合によっては癖があります。
- 複数列のレイアウト: PDF が明示的に保持しない限り、単一列にリフローされます。
- 脚注:頻繁に発生しますが、位置がずれる場合があります。
- 複雑な図とベクトル チャート: 平坦化された画像として表示されます。判読可能ですが、再編集はできません。
ほとんど生き残れないもの
PDF からは再構築できないものもあります。
- 変更を追跡し、スレッドにコメントします (PDF にはありませんでした)。
- 単語固有のフィールド コード (ページ番号、相互参照)。
- オリジナルのフォントのライセンス (フォントを埋め込むことはできますが、再ライセンスはできません)。
- 非常に複雑なテーブル レイアウト (ネストされたテーブル、珍しいパターンで結合されたセル)。
- インタラクティブなフォームフィールドロジック。
PDF が元の Word 文書で、大量の変更追跡やフィールド コードが埋め込まれていた場合、変換によって表示されるコンテンツは取得されますが、目に見えない配管は取得されません。
実際に機能するワークフロー
- オンライン ツールを使用して PDF を DOCX に変換します。
- Word で DOCX を開き、最初の 2 ページに目を通します。明らかな書式設定の問題 (見出しの破損、段落の間隔の誤り、画像の位置のずれ) を修正します。
- 目次を確認してください。PDF に目次がある場合、通常はライブ目次ではなく静的テキストとして変換されます。削除して再生成してください。
- 編集を行います。
- 納品用に PDF に変換し直します。
テキストベースの PDF の場合、ワークフロー全体に数分かかります。スキャンした PDF に大量のフォーマットが含まれている場合は、長いドキュメントのクリーンアップに 1 時間程度の予算を確保してください。
往復損失は実際に発生する
PDF → Word → PDF に変換すると、パスごとに微妙な書式が失われます。今後多くの編集を行う予定がある場合は、これを検討する価値があります。 Word ファイルを取り戻したら、すべての編集を行います そこに、配信用にのみ PDF にエクスポートします。納品された PDF をもう一度編集するために Word に再変換することは避けてください。今後も DOCX を信頼できる情報源として維持してください。
パスワードで保護された PDF にはパスワードが必要です
PDF を Adobe Reader で開くためにパスワードが必要な場合、同じパスワードを入力するまで PDF は変換ツールにロックされたままになります。巧妙なバイパスはありません。暗号化は本物です。パスワードが無い場合は変換できません。
PDF を所有していてパスワードを忘れた場合は、保護が弱いファイル用のパスワード回復ツールがいくつか存在します。強力に暗号化されたものについては、運が悪いです。
結論
テキストベースの PDF は、高い忠実度で数秒で編集可能な Word に変換されます。スキャンされた PDF には OCR が必要で、クリーンアップが必要な作業用のドラフトが生成されます。希望通りの PDF ではなく、実際の PDF の内容に基づいて時間の予算を立ててください。 DOCX を取得したら、それをマスターとして扱います。今後の編集は PDF ではなくそこに保存されます。
今すぐPDFをWordに変換
テキストベースの PDF は数秒で変換されます。スキャンされた PDF は自動的に OCR を取得します。ファイルは 30 分以内に削除されました。