たまに、お客様から原稿として、
過去の制作物のPDFをいただくことがあります。
アウトライン化されていなければ問題ありません。
アウトライン化されている場合は、
アウトライン化されていないPDFをいただけるよう頼みます。
たいがい、これしかありません。と言われます。
そこで、
Acrobatを使い、アウトライン化されたPDFから文字を抽出します。
やり方は下記になります。
A
1. PDFをAcobatで開きます。
2. Acobatの右側に並んでいる項目の スキャンとOCR をクリックします。
3. 上部中央の AAテキスト認識>このファイル>青いボタンの テキスト認識 をクリック
これで、コピー&ペーストでテキストを拾出しができます。
もう1つやり方があります。
B
1. PDFをAcobatで開きます。
2. Acobatの右側に並んでいる項目の PDFを書き出し をクリックします。
3. 好きなデータ形式を選んで保存します。
このやり方は、1つのドキュメントに
テキストをまとめることができて
便利そうですが、文字の認識間違いがたくさんあります。
Aは、PDFから制作するAIのドキュメントへ
まとまりごとに、コピー&ペーストしなければならないので
面倒で大変です。
Bの方が、コピー&ペーストは1回で済みますが、
文字認識の精度が低いので
やめておいた方が良いです。
最近、このやり方で制作したために痛い目に遭いました。
ご挨拶 が こ挨拶 となっていたり・・・
大きく文字が違っていたら
見つけやすいのかもしれません。
なんとなく似ているから
厄介です。