変換元のファイルの内容は、文字認識(OCR)エンジンにより文字認識が実行され、テキスト・表・画像の領域に分割されます。変換元のファイルの状態によっては、領域が正しく認識されず、期待どおりに変換されません。このような誤認識を防ぐため、領域の認識結果を確認し、必要に応じて、領域の属性や範囲を変更したり、対象とする文字の種類を指定したりできます。表領域に対しては、セルの区切りを変更して、より正しいレイアウトが再現されるよう調整できます。
※変換後のファイルが画像PDF・JPEG・BMPのいずれかの場合は、すべて画像として扱われるため、領域を変更できません。
■操作
- Windowsの[スタート]ボタンをクリックし、[すべてのプログラム-JUST PDF 2 [データ変換]-JUST PDF 2 [データ変換]]を選択します。
[JUST PDF 2 [データ変換]]が起動します。
- [変換対象ファイル名]の右端の をクリックして、変換したいPDFファイルを選択し、[開く]をクリックします。
[変換後のファイル名]に、自動的に変換元のPDFファイルと同じ保存先・ファイル名が設定されます。
- [領域編集]をクリックします。
- [領域処理]シートを選択します。
右側のプレビュー画面に、指定している変換元のファイルの内容が表示されます。
- プレビュー画面に、認識結果を変更したいページを表示します。
- [自動領域分割]をクリックします。
文字認識が実行され、プレビュー画面に、認識された領域を示す枠が表示されます。
- 必要に応じて、認識された領域やその属性を変更します。
- 領域の属性を変更する
プレビュー画面で枠をクリックして選択し、[領域属性]で領域の属性を選択します。
- 領域の範囲を変更する
領域の幅・高さを変更するには、プレビュー画面で枠線にポインタを合わせ、ポインタの形が に変わったらドラッグします。領域の位置を変更するには、プレビュー画面で枠にポインタを合わせ、ポインタの形が に変わったらドラッグします。
- 領域を解除して認識の対象から外す
プレビュー画面で枠をクリックして選択し、[選択領域を解除]をクリックします。プレビューに表示しているページの、すべての領域を解除するには、[すべての領域を解除]をクリックします。
- 領域がない部分を認識の対象にする
プレビュー画面でドラッグして枠を作成し、[領域属性]で領域の属性を選択します。
- 領域の属性を変更する
- 確認・変更が終わったら、[OK]をクリックします。
JUST PDF 2 [データ変換]の画面に戻ります。
- [変換後のファイル名]の右端の をクリックします。
[出力ファイルを保存]ダイアログボックスが表示されます。
- 変換後のファイルの保存先・ファイル名を設定し、[保存]をクリックします。
- [変換ファイル]、[変換範囲]など必要な設定を行い、[開始]をクリックします。
変換が開始され、進行状況が表示されます。
- 変換が完了するとメッセージが表示されるので、[OK]をクリックします。
変換後のファイルが、手順9.で指定した場所に保存されます。
▼注意
- [領域属性]で[画像]を選択しても、テキストデータを画像にすることはできません。
- [領域属性]で[横書きテキスト]や[縦書きテキスト]を選択しても、画像をテキストデータにすることはできません。
- テキストデータと画像データが混在したPDFファイルの場合、JUST PDF 2 [データ変換]を起動して、[テキストPDFを画像として処理]をクリックして にするとOCR認識によって、画像からテキストに変換できます。ただし、元のテキストデータも画像データとなるため、正しく認識できない場合があります。