(たくの [以下"た"])「本日は、よろしくお願い、します。」 (高橋 [以下"高"])「こちらこそよろしくお願いします。」 (た)「では早速ですが、今回御紹介いただくソフトは…」 (高)「『やさしくPDFOCRv.2.0』と『やさしくPDFへ文字入力 文書用』です」 (た)「えーと、これは、PDFファイルをOCRで読み込むという事でしょうか?」 (高)「その通りです。最近PDFファイルの需要は高まっていますが、そのPDFをいろいろなシーンで活用していこうという事ですね。では早速ですがデモをみていただきましょうか。」 (高)「こちらが、起動画面です。」 会議室に設置されたスクリーンには、『やさしくPDFOCRv.2.0』のインターフェイスが表示されている。一見すると、メーラーや画像ビュワーのような、馴染みやすいインターフェイスである。 (高)「では、まずはサンプルを読み込んでみましょう。」 そう言って、高橋さんはハードディスクの中のPDFファイルを一つ選んだソフトがPDFを読み込みはじめた、左側にそのサムネイルが表示される。 (高)「コレが、PDF読み込んだ状態になります。一旦PDFファイルを絵として読み込んでいます。」 画面には花火の写真とそれを説明するテキストで構成されたページが表示されている次にボタンを押すと (たくの藤田鶴本)「うおおおおおおおおお」 (高)「これが、PDFファイルをOCRした状態になります。」 先程取り込んだPDFファイルの左側に、全く同じ物のように見えるファイルが出現する。このファイル、実はテキスト部分は編集可能なデータへと変換されている。OCRで変換された状態のファイルなのだ。なんとも、あっと言う間の出来事だ。 (たくの藤田鶴本)「うおおおおおおおおお」 (高)「御覧いただいて解るように、レイアウトも左のデータと同じ状態で変換されているんですよ。」 (たくの藤田鶴本)「すげえええええええええ」 たしかに、左右のファイルを見比べると、レイアウトも同じ状態で、テキスト部分が編集可能な状態になっている。あまりにも簡単に変換されるため、観ていて爽快感さえある。 (高)「もっと精度を高く変換するなら、このようにテキスト部分と画像部分を範囲指定しておけば細かい設定が可能になりますよ」 (た)「青い枠で囲っている部分がテキストで、赤い枠で囲っているのが画像ですね。」 先程のファイルをテキストの部分は青の枠、写真の部分は赤の枠と囲ってゆく。これで、OCRで変換する場合に間違いが減るそうだ。それにしても見た目にも分かりやすいインターフェイスだ。 (高)「後はですね、こんな感じの表組されたデータをエクセルの表データにも変換できるんですよ。」 と言って、表組されたPDFデータをあっと言う間に編集可能なデータに変換した。さらに、エクセルのアイコンのボタンを押すだけで、エクセルのデータとして書き出される。この時もちろん表組もエクセルデータとして再現される。 (高)「もちろんPDFへの、書き出しも可能ですし、※透明テキストへの対応も可能です。」
※透明テキスト 文字どおり透明なテキストの事。 PDFの見た目はそのまま、テキスト部分は透明テキストでフォローする便利な保存形式