OCRソフトでパーソナルデータベースを

すっきりしたオフィスで快適に仕事をしたいと考え、私はスキャナを購入し、これまで何度となく紙のデジタル化に挑戦した。まず最初に考えたのが、「OCRソフト」で紙をテキストデータに変換することだ。OCRソフトとは、スキャナで取り込んだ文字の画像データをワープロでも編集でき、テキストファイルに変換するものである。テキストファイルの形になれば、GREPのような検索ソフトによりデータベースのように利用できる。4、5年前のOCRソフトは、とても実用的とはいえなかった。

[参考サイト]
パソコン、ノートパソコン、デスクトップ、周辺機器 | Lenovo
http://www.lenovo.com/jp/ja/
>> パソコンの詳細

まずパソコンの処理速度が遅く、変換に時間がかかる上、認識率が悪く、変換した結果はとても日本語の文章とはいえないものだったからだ。それ以前にスキャナ自体の性能も限界があり、OCRソフトに画像を読み込ませるまでに時間がかかるという根本的な問題もあった。しかし、パソコンやスキャナが高速化した現在、雑誌の1ページ分ならわずか十数秒でテキストへの変換が終わってしまう。これなら紙のデジタル化が現実のものになるかもしれないと期待したものの、やはりそううまくはいかないようだ。OCRの認識率は確かに向上したものの、認識率が98%だと仮定すれば、1000文字の原稿の中に20個の間違いが紛れ込むことになる。意味は通るレベルだが、データベースに使うには信頼性が低すぎる。すべての間違いを手でつぶしていくのはとても無理な話。やはりOCRソフトでパーソナルデータベースを構築するという試みは、今のところよほど暇を持て余した人でないと実現できない。書籍や新聞の記事をどうしてもレポートに引用する必要があるなど、むしろ大量入力の負担を軽減するための手段としてOCRソフトをとらえたほうがいい。キーボードから打ち込むと何十分もかかる長さでも、OCRなら原稿の取り込みから始めても数分で終わる。書籍や新聞の記事をどうしてもレポートの中に引用しなければならないときなどに使ってみよう。

メニュー

サイト情報


Copyright (C) WWW.CALCULADORAS.BIZ. All Rights Reserved.