つい先日、ある団体が開催しているRPAの集まりに参加してきました。

当日のテーマは、「AI-OCR」。

その分野に関連の深い方々を招いて、一人10分程度のスピーチが行われました。

私にとっても大変興味深く、現場の生々しいお話を沢山聞くことが出来ました。

今回は、「AI-OCRサービスを作成しているベンダー」さんから聞いたお話を、ご紹介したいと思います。

 

■AI-OCRのベンダー側の「言い分」と「悩み」

2019年8月現時点において、AI-OCRのサービスを提供している会社さんは、20社以上。

Googleなどで検索しても、その差異が分かりづらくなっているのは、ベンダーさんも認めていました。

我々ユーザーが選別する時に最も重視するポイントは、なんといっても「識字率」だったりします。

この精度が低いようでは、使う意味が薄れてきますからね。

でも難しいのは、この「識字率」も検査の方法が決まっておらず、「自社調べ」となっているので、発表されている数字をそのまま鵜呑みに出来ないのです。

そのため、最終的には、実際に自社で処理している紙媒体を読み込まして利用してみないと評価できないのが実情のようです。

 

AI-OCRは、文字通り、AIが組み込まれています。

そのため、ビッグデータの総量が大きければ大きいほど、その精度が上がってきます。

面白い話としては、社内のスタッフの筆跡しか処理しないのであれば、精度はすぐに急上昇させることができるそうです。

悪筆な人が書いた文字の癖をAI-OCRは理解しますから、その人が書いたノート3冊分程度読み込ませれば、その人の筆跡は限りなく100%に近い認識率にすることが可能だそうです。

しかし、世の中で求められているのは、「不特定多数の人が書いた文字のデータテキスト化」ですから、その難しさは想像できますね。

その他、AI-OCRのベンダー側の苦悩として興味深いコメントを挙げてみたいと思います。

 

■文字が汚い人が多すぎる!

思わず、ニヤっとしてしまいました(笑)

世の中の多くの人は、提出書類であれば、なるべく綺麗に書こうとする意識があると思います。

しかし、癖の強い字を書く人も少なくないのですね。

一文の中にあると、まだ(前後からの推測で)読める!けれど、それ一文字だけ出されると、人間の私にも読めない!というのがあったりします。

それでも、あるAI-OCRはちゃんと認識していました。私は読めなかったのに。。

まあ、アルファベットだと悪筆でもそれほど読み取るのに苦労しないと思いますが、日本語、とくに漢字だと気が遠くなりそうです。

あと個人的に気づいたのが、筆記された申込書を見ると「枠からはみだしている文字が結構多い」ということ。

ちゃんと指定の枠が書いてあるのに、そこから文字や数字がずれているものが少なくないのです。

その辺の修正もしなくてはいけないのは、ヒトゴトながら大変だなーと思いました。

 

■識字率ばかりを求めすぎ!

これは前回の記事にも書かせて頂きましたが、お客様の多くが、限りなく100%を求めすぎ。

100%近くまで精度が上がるのは、まだまだ先の話です。

でも、現状の識字率で十分に業務効率化に大きな効果は出せるはずなので、ぜひ一度試してみて欲しいというのが、ベンダー側の言い分でした。

以上、ベンダー側の意見でした。

 

個人的には、AI-OCRの価格というか、相場が分かりづらいですよね。

精度がマチマチなので、実際に導入をしようと思うと、どうしても数社を呼んで、実際に紙を読み込ませてみて、データを取るといった作業をして数字の裏付けが必要になってきます。

そのうえで、1枚当たり何円でテキスト化できるのか?という話になって、トータルとして「人を雇うより安くなるのか?」ということで採用するかどうかが決まると思います。

そう考えると、導入検討にも時間が掛かりそうです。