AIシステムの精度と正答率はどこまで追求すべきか

AIシステムを導入しようとすると、必ず話題となる、課題となるのが『AIの精度』や『AIの正答率』です。
90%を目標になど、AIの精度・正答率を「ひとつの指針」として大切にすることは必要です。ただ、100%精度に固執する方がいます。このようなお客様の場合、私たちは依頼をお断りします。そのシステムで「何がどれくらい解決出来るか」ということを共通の価値観が持てないと、開発したシステムにご満足いただけないからです。

プロジェクトがスタートする前に、話がなくなることもあります。AIの精度や正答率の考え方、捉え方を営業時にご説明していると「なんだAIもそんな程度か」となります。「なんだ」「よくわからん」「こんなものに金が払えるか」の方が、弊社よりお断りするより圧倒的に多いのが現実です。

そんな程度かこんな程度でも、その程度を活かして課題を解決しに行けば良いのですが、ラスボスを倒す最強の武器と攻略マニュアルがないとRPGゲームができないようです。どうしてこの方がDXや新システムの担当なのだろう、日本の企業は大丈夫かなと思います。

と愚痴のようなことを言っても仕方がないので、「こんな程度」を「どの程度に」しておくのか、というのは実際問題としては必要ですので、そこを軸にAIの精度についてまとめてみます。

精度は90%を指針に、コストで判断をするべき

完璧な100%ができるかというと、これは無理です。99.99%の100%相当は可能です。エラーをゼロにはできず、その数を極限まで減らしていくことが可能なのです。ただ、これにはコストがつきまといます。

このコストとリターンのバランスをどう取るかが、DXやAI導入では重要です。DX担当、AI導入担当を任される方は、システム的な知見よりもこの天秤を決められる判断力と過去にない例を行う実行力が必要です。

決められた予算の中で、決められたスケジュール通りにシステムを開発できる、開発させられる能力ではありません。このようなことはITの制作・開発に携わるものはもう当たり前に持っている（べき）スキルであって、能力・リソースではありません。IT資産を経営や事業の中核に置くのであれば、ロジカルに考えられ、アナロジカルにも考えられ、判断と実行する勇気や気概を持っている人材にその構築や運用、発展を任せるべきです。

判断すべきコストはいくつかあります。

完璧に答えられるための、学習データを用意するリソースコスト（自分たちの時間・生産量）
完璧に仕上げるための、時間コスト（工期）
完璧に仕上げられるリソースを確保する資金コスト（委託費用）
完璧を維持するための、継続性・持続性のコスト（運用委託費用・システム費用）

4つのコストがあれば、あっちを立てればこっちがという状態で議論が進みませんが、基本は、「時間コスト」を第一軸に考えるべきです。時間軸があれば、それまでに開発可能なシステム内容が定義でき、それに対して必要な学習データはどこまで用意できそうかが決まります。用意できるデータで、例えばチャットボット・自動応答では組み込めるFAQ数や、そのFAQの精度・正答率に影響を与えるテスト量が決まり、同時に、委託費用が決まっていきます。そこまで決まれば、構築できる範囲などが決まり、時間コストの制約や学習データの準備コストで制約のあった、精度や範疇などを補うために必要な運用コストが出てきて、最後は、予算で継続性・持続性のコストが決まります。

基本はこの流れでやるのがもっとも合理的で関係者が納得できるバランスの取れた判断がされるDX化、AI導入になります。
もちろん、学習データを完璧にするというのを軸にすることも可能ですが、この場合は、プロジェクトは1年以上などの単位、総コストも億円のオーダーでのコストになります。

実は完璧なデータ準備はあり得ないので改善で成長させる

ただ、完璧なデータ準備で時間コストも委託コストもかけ構築すれば100%に近いものになるかと言うとそうではありません。

チャットボット・自動応答やAI文書検索では、いままで内線できていた相談、コールセンタに電話が来ていた相談、フォームから来ていた相談や、FAQページの閲覧数をデータにしても100%にならないことは多々あります。それは、チャットボット・自動応答とすることで、そのインタフェイスだから相談できることや、そのインタフェイスだからの質問のされ方があり、データとしては不完全です。

ここで面白いのは、運用で改善がしやすいという点です。テキスト系のAIでは、質問や検索はテキスト文章としてログが記録されます。Webサイトのようにこのページの閲覧が100であったという数字ではありません。閲覧が100あっても、どのような目的でそのページを見たのか、そもそも閲覧して解決したのかは分かりません。それがテキスト文章のログであれば明確にわかります。

私たちの実例では、ある商業施設のサイトにあるチャットボットに「あのイベントはもうやらないのですか？」という質問がいくつもあったそうです。毎年開催されていたが、ある理由で辞めたイベントを期待していたお客様が多かったというがチャットボットだからこそわかったのです。コールセンタや商業施設の代表電話やサイトのフォームからは問合せはするのは憚られるが、チャットならということで入ってきた質問・ニーズの良い例です。

テキスト文章ログがあれば、ユーザが知りたいこと、困っていることがわかります。加えて、どういう質問の仕方で問合せてくるのかもわかります。これを見て、学習を強化したり、FAQが足りなければ追加していけば、ニーズに合わせて効率的にシステムを育てられます。

　関連記事：母性が響くAI育成

このことから、今あるデータで完璧なものを作るよりも、ある程度のデータに抑えておいて、一度リリースをして、あるいは、ベータリリースをしてユーザに使ってもらう。そのデータでAIを成長させることでも精度・正答率は上げることができます。学習データを用意するリソースコストを第一とするよりも、時間コストを第一とする方が合理性があります。

AIの運用・改善とは、質と範疇とUXの3つの実施

AIシステムの運用・改善とは、「質」「範疇」「UX」の3つで改善をします。やることを明確にするために、チャットボット・自動応答で説明すると

「UX」：チャットボットの周知、使い方のリテラシー向上、応答文の編集、会話フローの調整
「質」：正答率の向上
「範疇」：カバー率の向上

です。「UX」については、少し毛色が違うので今回は説明を省きます。一般的に言われる「AIの精度」「AIの正答率」に関係するのが、質の正答率と、範疇のカバー率です。この違いを理解するためには、率の前の数を理解しなければいけません。

チャットボットの入力を「総入力数」とすると、

「総入力数」＝「正答を返した入力」＋「誤答を返した入力」＋「回答がそもそもなかった入力」

となります。実際にはもう少し因数分解された、かつ、補足の変数も入った式になりますが、率を理解するには上記の式で十分です。

「質の正答率」は、

「質の正答率」＝「正答を返した入力」/（「正答を返した入力」＋「誤答を返した入力」）

となります。この方程式は、用意してある回答についてどれだけ正しく回答を返せたかという割合を示します。

一方、「範疇のカバー率」は、

「範疇のカバー率」＝（「正答を返した入力」＋「誤答を返した入力」）/（「正答を返した入力」＋「誤答を返した入力」＋「回答がそもそもなかった入力」）

となります。この方程式は、ユーザからの問合せについてどれだけ回答を用意できていたかという割合を示します。

AIの精度は正答率とカバー率で計算する

AIの精度は、学習をすれば良いということではなく、不足しているFAQを追加していくことも行う必要があります。このどちらをいつに行うのかなどは、チャットボットの使われ方の傾向などから、今は正答率、今はカバー率、今は両方などと柔軟に判断し行います。この運用が上手くいけば、「回答がそもそもなかった入力」と「誤答を返した入力」が「正答を返した入力」に移っていき、「完全正答率」＝「正答を返した入力」/「総入力数」を高め90%精度などが実現します。実際に、効率的な運用で95%以上で安定している実例もいくつもあります。

プロジェクトの考え方、AIチャットボットの数字の例で、「AIシステムの精度と正答率はどこまで追求するべきか」は、「90%」を指針に、「運用での改善も見据えて」、「時間コスト」を優先に組み立て、その中で自身のKPIを整えれば良いことが、6年以上AI導入の経験がある私たちのアドバイスです。また、「率」だけではなくどれだけの答えや情報を提供出来たかという「量」が実は本質的な課題解決の数字です。「量」の前に「率」を整えることも大切ですが、そのために無駄な進め方をしないように。

もし、ログからデータを準備しよう、そのために相談しようと思っている方がいらっしゃいましたら、いますぐその考えは辞めましょう。あるいは、経営層に1年以上、1億円以上の予算稟議を通しましょう。

Cogmo Blog

AIシステムの精度と正答率はどこまで追求すべきか

精度は90%を指針に、コストで判断をするべき

実は完璧なデータ準備はあり得ないので改善で成長させる

AIの運用・改善とは、質と範疇とUXの3つの実施