Watson Discovery(ワトソン・ディスカバリー)とは、HTMLページやPDFマニュアルなどの文書・ファイルに記載されているテキストをIBMのAI・人工知能の検索技術によって、検索できるシステムです。検索だけではなく、テキスト・マイニング、コンテンツ・マイニングにより文書に書かれている傾向などをレポート化できる、洞察を得られるシステムです。
Watson Discoveryにはさまざまな機能があります。
例えば、Smart Document Understanding(SDU)。これは、PDFの社内文書をWatson Discoveryに取り込んだとして、その文書のページの右肩にあるのが文書名、左上にあるのが章のタイトルなどとラベル付けをする機能です。人にはわかる、あるいは、その文書を使う人にはわかる文書のレイアウトが持つ意味をシステムに設定する機能です。他にも、標準の辞書にはない企業独自の単語を、「これは固有名詞」などとタグ付けをするNLPエンリッチメント機能(NLP:自然言語処理 エンリッチメント:拡張)などがあります。ただ、Watson Discoveryの機能をシンプルに解説すると、コンテンツの「検索」と「分析」の2つになります。SDUなどはそのための細かい設定機能になります。
Watson Discoveryの検索は、既存の検索エンジンやツールでは検索ができなかった検索ができ、かつ、検索はできても精度が悪かった検索の精度を上げることができます。
これには、主に2つの機能が影響しています。ひとつは「自然言語」で検索できる機能。もうひとつは、「検索結果を関連性によって学習」させる機能です。
まずは、「自然言語」で検索できる機能についてです。
例として、Webサイトやイントラサイトのサイト内検索を例にします。サイト内検索では検索された文章そのものがページ内に入っていないと検索出来ない、あるいは、単語でしか検索できない、などが一般的です。
イントラにあるシステムに関するFAQを検索するとします。パスワードを再発行したい場合、「パスワード 再発行」で検索すると検索できても、「PW 再発行」や「パスワードを再発行」では検索できません。「PW 再発行」の場合は、「PW」という単語がページ内になく検索ができない。「パスワードを再発行」では、「パスワード『の』再発行」という文章があるが、『を』の文章がなく検索ができないなどが理由となります。
Watson Discoveryでは、「パスワード」と「PW」のような言葉の揺らぎを自動で吸収することができます(揺らぎを追加することもできます)。また、「パスワードを再発行」と検索しても、イメージとしては「『パスワード』and『再発行』」と自動で置き換えて検索してくれます。この機能で、旧来の検索エンジンやツールでは検索出来なかった、あるいは精度の悪かった検索を改善することができるのがWatson Discoveryの検索の特徴のひとつです。
もうひとつの機能、「検索結果を関連性によって学習」させる機能を使えばさらに検索の精度を向上することができます。
一般的な検索エンジンやツールで検索精度をあげることを考えます。これらのツールでは、単語がヒットするかどうかで検索結果の順位が決まります。そのため、よく検索される単語がページにない場合は、ユーザがみる画面には表示されないがシステム的に持っておく情報、メタ情報にキーワード(裏キーワード)を設定します。このやり方はHTMLページ数が少ない時には良い方法ですが、ページが膨大であると設定が大変になります。また、そもそもPDFファイルなどにはそのような裏キーワードを埋め込みにくいので、PDFファイルではこの方法は採れません。
Watson Discoveryでは、これを「関連性」によって対応します。例えば、「川崎」という単語は、市の意味で使われることも、苗字で使われることも、企業名やブランドで使われることもあります。「川崎」と検索されたときに、苗字として検索結果を出したい場合は、「川崎=川崎市」のつながりよりも、「川崎=苗字・人の名前」のつながりを強くしてあげます。実際には「検索される文章」とその時に「検索上位に結果が出て欲しいページ」を管理画面で紐付けます。この紐付けを行うと、「川崎=苗字・人の名前」のつながりが強くなり、「川崎」と検索したときに苗字について記述のあるページが上位にあがってきます。苗字に関するページすべてに「川崎」という裏キーワードを設定する必要はありません。
Watson Discoveryの検索は、「自然言語」で検索できる機能と「検索結果を関連性によって学習」させる機能で、いままでにない検索を実現することができます。サイト内検索の精度をあげる、膨大なマニュアルから最適なページを見つける、コールセンタのオペーレータがお客様の質問を復唱する音声から検索するなどが実現できるようになります。
Watson Discoveryの分析は、よく洞察を得られるなどと言われますが、あまりピンとこないと思います。例えば、以下のようなニュースやテレビ特集を観たことがないでしょうか。
「ある国の外交文書や首脳の発言をAIによって分析すると、2010年に大きな方針転換があったことが解りました」
このような番組やニュースで使われている「AIによる分析」がWatson Discoveryでできる分析のひとつです。
もう少し想像しやすいように、設定を米国の外交文書としてみます。まず、Watson Discoveryは、文書に書かれている言葉の関連性を抽出してくれます。関連性とは、わかりやすく言えば、どんな単語がたくさん使われていて、その単語とセットで使われている単語はどのようなものが多いか、というものです。また、文書の日付を設定することもできます。
このような機能を持つWatson Discoveryに、米国の外交文書をアップロードすると、時系列にどのような単語が使われていて、その時にどのような単語の関連性があるかをグラフや単語の大きさで見られます。
例えば、1960年代は「ソビエト」「宇宙開発」などの単語が出てくるでしょう。
1980年代になると、「日本」「貿易不均衡」「自動車」「関税」などの単語が出てくるでしょう。2000年代になると「中国」という単語が増え、トランプ時代には「対立」もありつつ「対話」のような単語、現・バイデン政権では「同盟強化」などが出てくるのではないでしょうか。Watson Discoveryは、このように時系列・単語の出現という切り口でレポート画面を作ることができます。他にも色々な形でレポート画面を作ることができますが、これを、「AIによる分析」と呼んでいます。
単語の大きさで見る関連性の例:2022年6月後半のニュースサイトの単語を分析するとこのような単語の関連性が出てくるでしょう
では、「洞察」を得られるとはどういうことでしょうか。先ほどの米国の外交文書は、一般的な歴史の流れとして解っていることですので、このような単語がこの時期に出てくるだろうなと、私たちでも想像ができるものになります。ただ、ニュースではあまり触れることがない、例えば、スリランカの外交文書だと想像がつかないはずです。また、米国の外交文書でも、実は北欧との関係強化を図っていて、ある時期に「ノルウェー」などの単語が「互恵」や「NATO」などの単語と一緒に出てくるかもしれません。このように、文書には書いてはあるが、すべての文書を人が読み込んでいるわけではないので、発見できなかったことを、先ほどの分析レポート画面で知ることができます。それを洞察が得られる、と表現しています。
外交文書で例をあげましたが、世界中の論文をアップロードし、自分が研究しているテーマについて、新しい方向性で研究をしている論文を見つけることもできますし、SNSで自社製品について語られていることをアップロードし、ある製品の評価が最近良くなっている・悪くなっているをリアルタイムに知ることもできます。会社のビジネスチャットで会話されているデータを使えば、あるチームはネガティブな単語が増えていて、何か課題があるのではないか、ということを知ることも出来ます。
Watson Discoveryについては、エンリッチメントができるなどと解説されることが多くありますが、できることはシンプルに「検索」と「分析」であると整理し理解すると、Watson Discoveryの魅力が見えてくると思います。
アイアクトでは、Watson Discoveryの「検索」の機能を利用しながら、追加の機能を加える他、逆に使い方が難しくなるような機能は不要な機能として削り、検索に特化した製品として「Cogmo Search(コグモ・サーチ)」を提供しています。サイト内検索や、業務マニュアル・製品マニュアル、FAQシステムと連携したFAQ検索などでご利用いただけます。既存の検索ツールから移行し、関連性の学習をしない初期設定でも検索の精度が良くなったと驚かれることもあります。
また、Watson Discoveryの「分析」については、コールセンタの入電ログやSNSのログなどの傾向分析を個別対応で請けたりしています。
こういうことは解決できるのかなど、何かご相談ございましたら、お気軽にお問い合わせください。
参考リンク:
ご相談先:Watson DiscoveryなどAIでの文書検索について、お気軽にご相談ください