マルチモーダルAIで広がる可能性―より人に近い判断能力に

2021-07-31

近年台頭した人工知能(AI)は自動運転など人間が五感を通じて認知・判断する行為を再現することが一つの特徴だ。ただ、複数の感覚を組み合わせるのではなく、自動運転では人が運転席から見える視覚による認知・判断を主に代替しているといえる。近未来のAIは複数の情報を組み合わせて学習する「マルチモーダルAI」が増えてくると考えられている。

マルチモーダルAIを理解するために、AIと人間の赤ちゃんを例に説明する。AIが膨大な数の画像データを学習して、ようやくリンゴとバナナを区別できるようになるのに比べ、人の赤ちゃんは数枚の絵を見るだけで区別できるようになるといわれている。この差には、人間の「複数の情報を組み合わせて(マルチモーダルに)認知し、その種々な経験を基に学習する能力」が関わっている。

2つの果物の画像を区別できるAIはあくまで画像のピクセル情報を基に判断しているにすぎない。そのためこのAIは、デフォルメされたリンゴとバナナの絵を区別することはできないだろう。

人は視覚だけでなく五感を使って短期間に様々なデータを得る。リンゴとバナナを目で見て、匂いを嗅いで、触り心地を確かめて、味の違いを感じて2つの果物を理解するのだ。デフォルメされたリンゴとバナナの絵を自然に区別可能なのはこのおかげである。真のマルチモーダルAIが完成すれば、人と同じように抽象的な概念を理解し、より汎用的に認知・予測が可能となるかもしれない。

どう活用されるのか。より本質的に事象を理解できるマルチモーダルAIは、より人に近いことをできるようになるだろう。各産業で活躍する様々な感覚を駆使して技をふるう高技能者のノウハウを獲得することも期待される。

例えば経験を積んだ医師は診断を下すとき、カルテを読み込み、レントゲンをとって、患者と対面で会話しながら問診や触診をし、過去の経験と照らし合わせながら根本にある病気を特定・診断している。単にレントゲン画像だけを解析して病気を見つけるのではなく、これらと同じ複数のデータを「マルチモーダルAI」にインプットしていくことで、熟練した医師と同水準の診断が可能なAIの登場が期待されるのだ。

ビジネス界でも同様だ。新たなAIのアプローチが取り入れられることで、企業におけるAI活用の可能性はさらに広がりを見せることになりそうだ。

マルチモーダルAIとは
シングルモーダルAI
  • 現在主流のAI
  • 単一のデータ種から特定領域の学習

    →AIの適用領域が限定的
マルチモーダルAI
  • 今後活用が期待されるAI
  • 複数データ種を組み合わせ、抽象化された理解が可能に

    →より汎用的にAIを活用できる

執筆者

内田 和輝
シニアアソシエイト, PwCコンサルティング合同会社

※法人名・役職などは掲載当時のものです。

※本稿は、日経産業新聞2021年3月26日付掲載のコラムを転載したものです。見出しおよび図表は同紙掲載のものを一部修正/加工しています。

※本記事は、日本経済新聞社の許諾を得て掲載しています。無断複製・転載はお控えください。

※法人名、役職などは掲載当時のものです。

経営者のためのAI講座


{{filterContent.facetedTitle}}

{{contentList.dataService.numberHits}} {{contentList.dataService.numberHits == 1 ? 'result' : 'results'}}
{{contentList.loadingText}}