
2023-05-11
前回のコラムでは生成AIの概要をお伝えしました。今回はより具体的に踏み込んで、まず現在のAIのコンテンツ生成能力を、実際のケースをとともに紹介します。次に生成AIの現状における課題と解決のアプローチを紹介します。最後に、これらを踏まえた生成AI活用の要点を考えます。
まず、本節では現在のAIによるコンテンツ生成の能力をイメージしていただくため、生成結果の具体例を紹介します。さまざまな入力と出力を持つAIが研究されていますが、実用化の度合いなどから、本コラムでは生成する結果を起点として生成AIを以下の5つに区分しました。
このうちテキストと画像に注目し、コンテンツ生成がどのように実行され、どのような結果が得られるのかをケーススタディで辿ります。
今回は、PwC Japanグループをカジュアルに訴求するコンテンツを作成するというケースを考えます。そこで、PwCのPurposeである「Build trust in society and solve important problems」をテーマとして、日本風のテイストを加えてコンテンツを作るアイデアを考えました。まずテキストを生成します。今回は俳句スタイルで「日本風」を表現するものとして、対話的なテキスト生成AIに対して俳句を生成するよう指示しました。
図表1:対話的なテキスト生成AI「ChatGPT」によるテキスト生成例。緑アイコンが生成分を指す
指示に基づき、「信頼を築き 問題を解決へと 邁進する」という俳句を生成しました。
次に、画像を生成します。テキストから画像を生成するAIを用いて、PwCのPurposeを入力テキストとし、日本風の画像を生成するための「伝統的な」「日本絵画風の」という条件の下で画像を作成します。
図表2:テキストから画像を生成するAI「Stable Diffusion」を用いた画像生成結果
以上の工程で、漠然としたアイデアをもとにテキスト・画像からなるコンテンツを生成できました。
このように、従来は不可能であったコンテンツ生成が実現し、多方面への応用が模索されています。特にテキスト、画像の領域ではすでに社会実装が進んでおり、アプリケーションとしてはテキスト生成を活用した質問応答システムの「ChatGPT」や、画像生成システムの「Stable Diffusion」などが代表的です。ビジネスへの活用に目を移すと、コーディング支援「Github Copilot」「CodeWhisperer」、マーケティングなどのライティング支援「Jasper」「EmmaTools」など、専門性の必要な人手作業を効率化するサービスとして提供されています。
しかし、一方で活用の障害となる課題も多く残ります。
生成AI共通の課題は2点あります。1点目はAIが生成したコンテンツが帰属する著作権が明確になっていないことです。米国においてAIで生成した画像をベースに作られた漫画の著作権登録が認められないという事例がありました[1]。2点目はさまざまな運用上のリスクです。AIが生成したコンテンツそのものに虚偽や攻撃性の問題があり、実際にサービスが公開停止になった事例があります[2]。また、現在の主流な生成モデルに攻撃することで学習データを復元できるという研究[3][4]があり、セキュリティとプライバシーのリスクがあります。
テキスト生成についてChatGPTを例に検討すると、流暢だが正しい内容と全く異なる生成をしてしまう問題(hallucination)があります。hallucinationは、入力したテキストを読み違えるケースと、外部知識が必要な場合に捏造するケースの2つに分類できます。ChatGPTの場合、ほとんどが後者です[5]。また、帰納的な論理構造を問う質問には6割程度の正答率にとどまります[6]。専門性の高い医療レポートを非専門家向けに要約するタスクにおいては、全体の要約がおおむね正しくできることが分かりましたが、一方で結果のうち3割は重要な情報が欠損しました[7]。画像生成においては生成をコントロールできないことが大きな課題です。特に入力テキストから画像を生成するモデルにおいては、入力テキストを微細に調整するだけで画像全体が変わってしまう点[8]、テキストでは表現しにくいスタイルを渡して生成ができない点[9]、特定の構図を指定できない点[10]などがあります。
これらの課題に対する研究は進んでいます。前提として、現在の大規模なモデルを学習するためには訓練データが不足していることが示唆され[11]、より大規模なデータセットを構築してモデルをさらに学習できれば、モデルの性能の向上とともに問題の改善が期待できます。また、応答の安全性を確保するため、人の好みに合わせて強化学習する際の報酬をより詳細に設計する方法が提案されています[12]。hallucinationの対処としては、外部の知識ソースを参照する機能を付与したり[13]、生成結果にウェブ検索による根拠を提示する手法[14]が提案されています。また、学習するデータを特定用途に限定する手法[15]が考えられます。論理構造を把握するためには、推論の中間結果をモデルに出力させる手法[16]が考えられます。また、AIに生成を指示するテキストを思考の段階に分け、質問意図を解釈しやすいように入力する[17]というような、入力プロンプトの工夫による改善が期待できます。画像生成のコントロールにおいては、入力テキストの変更された部分を検出して画像の生成過程に反映する手法[8]、生成したいスタイルや構図の画像を入力の一部として使用する手法[9][10]が考えられます。
以上を考慮すると、いま生成AIを活用したアプリケーションを開発するためには、モデルの生成結果が持つ課題を理解し、適応すべきタスクを適切に設定する必要があります。また、反社会的でない、人の役に立つ、などのタスクそれぞれに合致した評価をする必要があります。利用者の観点では、「言語や画像で応答するAI」を前提として利用方法を考えること、「AIが理解できる指示」を把握してうまく利用することが重要だと考えます。
AIによるさまざまなコンテンツ生成や複雑な問いへの回答が可能になりました。これらはAPI化され、ビジネスへの応用が始まっています。私たちは現在のAIにできることを把握し、今できる範囲の活用を開始するべきです。
木村 俊介
シニアマネージャー, PwCコンサルティング合同会社