生成AI―新たな働き方革命の波に乗る―テクノロジー最前線 生成AI(Generative AI)編 (1) 生成AIの特徴とは?

2023-04-06

皆さまがご存知の通り、昨今のAIの発展には目覚ましいものがあります。1950年代から始まるAIブームは今や、深層学習の出現を経て第3次を迎えたと言われており、現在強力な画像生成AIや文書生成AIを誰でも気軽に使えることに驚いている方も多いのではないでしょうか。

例えば、2018年にオークションに出品されたAI絵画が43万2,500ドルで落札され*1、2022年には画像生成AI「Midjourney」の作品が米国ファインアートコンテストで優勝しました*2。イラストを簡便に描くことができる多様なスマートフォンアプリは日々開発され続けており、イラスト/アート界隈はAIを強く意識することとなりました。

また、文書情報の抽出、要約、校閲等をチャット形式で可能とする「ChatGPT」や「Bard」といったAIは、その応対の自然さから多くの反響を呼びました。実は本連載のタイトルも、本記事の文章をもとに「ChatGPT」に考えてもらい、出てきた内容をもとに編集して作成しました。今後はAI単体のみならず、検索エンジンを始めとした多くのシステムに組み込まれて使用されることで、より多様かつ自然な使われ方が模索されていくことでしょう。

このようなAIは世間に大きなインパクトを与えており、今までとは明らかに異なる性質を有していることから、「生成AI(Generative AI)」と呼ばれ区別されています。現状は未だいわゆる汎用人口知能(AGI*3)と呼ぶのは早計と思われる一方、特に「GPT4」はAGIの初期型として捉える主張もあり*4、期待は高まり続けています。本記事では、生成AIに関する連載記事の初回として、生成AIの概要を紹介します。

生成AI(Generative AI)とは


生成AIは、機械学習によってテキスト、プログラムコード、画像、動画、音声、音楽などの新しいデータを生成することができるAIで、学習されたデータを集合知として新たなアウトプットを生み出す汎用人工知能となることが期待されています*4*5

元々は、Gartner社が提示するさまざまな新興技術に対する関心の高さや普及度合いなどをまとめたグラフ「Hype Cycle for Emerging Technologies, 2020」*6にてInnovation Trigger(黎明期)として記されたことで、その認知を高めたと言えます。

生成AIが近年躍進した理由としては、AIを開発するための計算機資源が低価格化したこと、不連続に精度向上が起きるほどの甚大なパラメータ数を持つAI*7に膨大なデータを投入し始めたこと、TransformerやDiffusion Model等のアルゴリズム開発および柔軟性の高いデータモデルの効用等が考えられ、今後も更なる拡張と発展を続けることが予想されています。

図表1:生成AIに至るまでのAIの歴史

生成AI 年表図

どのような生成AIが存在するのか

生成AIは、何を生成するかによって大別することができます。具体的には、テキスト、プログラムコード、画像、動画、3Dモデル(CAD)、音声等に分類することができます(図表2)。

画像であれば、若き日にあらゆる画風を描きえた画家の名前を冠する「DALL-E2」、コミュニケーションアプリDiscord上で用いる「Midjourney」、データモデルが一般公開されたことで一気に人口に膾炙した「Stable Diffusion」などが、文書であれば、昨今話題のChatGPTのもとになっている「GPT-2」「GPT-3」「GPT-4」やGoogle検索にも活用されている「BERT」「PaLM」などが代表的な技術として挙げられます。

各領域のAI技術やアプリケーションサービスに関しては、次回の記事で詳細を説明します。
 

図表2:生成AI領域すみ分け図(Application Landscape)

図1 生成AI―新たなクリエイティブ革命の波に乗る

これまでのAIとの違いは何か

これまでのAIは、データの集合から何らかの傾向を抽出し、特定のデータを抽出するという、いわば「特定」や「予測」といった領域がメインであり、Discriminative AI と呼ばれるものが多く開発されてきました。しかし、生成AIは、新たなデータを生成する特徴を持つため、「創造」という新しい領域に拡がるものとなります。

今まで人間が行っていた0→1を生み出す仕事をAIで代替すること(図表3)は、既存のビジネスにパラダイムシフトをもたらす可能性があります。例えば、この流れに乗った新しいタイプのクリエイターやビジネスパーソンが生まれる可能性があると考えています。一昨年、12歳のベンジャミン君がNFTのプラットフォームでクジラのNFTデジタルアートを販売し、4,000万円を稼いだことが話題となりましたが*8、Weird Whalesと呼ばれるこのデジタルアートはAIで生成されたものではないものの、Generative Artという領域で生成AIに通じると言えます。

図表3:0→1の間にある大きなキャズム

図表3 生成AI―新たなクリエイティブ革命の波に乗る

活用が期待されている産業とその可能性

前節では画像領域におけるビジネスの転換の兆候について触れました。今後、執筆・レポート・コピーライティング、コーディング、動画編集、作曲や3Dモデリングに関しても、同様の流れが進むことが想定されます。

マーケティング資料はAIにコンセプトのみ伝えれば自動ででき上がり、自分の好みの音楽をいくつか指示するだけでオリジナル楽曲が再生され、テイストを指示すれば家具や内装も自動で美麗なデザインを発注してくれる日がくるかもしれません。そして、いずれはあらゆる記事の末尾には、執筆に使用したAIモデル名を添えることも一般的になるのかもしれません。

図表4 AI執筆によるビジネス転換
図表5 AI作曲によるビジネス転換

また、進化を続ける生成AIはより広範な産業に影響を与えることが予測されており、今後更に人口に膾炙していくものと思われます*9

生成AIと向き合っていくために必要なこと

生成AIに大きな期待と注目が集まる一方で、開発や公開時のリスク、権利、倫理を巡る問題も取りざたされています。

例えば、日本のアニメ漫画イラストを多分に学習させた画像生成AIモデルは、その生成物の著作権を巡り多くの日本のイラストレーターの間で物議を醸しました*10。また、多くの画像生成AIはNSFW(Not Safe For Work)フィルターを有していますが、その機能も完全ではありません。ザッカーバーグ氏の事例を始めとした、Deepfakeと呼ばれる動画生成も大きな問題の一つです*11。Podcast.aiやNHK紅白歌合戦で放送された美空ひばりAIのような、死後の人物を再現するようなAIに対する物議も記憶に新しいのではないでしょうか*12

ChatGPTやBardの回答精度問題も株価にまで大きな影響を及ぼしましたが*13、現実世界における立場を持たないAIならではの課題であり、今後も利用用途と併せて対応を考えていく必要があるでしょう。これらの課題と対策については別途、次回以降の記事で詳細に紹介していきます。

図表6 権利・倫理の問題

これらの課題によって、ビジネスにおける生成AIの急激な活用促進は難しいのかもしれません。しかしながら、生成AIのEarly Adaptor*14と法律やモラルとの調和が進み、大きな発展に繋がると筆者は推測しています。

*1:https://www.nytimes.com/2018/10/25/arts/design/ai-art-sold-christies.html

*2:https://www.actuia.com/english/midjourney-ai-generated-artwork-wins-1st-prize-at-colorado-state-fair/

*3:Artificial General Intelligence :汎用人工知能

*4:Bubeck, Sébastien, et al. "Sparks of Artificial General Intelligence: Early experiments with GPT-4." arXiv preprint arXiv:2303.12712 (2023).

*5:Planning for AGI and beyond , OpenAI, February 24, 2023

*6:https://www.gartner.com/en/newsroom/press-releases/2020-08-18-gartner-identifies-five-emerging-trends-that-will-drive-technology-innovation-for-the-next-decade

*7: Brown, Tom, et al. "Language models are few-shot learners." Advances in neural information processing systems 33 (2020): 1877-1901.

*8:https://www.bbc.com/news/technology-58343062

*9:Eloundou, Tyna, et al. "GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models." arXiv preprint arXiv:2303.10130 (2023).

*10:画像生成AIが海外の画像投稿サイトにアップされている日本人イラストレーターの画像データを使っているのではないかという疑いや、特定のイラストを利用規約のもとに学習させてそっくりのイラストを作成するツールは話題となり、イラストレーターの中にはAI学習禁止をネット上で宣言する動きも見られた。

*11 :https://www.youtube.com/watch?v=NbedWhzx1rs

*12:Podcast.ai ではJoe Rogan interviews Steve Jobsと題してSteve Jobsの死後インタビュー音声を投稿した。また、 NHKでは美空ひばりの歌声を再現したAIの放映を行った。https://hypebeast.com/2022/10/joe-rogan-steve-jobs-play-ht-podcast-ai-ai-powered-podcast
https://www2.nhk.or.jp/archives/tv60bin/detail/index.cgi?das_id=D0009051109_00000

*13:質問に対するBardが出した回答に複数の誤りがあったことが指摘され、アルファベット株は1日で9%以上下落、1,000億ドルの損失となった。
https://www.bbc.com/news/business-64576225

*14:あるソリューションや技術が完全に成熟していない段階から使い始める層のこと

執筆者

沼田 裕明

ディレクター, PwCコンサルティング合同会社

Email

中島 義耀

シニアアソシエイト, PwCコンサルティング合同会社

Email