合成データにより加速するデータ利活用―テクノロジー最前線 データアナリティクス&AI編(14)

  • 2024-04-26

AI・データ活用における課題

文章や画像を生み出す生成AIや自動運転などの大規模なAIシステムには、多種多量なデータを学習させる必要があります。その一方で、個人のプライバシー保護への意識の高まりや、急速なAIの進化と普及を背景として、AI・データの保護に係る規制の強化も進んでおり、生成AIを含む世界初の包括的なAI規制案である「EU AI Act」が2024年3月13日に欧州議会にて承認されました。データの収集主体である企業や自治体にとって有用性が高い個人データについては、保護規制を満たしつつ、AIやデータ分析への活用を進める姿勢が必要となることが予想されます。

一方で、近年のこのような流れを受けて、個人情報の保護を念頭に置いたプライバシー強化技術(PET:Privacy Enhanced Technology)の研究や、実用化に向けた試みが進められています。その中から、データ自体を新たに生成することで、プライバシーを保護する手法である「合成データ」を取り上げ、その概要、代表的な手法、簡易的な実装方法について解説します。

合成データの技術概要

合成データを作成するにあたっては、統計的分布、モデルベース、ディープラーニング、デジタルツインといった手法が活用されています(図表1)。それぞれ適用範囲が異なるため、元データの複雑さに応じて、適切な手法の選択や手法間での精度比較が必要と考えられます。

図表1 合成データの各手法比較

合成データの技術検証

ここでは合成データを実際に使用した際のデモを紹介します。合成データの評価にはUCI成人の国勢調査1のデータセットを用います。データセットは複数の変数を持つテーブルデータで、年齢(Age)や人種(Race)などの個人情報を含みます。このデータをGaussianCopura2のモデルにより学習させ、合成データを生成した結果が図表2となります。ここでは元データの全ての変数を合成データ(図表2の下図オレンジ色)に置き換えています。年齢(Age)や週あたりの労働時間(Hours_per_week)などの数値データや、学歴(Education)、性別(Sex)などのカテゴリーデータも統計モデルで表現された確率分布でのサンプリングによって架空のデータに置き換えられています。合成データと元データの分布を比較した結果は図表3となります。平均値の30歳代を中心とする分布を大まかに再現できていることが分かります。

図表2 合成データ化したサンプルデータセット(米国成人の国勢調査データセット)
図表3 年齢(Age)の変数に対する合成データ(Synthetic)と元データ(Real)の分布比較 (横軸が年齢、縦軸が頻度を表す)

出所:Pythonを用いてPwCで作成

全変数が統計的な生成モデルにより合成データ化できたものの、特定の変数ではデータの品質に課題が見られました。例えば、学歴(Education)と教育年数(Education_num)などの相互に関係している変数同士もランダムに生成されるため、図表4のように「Doctorate(博士卒)」で高学歴であるものの、教育年数が短いといった矛盾が生じるデータも生成されていました。そのため、合成データを学習させて収入(Income)を予想するAIを作成するような場合には、元データよりもAIの精度が低くなる恐れがあります。

図表 (修正案)学歴と教育年数に関する合成データ(Synthetic)と元データ(Real)の比較

出所:Pythonを用いてPwCで作成

ここまでの簡易的な検証からも、合成データを活用する際には、生成される変数に一般常識やドメイン知識を前提とした制約(数値を特定の範囲に限定するなど)を課したり、データの品質を確認したりするプロセスも必要と考えられます。

ユースケース

ここでは、合成データの活用の代表的なユースケースを紹介します3。セキュリティやコンプライアンス上のリスクを低減する形で、データの共有が可能となることが合成データの大きな利点となります(図表5No.1〜4対応)。

また、個人情報データを合成データ化することで、データの保持期間を永続化させることや、データを学習した機械学習モデルのプライバシーを強化させることにも活用が期待されます。

図表5 想定ユースケース

合成データを活用した大規模なデータ共有

医療分野における研究や創薬開発には、大量の患者医療情報を必要としますが、治療や病歴などは、個人情報の中でも最もプライバシーに配慮されるべき要配慮個人情報に該当するため、データ漏洩を確実に防ぐ必要があります。一方で、感染症のように患者が急増する疾病では、迅速な対応のためにはリアルタイムでの情報共有が不可欠となります。複数の医療機関が保有する患者情報(個人情報)を合成データ化することで、他の医療機関に流出するリスクを低減しつつ、公的機関が合成データを取集し、一元的にデータベースとして管理することで、研究機関や企業が変化する感染症に対して迅速に患者データを活用することが可能となります。

図表6 医療業界における合成データの事例

合成データの課題

合成データを作成する場合、いくつかの課題があります。その際に発生する可能性のある一般的な制限と課題を以下に示します。

① 品質管理

データの品質は統計と分析において極めて重要です。データの信頼性がなければ、正確な分析や精度の高い予測は困難です。合成データを利用する場合、その正確性と信頼性を確保することが不可欠となります。ただし、実際の情報を隠蔽することでプライバシーとのトレードオフが生じ、データ品質に影響が及ぶ可能性があります。一般的に合成データに付加されるノイズが大きいほど、データ保護が可能となりますが、元データとの乖離が発生してしまいます。正確性の低いデータは誤った結論や低品質のAIモデルを生む要因となりますので、合成データを使うべきケースかどうかを吟味することが必要となります。

② データバイアス

合成データには、その生成過程で用いられるアルゴリズムや元のデータセットのバイアスが反映される恐れがあります。データの構造やパターンを再現することが目的となっているため、特定のパターンが増強され、誤った傾向の合成データセットが生じる可能性があるため、合成データの技術やツールを評価することが望ましいです。

③ プライバシー保護

合成データも万能ではなく、元データの統計的性質を残しているため、合成データや生成に用いるアルゴリズム、モデルから元データに関する情報が流出するリスクがあります。プライバシー保護を目的とする場合は、生成モデル自体を保護したり、差分プライバシーといった別のプライバシー強化技術と組み合わせたりすることも検討する必要があります。

今後の展望

生成AIなどの他領域の技術の活用が見込まれるため、合成データの生成手法は高度化が進むと予想されます。一方で、実用化に向けては活用と保護規制をともに保つ手法を開発する必要があります。2024年時点では合成データが個人情報に該当するかどうかも定まっていないため、実用化に向けては合成データ活用におけるガイドラインの策定など、法整備が必要となるでしょう。

まとめ

「合成データ」は個人情報を保護しつつデータ利活用を可能にする技術として注目されています。AI・データ活用における課題やプライバシー保護に関する規制の制定や施行が進展している中、統計的に生成された人工データである合成データは、データ不足やプライバシー保護の観点から重要視されています。そして、統計的分布、モデルベース、ディープラーニングなどの手法が一般的に使用されており、汎用なライブラリの開発も進められています。また、個人情報保護が特に厳密に求められる医療、金融などのエリアでの活用が期待されます。

合成データには品質管理やデータバイアス、プライバシー保護などの課題があることから、差分プライバシーなどのプライバシー強化技術と組み合わせることで、より強固なデータ保護を行いつつ、データ品質を担保する取り組みが行われています。合成データは技術面や法制度上も発展途上のため、法制度の今後の整備動向によって状況が大きく変化することが予想されます。データ利活用のユースケースに応じて、合成データ活用の検討やトライアルの実施などの体制作りも重要と考えられます。

1 UCI Machine Learning Repository 「Adult Census Income」 https://archive.ics.uci.edu/dataset/2/adultより取得。データセットに含まれる変数の詳細は以下。
age:年齢、workclass:雇用形態、fnlwgt:回答者への重み、education:学歴、education-num:教育年数、marital-status:配偶者の有無、occupation:職業、relationship:続柄、race:人種、sex:性別、capital-gain:資本利得、capital-loss:資本損失、hours-per-week:週あたりの労働時間、native-country:生まれた国、income:所得

2 多変量確率分布の依存構造をモデル化するための関数で、多変量分布に対して、コプラを用いることで、個々の変数の周辺分布とそれらの変数間の相互作用を分離することが可能となる。

3 参考
・Top 20 Synthetic Data Use Cases & Applications in 2023. https://research.aimultiple.com/synthetic-data-use-cases/
・James, S., Harbron, C., Branson, J. et al. Synthetic data use: exploring use cases to optimise data utility. Discov Artif Intell 1, 15 (2021).

執筆者

西浦 直人
アナリティクスインサイト アソシエイト、PwCコンサルティング合同会社

機械学習やシミュレーションの知見を活かして、主に官公庁でのAIやデータの利活用に関する市場調査、技術仕様策定、分析PoCなどのプロジェクトに従事。学術博士。

テクノロジー最前線―先端技術とエンジニアリングによる社会とビジネスの課題解決に向けて

データアナリティクス&AI編

(1):テック人材の採用と維持における企業の課題
(2):フィーチャーエンジニアリングとは?
(3):SNSを活用したコロナ禍における人々の心理的変化の洞察
(4):自然言語処理(NLP)の基礎
(5):今、データサイエンティストに求められるスキルは何か?データサイエンティスト求人動向分析
(6):コロナ禍における人流および不動産地価変化による実体経済への影響
(7):「匠」の減少―技能継承におけるAI活用の道しるべ
(8):開示された企業情報におけるESGリスクと財務インパクトの関係性の特定
(9):ビッグデータ分析で特に重要な「非構造化データ」における「コンピュータービジョン(画像解析)」とは
(10):自然言語処理・数理最適化による効率的なリスキリングの支援
(11):スポーツアナリティクスの黎明 サッカーにおけるデータ分析
(12):AIを活用した価格設定支援モデルの検討―外部環境変化に即座に対応可能な次世代型プライシング
(13):MLOps実現に向けて抑えるべきポイントー最前線
(14):合成データにより加速するデータ利活用

エマージングテクノロジー編

(1):ブロックチェーン技術の成熟度モデルとステーブルコインの最新動向について
(2):3次元空間情報の研究施設「Technology Laboratory」のデジタルツイン構築とデータの管理方法
(3):3次元空間情報の研究施設「Technology Laboratory」における共通ID「空間ID」と自律移動体の測位技術
(4):G7群馬高崎デジタル・技術大臣会合における空間IDによるドローン運航管理

エンジニアリング編

(1):COVID‐19パンデミック下のオンプレミス環境におけるMLOpsプラクティス
(2):機械学習を用いたデータ分析
(3):AWSで構築したIoTプラットフォームのPoC環境をGCPに移行する方法
(4):テクノロジーの社会実装を高速に検証するPwCの独自手法「Social Implementation Sprint Service」-テクノロジー最前線
(5):自動車業界におけるデジタルコックピットの擬人化とインパクト
(6):成熟度の高いバーチャルリアリティ(VR)システム構築理論の紹介
(7):イノベーションの実現を加速する「BXT Works」とは
(8):Power Platformの承認機能、AI Builderを活用して業務アプリを開発する方

本ページに関するお問い合わせ