合成データにより加速するデータ利活用―テクノロジー最前線データアナリティクス&AI編（14）

AI・データ活用における課題

文章や画像を生み出す生成AIや自動運転などの大規模なAIシステムには、多種多量なデータを学習させる必要があります。その一方で、個人のプライバシー保護への意識の高まりや、急速なAIの進化と普及を背景として、AI・データの保護に係る規制の強化も進んでおり、生成AIを含む世界初の包括的なAI規制案である「EU AI Act」が2024年3月13日に欧州議会にて承認されました。データの収集主体である企業や自治体にとって有用性が高い個人データについては、保護規制を満たしつつ、AIやデータ分析への活用を進める姿勢が必要となることが予想されます。

一方で、近年のこのような流れを受けて、個人情報の保護を念頭に置いたプライバシー強化技術（PET:Privacy Enhanced Technology）の研究や、実用化に向けた試みが進められています。その中から、データ自体を新たに生成することで、プライバシーを保護する手法である「合成データ」を取り上げ、その概要、代表的な手法、簡易的な実装方法について解説します。

合成データとは

合成データとは、コンピュータのアルゴリズムによって生成された、現実世界の実データに近い、人工のデータのことです。合成データは主に、データ不足とプライバシー保護の観点で必要とされています。従来は、AI学習時のデータセットの不足を補うための技法として用いられるケース（データ拡張）が多かったですが、AIとデータを保護することへの意識の高まりから、プライバシー強化技術を含むプライバシーテックに係る技術としても認識されつつあります。

合成データは元データを単純にランダムに置き換えるのではなく、統計量や相関性を残す形で、元のデータに似たデータとして新規に生成されています。そのため、合成データを用いれば、プライバシーを保護しつつ、一定水準でのデータの品質を担保した上で活用することが可能となります。

例えば、実際のデータと同様の傾向やパターンを示すことで、膨大な量が必要とされる機械学習による予測モデルの構築や分析への活用が可能です。さらに、これまではコンプライアンス違反防止やセキュリティ保持の観点から、組織内外でデータを活用・共有することが難しかった企業や自治体が、合成データの活用を通じて競争力を強化（外部分析リソースの活用やデータの外販）したり、新たなサービスを提供したりすることが期待されます。

合成データは元データが持つさまざまな変数（年齢や性別、職業、購入履歴など）が元の分布を満たしつつ、ランダムに置き換えられているため、個々のデータ自体の分析価値は低下しています。そのため、例えば個人の購買データを基にレコメンデーションを行うなど、一貫性のあるデータを必要とするケースには適さない点には注意が必要です。合成データ化しても問題ないビジネスケースとしては、機能開発や各種テスト時に入力データとして活用（本番環境に近い大量の個人データがコストをかけずに入手可能）する場合や、分析コンペなどにおいて外部リソースを活用してAIやアルゴリズムを利用する場合が挙げられます。

合成データの技術概要

合成データを作成するにあたっては、統計的分布、モデルベース、ディープラーニング、デジタルツインといった手法が活用されています（図表1）。それぞれ適用範囲が異なるため、元データの複雑さに応じて、適切な手法の選択や手法間での精度比較が必要と考えられます。

合成データの技術検証

ここでは合成データを実際に使用した際のデモを紹介します。合成データの評価にはUCI成人の国勢調査¹のデータセットを用います。データセットは複数の変数を持つテーブルデータで、年齢（Age）や人種（Race）などの個人情報を含みます。このデータをGaussianCopura²のモデルにより学習させ、合成データを生成した結果が図表2となります。ここでは元データの全ての変数を合成データ（図表2の下図オレンジ色）に置き換えています。年齢（Age）や週あたりの労働時間（Hours_per_week）などの数値データや、学歴（Education）、性別（Sex）などのカテゴリーデータも統計モデルで表現された確率分布でのサンプリングによって架空のデータに置き換えられています。合成データと元データの分布を比較した結果は図表3となります。平均値の30歳代を中心とする分布を大まかに再現できていることが分かります。

出所：Pythonを用いてPwCで作成

全変数が統計的な生成モデルにより合成データ化できたものの、特定の変数ではデータの品質に課題が見られました。例えば、学歴（Education）と教育年数（Education_num）などの相互に関係している変数同士もランダムに生成されるため、図表4のように「Doctorate（博士卒）」で高学歴であるものの、教育年数が短いといった矛盾が生じるデータも生成されていました。そのため、合成データを学習させて収入（Income）を予想するAIを作成するような場合には、元データよりもAIの精度が低くなる恐れがあります。

出所：Pythonを用いてPwCで作成

ここまでの簡易的な検証からも、合成データを活用する際には、生成される変数に一般常識やドメイン知識を前提とした制約（数値を特定の範囲に限定するなど）を課したり、データの品質を確認したりするプロセスも必要と考えられます。

ユースケース

ここでは、合成データの活用の代表的なユースケースを紹介します³。セキュリティやコンプライアンス上のリスクを低減する形で、データの共有が可能となることが合成データの大きな利点となります（図表5No.1〜4対応）。

また、個人情報データを合成データ化することで、データの保持期間を永続化させることや、データを学習した機械学習モデルのプライバシーを強化させることにも活用が期待されます。

合成データを活用した大規模なデータ共有

医療分野における研究や創薬開発には、大量の患者医療情報を必要としますが、治療や病歴などは、個人情報の中でも最もプライバシーに配慮されるべき要配慮個人情報に該当するため、データ漏洩を確実に防ぐ必要があります。一方で、感染症のように患者が急増する疾病では、迅速な対応のためにはリアルタイムでの情報共有が不可欠となります。複数の医療機関が保有する患者情報（個人情報）を合成データ化することで、他の医療機関に流出するリスクを低減しつつ、公的機関が合成データを取集し、一元的にデータベースとして管理することで、研究機関や企業が変化する感染症に対して迅速に患者データを活用することが可能となります。

合成データの課題

合成データを作成する場合、いくつかの課題があります。その際に発生する可能性のある一般的な制限と課題を以下に示します。

① 品質管理

データの品質は統計と分析において極めて重要です。データの信頼性がなければ、正確な分析や精度の高い予測は困難です。合成データを利用する場合、その正確性と信頼性を確保することが不可欠となります。ただし、実際の情報を隠蔽することでプライバシーとのトレードオフが生じ、データ品質に影響が及ぶ可能性があります。一般的に合成データに付加されるノイズが大きいほど、データ保護が可能となりますが、元データとの乖離が発生してしまいます。正確性の低いデータは誤った結論や低品質のAIモデルを生む要因となりますので、合成データを使うべきケースかどうかを吟味することが必要となります。

② データバイアス

合成データには、その生成過程で用いられるアルゴリズムや元のデータセットのバイアスが反映される恐れがあります。データの構造やパターンを再現することが目的となっているため、特定のパターンが増強され、誤った傾向の合成データセットが生じる可能性があるため、合成データの技術やツールを評価することが望ましいです。

③ プライバシー保護

合成データも万能ではなく、元データの統計的性質を残しているため、合成データや生成に用いるアルゴリズム、モデルから元データに関する情報が流出するリスクがあります。プライバシー保護を目的とする場合は、生成モデル自体を保護したり、差分プライバシーといった別のプライバシー強化技術と組み合わせたりすることも検討する必要があります。

今後の展望

生成AIなどの他領域の技術の活用が見込まれるため、合成データの生成手法は高度化が進むと予想されます。一方で、実用化に向けては活用と保護規制をともに保つ手法を開発する必要があります。2024年時点では合成データが個人情報に該当するかどうかも定まっていないため、実用化に向けては合成データ活用におけるガイドラインの策定など、法整備が必要となるでしょう。

まとめ

「合成データ」は個人情報を保護しつつデータ利活用を可能にする技術として注目されています。AI・データ活用における課題やプライバシー保護に関する規制の制定や施行が進展している中、統計的に生成された人工データである合成データは、データ不足やプライバシー保護の観点から重要視されています。そして、統計的分布、モデルベース、ディープラーニングなどの手法が一般的に使用されており、汎用なライブラリの開発も進められています。また、個人情報保護が特に厳密に求められる医療、金融などのエリアでの活用が期待されます。

合成データには品質管理やデータバイアス、プライバシー保護などの課題があることから、差分プライバシーなどのプライバシー強化技術と組み合わせることで、より強固なデータ保護を行いつつ、データ品質を担保する取り組みが行われています。合成データは技術面や法制度上も発展途上のため、法制度の今後の整備動向によって状況が大きく変化することが予想されます。データ利活用のユースケースに応じて、合成データ活用の検討やトライアルの実施などの体制作りも重要と考えられます。

¹ UCI Machine Learning Repository 「Adult Census Income」 https://archive.ics.uci.edu/dataset/2/adultより取得。データセットに含まれる変数の詳細は以下。
age：年齢、workclass：雇用形態、fnlwgt：回答者への重み、education：学歴、education-num：教育年数、marital-status：配偶者の有無、occupation：職業、relationship：続柄、race：人種、sex：性別、capital-gain：資本利得、capital-loss：資本損失、hours-per-week：週あたりの労働時間、native-country：生まれた国、income：所得

² 多変量確率分布の依存構造をモデル化するための関数で、多変量分布に対して、コプラを用いることで、個々の変数の周辺分布とそれらの変数間の相互作用を分離することが可能となる。

³ 参考
・Top 20 Synthetic Data Use Cases & Applications in 2023.　https://research.aimultiple.com/synthetic-data-use-cases/
・James, S., Harbron, C., Branson, J. et al. Synthetic data use: exploring use cases to optimise data utility. Discov Artif Intell 1, 15 (2021).

執筆者

N.Nishiura
アナリティクスインサイトアソシエイト、PwCコンサルティング合同会社

機械学習やシミュレーションの知見を活かして、主に官公庁でのAIやデータの利活用に関する市場調査、技術仕様策定、分析PoCなどのプロジェクトに従事。学術博士。

テクノロジー最前線―先端技術とエンジニアリングによる社会とビジネスの課題解決に向けて

合成データにより加速するデータ利活用―テクノロジー最前線 データアナリティクス&AI編（14）

AI・データ活用における課題

合成データとは

合成データの技術概要

合成データの技術検証

ユースケース

合成データを活用した大規模なデータ共有

合成データの課題

① 品質管理

② データバイアス

③ プライバシー保護

今後の展望

まとめ

執筆者

テクノロジー最前線―先端技術とエンジニアリングによる社会とビジネスの課題解決に向けて

データアナリティクス&AI編

エマージングテクノロジー編

エンジニアリング編

本ページに関するお問い合わせ

関連情報

データアナリティクス

テクノロジー最前線―先端技術とエンジニアリングによる社会とビジネスの課題解決に向けて

サイバーセキュリティ＆プライバシー インサイト・対談

PwC Japanグループ 採用情報

合成データにより加速するデータ利活用―テクノロジー最前線データアナリティクス&AI編（14）