能動的評価基盤による新たな評価の必要性

AIに係る信頼のエコシステムをつくるために

  • 2025-12-17

第1章:AIを評価することの重要性

AI技術の進展により、社会や産業における活用が急速に広がっています。これに伴い、AIの評価に対する政策的な関心も高まっており、2025年12月に公表された「人工知能基本計画(案)」では、日本国内のAI開発力の強化とAIガバナンスの主導に関する施策が明確に示されました。具体的には、AI評価基盤やテストベッドの整備、信頼できるAI基盤モデルの開発、そしてAIセーフティ・インスティテュート(AISI)の機能に関する抜本的な強化が挙げられています。

この政策は、内閣府、総務省、文部科学省、経済産業省、デジタル庁などが連携して推進しており、「日本の文化・習慣等を踏まえた信頼できるAIの開発・評価」や「質の高い日本語データの整備・拡充」を重視しています。AI評価において文化への適合性が重要な要素であることを示していると私たちは考えています。

国際的にも、AIに係る評価制度の検討が進んでいます。米国では、AIモデルの安全性評価を外交・安全保障戦略と連動させる取り組みが進められており、民間企業との任意の協定に基づいて共同で評価サイクルを運営することがはじまっています。英国では、倫理と透明性を重視した対策に加え、安全保障・防衛・犯罪対策を中心としたセキュリティガバナンスの取り組みが始まっています。中国では、生成AIに係る規制を通じて文化・価値観と国際標準との連動を図ろうとする動きが見受けられます。

さらに、AIソブリンティ(AI主権)という概念も注目されています。AIソブリンティ(AI主権)は、AIサービスの構成要素が自国にあり、文化・政治・経済安全保障が守られてバイアスがない状態を指します。バイアスへの懸念が明示され、利用者が評価結果に容易にアクセスできる制度や技術的な枠組みの整備が求められていると考えます。

図表1:AIソブリンティ(AI主権)とその分類(弊社案)

差込

本稿は、「人工知能基本計画(案)」に含まれる多様な施策のうち、AIの信頼性を支える評価のあり方に焦点を当てるものである。なかでも、監査・第三者評価は、評価結果の社会的な受容と説明責任を支える重要なメカニズムと考えており、監査法人として培ってきた独立性・客観性・品質管理の考え方を参照しつつ、AI評価の現実的な設計と、制度として成立させるための論点を整理していきます。

第2章:AIの評価に係る課題と目指す方向性

現在のAI評価には、いくつかの課題が存在しています。静的な評価データに基づくベンチマーク的な評価が多いこと、自己申告に基づく評価が多く客観性が不足していること、結果の再現性は高いが未知の弱点を発見するための、AIの進化に対応した評価ができていない可能性が高いことです。さらに最近は、アウトプットに至るまでの推論や経緯の評価が注目される傾向があります。固定された評価項目に基づく採点では、リストやガードレールを学習させて出力をコントロールできてしまい、本来の評価の意味が失われる可能性があります。こうした課題を解決するには、従来の評価に代わる新たな評価手法と制度の整備、運用するための枠組みの確立が必要であると考えます。「人工知能基本計画骨子案」が議論された第2回人工知能戦略専門調査会(2025年11月4日)の「人工知能基本計画骨子案に係る関係省庁の取組について」で、総務省の施策例として、AIの進化に対して柔軟で動的にAIの信頼性を評価する能動的評価基盤の構築に向けた研究開発等を推進することが述べられています。私たちは、この能動的評価基盤が、従来の評価の課題解決を目指すものと考え、現在のAIの評価に係る課題から解決の方向性を整理しました(図表2)。

図表2:AIの評価に係る課題と解決の方向性

差込

能動的評価基盤を利用した評価の枠組みを整理しました。

  • 動的評価(継続更新):モデルの過学習を防止し現実への適応力を測定。
  • 実務タスク評価:業務遂行能力を測定。例:行政文書の自動生成、法令検索の正確性。
  • 文化特化評価:言語・文化への理解度を評価。例:敬語表現の適切さ、地域固有の言い回しへの対応。
  • 理由付け・説明理解の評価:出力の理由づけや説明の一貫性を確認。例:政策提案の根拠説明、複雑な指示への対応力。
  • 評価の監査:評価者の偏りを検出し、評価手法の透明性を確保。例:採点モデルの説明可能性の検証。

第3章:能動的評価基盤の運用を見据えた論点

能動的評価基盤の運用における論点を整理しました。

論点1:評価対象の範囲
AI開発事業者のみか、AI提供事業者も含むか

評価にあたって、評価対象をAI開発事業者のみに限定するか、開発されたAIを提供するAI提供事業者も対象とするのか、評価対象の範囲によって対象となる企業数が大きく異なるため評価制度の運用にあたって考慮すべき事項が異なる可能性があります。

開発事業者のみを対象とする場合

対象企業数は少ない可能性が高く、評価制度を継続して安定的に運用するためには企業数を増やすための施策の重要性が高くなります。スタートアップを含めてAI開発事業者を増やすために、以下のような施策が必要です。

  • 開発促進施策:投資減税など
  • 開発支援:正しい日本語の学習データの提供など
  • スタートアップを含むAI開発事業者のニーズと課題を把握し、環境や市場を整えるための公的な支援制度の組み込み

提供事業者も対象に含む場合

対象企業数が膨大になるため、評価制度を運用するうえで評価に要する時間と費用の負担を解決することの重要性が高まります。例えば、AIセーフティ・インスティテュート(AISI)による評価制度の運営支援など実効性のあるスキームの検討が欠かせません。検討にあたっては、クラウドセキュリティに関するISMAP(政府情報システムのためのセキュリティ評価制度)を参考とすることも有効と考えます。

論点2:評価のタイミング
一時点での評価とするか継続的な評価とするか

一時点での評価をもって制度を運用する場合、AIは時々刻々と進化し続けるため、評価自体が陳腐化してしまい、結果として評価の信頼性が十分に得られず、制度自体がうまく機能しなくなることが懸念されます。一方で評価を継続して行うには多くの費用がかかるため、十分な投資ができる企業だけが評価を受けられるようになります。すると、AI開発事業者やAI提供事業者の市場が大規模な企業に限定され、特定企業による独占を招き、最終的に利用者にとって不利益となることが心配されます。

一時点での評価とする場合、適切な状態維持・管理のプロセス評価や定期評価をあわせて行う必要があります。これは先行して実施されているISMAPに近いものです。

継続的な評価、いわばパフォーマンスのモニタリングの場合、評価側と被評価側が連携し、実運用を支援する仕組みが必要となります。例えば、データ連携、パフォーマンス低下対応など、評価をした結果を業務に役立てるような評価側と被評価側の双方にメリットがある関係づくり、役割分担をデザインすることが必要です。例えば、EUのAI規制のサンドボックス制度の利活用について今後、研究が進むとその結果が参考になる可能性があります。さらに、継続的な評価を行う場合、進化するAIに対応するための評価システムの継続的な改良・更新が不可欠となります。評価にAIを用いる場合には、その計算資源・データ整備・運用人材の確保といった運用コストも無視できないため、評価制度および評価システムの持続的な運用コストを確保するための制度設計も重要となります。基盤的機能の整備等の社会的安全に直結する部分は国の継続的投資により支えつつ、評価の実施・更新に係る費用については被評価者が一部または全額を負担する仕組みを組み合わせるなど、持続可能なスキームを構築する視点が必要となります。

論点3:評価スキームの主体

論点1、論点2のいずれとするかによらず、評価は公的なお墨付きや他施策との整合性の点から、AISIが主体となるスキームが望ましく、AISIを中心として民間企業をその周辺に補完する役割として配置することが継続性とインパクトの点から有効と考えます。

論点4:監査・第三者評価について

AIの評価制度について会計監査と同等な保証を伴う「監査」とすることは論点1から論点3の整理がついた後でも実現にあたっての障壁が高いと考えます。会計監査制度は、長い歴史の中で、監査する側とされる側、当局が相互に理解を深めながら合理的、妥当かつ現実的な枠組みを相互理解を図りながら作り上げてきた経緯があり、会計監査と同等な保証を前提とした制度を作るためには、長い時間と関係者の相互理解に要する負担を必要とすると想像されます。会計監査に代わる現実的な評価の枠組みとしてISMAPが考えられます。ISMAPは、AUP(合意した手続きを行う)モデルであり保証とは異なるものですが、手続き面から遵守状況をチェックすることでパフォーマンスも妥当であると見なすことを前提としています。日本以外、例えばドイツでの保証スキームの検討の状況について今後、詳細を調査することが有効と考えます。

評価の対象は、評価AI自体となる可能性があります。評価AIを使用して評価を行う場合、評価AIが正確であることについては開発元の組織が担保する必要があります。AISIなど国の機関の支援を受けてAI開発事業者やAI提供事業者を評価する企業は、評価先となるAI開発事業者やAI提供事業者に対して評価を得るためのアドバイスを提供することは利益相反につながるため、慎重に取り扱うべきであり、利益相反につながらないように役割・情報・意思決定プロセスを分離し、透明性を担保する設計が不可欠です。例えば役割の区分については以下の整理が考えられます。

  • 役割の区分例
    ①制度整備段階:評価スキームの検討・設計においてAI開発事業者やAI提供事業者の技術知見を取り込み、制度を共同で整備することは制度の公共性・妥当性を高める範囲で許容され得る。ただし、関与範囲・意思決定の透明性等を明確にし、特定企業に有利な設計とならないよう管理する。
    ②制度運用段階:評価機関として実施する評価業務と、被評価者に対する支援業務が同一主体・同一チームで並走することは慎重に取り扱うべきである。評価の独立性を損なわない条件(体制分離、情報遮断、第三者レビュー、監督機能)を整理したうえで、必要に応じて実務支援の範囲を制度上定義する。
  • 評価結果の活用
    評価結果については広く内外に公表したうえで、事業会社や行政が評価基準を満たすAIサービスの利用を促進することに重点を置く必要があります。加えて、評価の結果明らかになる可能性が高いデータの不足やデータの汚染状況から、AIの開発に必要なデータの提供を行うなどAIの開発を後押しする施策の立案に結び付けることが考えられます。

第4章:AIの監査/認証

AIに係わる社会的な信用創造と説明責任を果たすためには、独立性・客観性・専門性をもち、品質管理態勢を整備・運営している組織によりAIを監査/認証することが望ましいと考えます。「AIガバナンスに資するAI監査の実践に向けて」においても、AI監査を今後適切に進めて行くために、AI監査の制度設計の整備などについて提言されています。監査/認証する際の論点として、(1)AI監査の位置づけ、(2)AI監査/認証の対象、(3)AIガバナンス・体制の整備に係る管理基準、(4)AI監査人/認証者の独立性・客観性・専門性に係る属性基準、(5)AI監査/認証の計画策定に係る基準(リスクベースアプローチ)、(6)AI監査/認証の実施に係る評価基準、(7)AI監査/認証に係る報告とフォローアップに係る基準、(8)AI監査/認証に係る開示基準等が考えられます。

図表3:AI監査/認証の関係者および論点

差込

(1)AI監査の位置づけ

監査には「法定監査」と「任意監査」の2つがあります。法定監査とは金融商品取引法等の法律によって義務として定められている監査であり、任意監査とは法的に義務付けられていない監査です。法定監査は法律で定められた規格や手順に従って監査を行う必要がありますが、2025年11月現在、日本ではAIに特化した法定監査の根拠となる法律は存在しません。

任意監査には「内部監査」と「外部監査」の2つの方法があります。内部監査は社内で監査人を選定し実施する方法であり、外部監査は独立した外部の監査法人や公認会計士に依頼し監査を受ける方法です。任意監査は、法定監査に比べて柔軟ですが、監査の目的・対象・基準を個別に設定する必要があります。そのため、AI監査の妥当性を担保するために、評価の基準として、国内・国際ルール、経営者、監査人、認証機関などの関係者が順守すべき統一的な基準の合意が求められます。

また、ISO/IECやIEEEなどの団体がAIに関する標準規格を検討しており、将来的に、各事業者のAIサービス/システムやAIに係わるマネジメントシステムが国際的な標準規格に適合しているか審査・認証するニーズが発生することも考えられます。AIのマネジメントシステムについての標準規格としては、既にISO42001が発出されており、認証が進められています。

これらのAIに係わる監査/認証業務の公共性に鑑み、監査/認証業務の適切な質的水準の維持、向上を図り、監査/認証に対する社会的信頼を確保することを目的として、監査/認証の品質管理状況を評価し、監督するメカニズムが求められます。

(2)AI監査/認証の対象

AI監査/認証の対象について社会的な合意が求められます。例えば、稼働している、あるいは実用化を前提とした稼働前の個々のAIサービスやシステム自体を監査の対象とするケースや、サービスを提供する組織で実施されているAIマネジメントシステムを対象とするケースが考えられます。また、単一の組織ではなく、組織間をまたぐサプライチェーン/データ流通を念頭に置いたケースも考えられます。

一方で、監査の対象が限定的であることに加えて、その保証内容についても制約や限界があります。例えば、AIの精度や正確さをテストするための性能ベンチマークが標準化された分野については、自動テストなど効率的に乖離性を評価するツールによる保証手法の採用を目指すことも考えられます。しかし、AIマネジメントシステムを対象にした場合についてはそのようなツールの適用は困難です。また、社会的影響の評価や公平性の問題では、評価の閾値について共通の基準として合意することは難しいと想定されます。さらに、規格や標準のない状況での保証は、主観的な判断に基づく保証が行われることで、誤った信頼を生じさせる可能性や、合意された標準がない場合において、保証利用者の満足を得られない可能性もあります。また、確率的な評価に対して確実性を提供しようとすることも課題です。

AI監査に対する社会的な要求事項や期待水準に対し、保証内容に齟齬が生じるおそれがあります。

(3)AIガバナンス・体制の整備に係る管理基準

AIシステム/AIサービスの利活用のあるべき姿を示すAI戦略の方針や体制などのガバナンスに関する管理基準とAIシステム/AIサービスの開発・運用等のマネジメントに関する管理基準が求められます。統治機関である取締役会等、マネジメント(1線、2線)、内部監査(3線)の役割と責任を明確にすることが求められます。

管理基準の策定はAI事業者の責任であるため、戦略実現とリスクコントロールに向けた方向づけ、モニタリング、評価を回していく必要があります。例えば、ガバナンスの役割としては、ステークホルダーの期待を受けて、経営陣によるAIガバナンスの実践のための直接的な活動に関わる基準やAIガバナンスの実践を支える活動に関わる管理基準が考えられます。マネジメントには、組織体制やプロジェクト管理に係る管理基準、AIシステム/AIサービスに加え、付随するデータ・オペレーションに係る管理基準、AIモデルのライフサイクルに係る管理基準、外部サービス管理や人的資源などの関係する管理基準を整備・運用・改善していく責任があります。

(4)AI監査人/認証者の独立性・客観性・専門性に係る属性基準

信頼性を確保するため、AI監査/認証実施者の独立性・客観性・専門性などの要件や品質マネジメント体制等の属性基準が求められます。AI監査/認証の実施には幅広いスキルや経験による多様な専門性が求められます。監査に対するニーズを十分に把握したうえでAI監査業務を行い、AI監査の品質が確保されるための体制を整備することが求められます。

(5)AI監査/認証の計画策定に係る基準(リスクベースアプローチ)

AI監査/認証を行う場合、業種の特性・法規制を踏まえた上で、サービスのリスク及びAI監査/認証業務の実施に係るリスクを考慮するリスクアプローチに基づいて、監査計画を策定する必要があります。

AIに係わるリスクを識別・評価し、リスクの水準に応じた対応策を図りながら、許容可能な水準までリスクを低減させることが求められます。AI監査の実施頻度、深度、範囲などは、リスクの性質と整合的であるべきです。

具体的なリスクや影響を受ける当事者は分野によって異なり、例えば、医療、金融、交通ではまったく異なるリスクが生じます。また、個々のユースケースでもリスクは異なります。

(6)AI監査/認証の実施に係る評価基準

AI監査/認証手続を設計するための標準化された評価基準の策定が求められます。将来的に、新たなリスクや監査上の論点の登場なども想定されるため、AI監査の制度や手法についても評価基準と併せて見直しを行う必要があります。AI監査のタイミングとしては、ライフサイクルすべてが監査対象になると想定されます。AIシステム/AIサービスそのものがアジャイルに改善されながら拡大、発展していくことに鑑み、システムやサービスの企画・設計そのものに信頼を盛り込むために、より一層上流の工程から継続的な監査をしていくことが求められます。

(7)AI監査/認証に係る報告とフォローアップに係る基準

監査/認証の目的に応じた適切な形式の報告書を作成し、遅滞なく監査/認証の依頼者に提出することが求められます。改善事項がある場合、改善計画及びその実施状況に関する情報を収集し、改善状況をモニタリングすることが求められます。

(8)AI監査/認証に係る開示基準

リスク分析や評価結果を踏まえて開示要否および開示先を決定する基準が求められます。また、取締役会は、適時かつ正確な情報開示が行われるよう監督を行うことが求められます。

AI事業者ガイドラインなどの行動規範の履行確保をするためには、開発者にリスク低減措置等の履行や透明性向上に向けた情報の開示を促すための枠組みが求められます。その際、上記の8つの論点の検討および社会的な合意も必要となります。外部監査や認証を実施しない場合は、(4)~(7)を検討する主体はAI事業者となります。

引用資料一覧

  • 「人工知能基本計画骨子」2025年11月 内閣府
  • 米国「America’s AI Action Plan」2023年11月
  • 英国「AI Safety Summit」2023年11月
  • 中国「生成式人工智能服务管理暂行办法」2025年7月

執筆者

林 泰弘

パートナー, PwCコンサルティング合同会社

Email

山本 直樹

パートナー, PwCコンサルティング合同会社

Email

綾部 泰二

パートナー, PwC Japan有限責任監査法人

Email

今井 政行

パートナー, PwC Japan有限責任監査法人

Email

平岩 久人

パートナー, PwC Japan有限責任監査法人

Email

安本 哲宏

パートナー, PwC Japan有限責任監査法人

Email

{{filterContent.facetedTitle}}

{{contentList.dataService.numberHits}} {{contentList.dataService.numberHits == 1 ? 'result' : 'results'}}
{{contentList.loadingText}}

{{filterContent.facetedTitle}}

{{contentList.dataService.numberHits}} {{contentList.dataService.numberHits == 1 ? 'result' : 'results'}}
{{contentList.loadingText}}

本ページに関するお問い合わせ