最先端を走る研究者に聞く

フィジカルAIを活用したロボット学習の展開

  • 2026-04-06
(左から)三治 信一朗、Katerina Fragkiadaki氏、金出 武雄

(左から)三治 信一朗、Katerina Fragkiadaki氏、金出 武雄

2025年10月、PwCコンサルティングは「フィジカルAIを活用したロボット学習の展開」をテーマとした講演を開催しました。ゲストスピーカーとしてカーネギーメロン大学でGenesisプロジェクトを率いるKaterina Fragkiadaki氏を招き、スペシャルアドバイザーの金出武雄とともにフィジカルAIの現在地、その背景にあるロボティクス技術、実用化に向けた今後の展望について話を聞きました。
講演の前半は、Fragkiadaki氏によるプレゼンテーションを通じてロボティクスの技術と課題について理解を深めました。
後半では、講演のオーディエンスから事前に受け付けていた質問に対し、Fragkiadaki氏と金出が回答しました。本稿では、その内容を紹介します。

プロフィール

Associate Professor
Machine Learning Department
Carnegie Mellon University School of Computer Science
Katerina Fragkiadaki氏

PwCコンサルティング合同会社
Technology Laboratory スペシャルアドバイザー
金出 武雄

モデレーター

PwCコンサルティング合同会社
執行役員 パートナー
Technology Laboratory 所長
三治 信一朗

※法人名、役職などは掲載当時のものです。

ロボットの「移動」の革新的技術

Fragkiadaki氏によるプレゼンテーションは、近年のロボットの移動動作と、それを支える技術の解説からスタートしました。

ロボットの移動は、GPU(画像処理装置)上でディープニューラルネットワーク(DNN)や物理エンジンを実行できるようになり、膨大な学習用の事例や経験を生成、蓄積できるようになりました。このような革新的な成果をもたらしたのが「プロプリオセプション(固有受容感覚)によるアダプティブポリシー」だとFragkiadaki氏は説明します。

Carnegie Mellon University School of Computer Science Katerina Fragkiadaki氏

Carnegie Mellon University School of Computer Science Katerina Fragkiadaki氏

「アダプティブポリシーは、周囲の環境変化、不確実性、人の動作などに合わせて、ロボットが自らの行動基準(ポリシー)を自律的かつリアルタイムに調整して学習する技術です。ロボットは、重さ、速度、角度、摩擦といった物理法則を計算する物理エンジン上で強化学習を通じて訓練されます。
例えば、土や石などの上をロボットに歩かせるとき、シミュレーション環境では、質量、重心、摩擦、地形の高さ、モーターの強さといった特権ポリシーを学習させます。『特権』は、それら物理的なパラメーターにロボットがアクセスできる権限を持っていることに由来します。ロボットはこれらの情報、直前の状態、行動を基にして、次の行動を予測してシミュレーション環境で歩き方を学習します。」

しかし、この方法は現実世界では使えません。なぜなら現実の物理パラメーターは未知の情報で、ロボットがそれらにアクセスできる『特権』がないからです。

「そこでアダプティブポリシーを用います。物理パラメーターが未知の情報である状況では、『行動』と『状態』の履歴を参照して結び付ける『ポリシー』を学習させます。『行動』はロボットに指示した目標、『状態』はロボットが達成した結果のことです。この履歴が新しいセンサーとして機能します。ロボットに指示した内容(歩く)と、実際の結果(歩けた、歩けなかった)を比べることで、ロボットはプロプリオセプションによって周囲の環境を推測できます。」

プロプリオセプションは、ロボットが自分自身の関節の角度、速度、力、姿勢などを感知して自分の状態を感知する力です。カメラ(視覚)、LiDAR1(距離)、マイク(音)などのセンサーで取得する外部情報による感覚(エステレセプション)に依存せず、プロプリオセプションによって環境の物理情報を推測しながら特権ポリシーを模倣するように訓練する点がアダプティブポリシーのポイントです。Fragkiadaki氏によれば、この手法を用いることで、既存のポリシーを細かく調整し直すことなく現実世界で使えるようになります。また、ヒューマノイドにも応用できます。

1 Light detection and ranging:レーザー光を使って対象までの距離や形状を高精度に計測するセンサー技術

多様な素材のシミュレーションができるオープンプロジェクト

ロボティクスの移動動作について確認した後、プレゼンテーションではロボットの物体動作について言及しました。
ロボットを生活の中で活用するためには、人やモノと関わりながら作業をこなせるようにする必要があります。しかし、現状はまだ技術革新が起きていません。例えば、ロボットがグリッパーを使ってモノをつかんだり、緻密な作業をしたりできるようになりましたが、その操作は人が遠隔で操作しています。

「ロボットの汎用化では遠隔操作のデータを大量に集めることが不可欠です。しかし、それを個々の企業や研究所が集めるのは困難です。そこで私たちは、移動動作と同じようにシミュレーション学習で実現する方法を考えました。
モノをつかんだり移動させたりするためには、対象の素材や形などを判別しなければなりません。また、3Dグラフィックスでは、固体、液体、気体、柔らかさ、薄さなどさまざまな対象を再現するアルゴリズムが数多くあり、優れた成果も出ていますが、それらは一元管理されていないためロボットの学習やテストに活用できません。
例えば、シミュレータは、剛体や半剛体を扱うものもあれば砂や粒状の物質など変形する環境を扱うものもあります。しかし、全てを扱えるシミュレータはありません。」

そこで、Fragkiadaki氏たちはGenesisプロジェクトを立ち上げました。これは、1つの環境で多種多様な素材のシミュレーションができるようにすることを目的としています。

「シミュレーション結果と映像を照合することによって物理特性を推定します。現状はまだ、粒状の素材や布などのように変形する素材の高速な経験収集には時間がかかりますが、物理エンジンの改良が進んでいます。」

Genesisはオープンソースで公開され、現在も開発が進んでいます。シミュレーションで学習したモデルを現実世界に用いるSim-to-Realの取り組みでは、グリッパーなどを使って対象を移動させたり、向きを変えたりするための強化学習が進んでいます。

課題1 2Dから3Dへの生成の負荷軽減

次に、プレゼンテーションは、フィジカルAIの活用や実用化に向けた今後の課題に焦点を当てました。

まずは物理エンジンに入れるシーンやアセットの自動化についてです。
現状、この作業には多くの手間がかかっています。しかし、Fragkiadaki氏は、ここに「コンピュータービジョン」が活用できると言います。

「従来、2Dから3Dへの変換は、自由度が高すぎるため曖昧さが大きく、解決できないとされてきました。しかし、最近のコンピュータービジョン分野では、画像や映像からの3D化が可能になりつつあります。学習さえできれば曖昧さの問題も解決できます。そこで私たちは、コンピュータービジョン技術と、2Dから3Dへの生成モデルを使い、メッシュ、テクスチャー、シーン、タスク設計、報酬設定といったパイプラインの全工程を自動化したいと考えています。」

課題2 シミュレーション環境での評価

次に、評価やベンチマーク方法の効率化です。
ロボットポリシーを基盤モデルや汎用ロボットとして複数の環境下において複数のタスクをこなせるようにしていくためには、その性能の評価が必要です。
しかし、これも手間と時間がかかります。また、既存のシミュレーション環境は限定された狭い領域にとどまるため、現実世界での評価には適しません。

「複数の言語モデルを実際に試して比較できる先行のオープンプラットフォームにも着想を得ながら、この課題の解決策として私たちは、RobotArena ∞(Robot Arena Infinity)を開発しました。
方法としては、まずシミュレーション上で動くロボットに対して、その動作を撮影するカメラの位置を決めます。これをロボット・カメラ・キャリブレーションといいます。次に、カメラの向きと位置を最適化して3Dの実行映像を生成します。それをユーザーに見せて、左が良いか、右が良いか、または引き分けかを評価するインターフェースを作成します。その結果を集計し、評価をまとめます。」

現状はまだ初期バージョンですが、Fragkiadaki氏はユーザーがタスクを指定できる仕組みにしていく予定だと話します。
さらに、プレゼンテーションでは、対象の動きをトラッキングする技術動向について説明しました。

「従来の動作のトラッキングは、対象を複数の点の集合体と捉えて、各点の動きを追いながらモーションをとらえます。この方法は、対象が隠れてしまった時などに軌跡を追えなくなるという課題がありました。しかし、現在はSim-to-Realを使った『完全教師あり学習』により、隠れた部分の軌跡を推定する手法が使われるようになっています。」

パフォーマンス向上の新たな取り組み

プレゼンテーションの最後は、VLM(視覚言語モデル)の空間認識を高め、より賢くする方法について触れました。

「最近のVLMは、取り込んだ映像をパッチに分割してトークン化(視覚トークン)します。そのため、情報量の多い長い映像を取り込むと、トークンが、VLMの一度に処理・記憶できる情報の最大量であるコンテキストウィンドウから溢れてしまい、処理に大きな負荷がかかります。
そこで私たちはトークンに含まれる位置と時間の情報のうち、時間の情報を使わず、位置情報(xy座標/xyz座標)を使うモデルを開発しました。これにより、時間の変化によって別のトークンとして扱われていた対象を同じものとして認識させることができるため、全ての映像のフレームをパッチ化してVLMに投入する必要がなくなり、映像信号を圧縮することとしました。」

また、ロボットの動きを生成する『アクショントークン』も座標(xyz座標)を持ちます。これを使い、視覚情報とアクション情報を同じ3D座標に置くことで、言語指示とロボットのプロプリオセプションに基づきアクショントークンを予測できます。
この仕組みを踏まえ、3D情報をロボットの操作ポリシーやVLMに組み込むことで、現行の最先端技術よりも高いパフォーマンスを実現できます。その可能性を示して、Fragkiadaki氏はプレゼンテーションを締めくくりました。

質疑応答 フィジカルAIの実装と課題

トークショーの後半では、講演のオーディエンスからフィジカルAIやロボティクスに関して事前に受け付けていた質問に対し、Fragkiadaki氏と金出が回答しました。以下、回答の一部を紹介します。

PwCコンサルティング合同会社 Technology Laboratory スペシャルアドバイザー 金出 武雄

PwCコンサルティング合同会社 Technology Laboratory スペシャルアドバイザー 金出 武雄

Q:フィジカルAIはいつから実用化されると思いますか?

Fragkiadaki氏:
ロボティクスは用途が広範囲で、ロボットに求めるタスクの難易度によって実用化までの時間が異なります。また、タスクの内容や各企業のロボティクスへの投資状況によっても異なります。
現在はまだ実用化に向けた投資の時期ですが、今後は使いやすさの向上に伴って活用例も増えていくはずです。フィジカルAIやロボティクスに投資をしていない企業もこれらをツールとして使えるようになります。

Q:実用化に向けたスピードは以前よりも上がっていますか?

金出:
実用化のスピードは業界や業種によって異なりますが、全体的な傾向としては、すでにデジタル化が進んでいる業界や業種ほどアイデアの適用が早く進んでいます。
また、ロボットに任せる作業の複雑さにも影響を受けます。例えば、倉庫での荷物のピックアップは対象とする物体の形状が単純です。そのため、モデル化や転用もしやすいといえます。一方で、複雑な形状の物体などはまだ十分にモデル化されていません。このような違いが実用化のスピードに影響すると思います。

もう1つ重要なのは、タスクの動画データの質です。単に高度なタスクの動画であるかどうかでデータの質が決まるのではなく、そのデータにどれだけ正確な情報が含まれているかで決まります。ロボットは動画からさまざまな情報を学ぶため、推測の必要性が少ない正確なデータほど学習の質が高くなり、モデル化の結果も向上するのです。
実用化を急ぐためには、ランダムな動画や断片的な情報ではなく、精度の高い学習データの生成に注力することが重要です。それらを学習と結び付けられればデータの質が向上し、成功率も高まるはずです。

三治:
個人的には、技術の進歩するのに併せて、人間の能力向上も必要だと感じています。

Q:フィジカルAIの社会実装はどのようなステップで進んでいきますか?

Fragkiadaki氏:
流通業の倉庫や郵便局ではすでにピック・アンド・プレース作業にロボットを使用しています。これはシミュレーションで箱の吸着位置を学習したロボットが、吸着グリッパーで箱を持ち上げて移動させるものです。また、1日に何百万回もの作業を繰り返しながら、その経験を基にさらに箱を持ち上げる際の吸着位置を学習していきます。本の表紙を吸着すると落ちてしまうため、ずれにくい側面を吸って持ち上げるといったことを学ぶのです。このようにルールの定義や物体のタイプの分類がしやすい作業は早期に実装が進むと思います。
一方で、複雑な作業をこなすためには高度な動きが必要で、実装は後になるでしょう。例えば、厨房のシェフはさまざまな道具を使って繊細な作業をします。これをロボット化するためには、大量の対象物を覚えさせ、特殊なグリッパーも必要になります。

Q:クリエイターや開発者がロボティクスを身近なツールとして使えるようになるためにはどのようなブレークスルーが必要ですか?

Fragkiadaki氏:
オープンソースの手法が公開され、画像からシーンを生成できるようになればクリエイターはすぐにでも使い始められると思います。これは近いうちに実現されると思っています。複雑なタスクを実行させる方法としては、自前のロボットに1つのスキルから学ばせるのではなく、複数のスキルを順番に、あるいは同時に組み合わせるのが良いと思っています。この取り組みもこれから進展していくと思います。

Q:人口が減少している日本では、製造業を中心にフィジカルAIの活用が期待されています。その過程にはどのような課題がありますか?

金出:
Genesisプロジェクトが成功している要因の1つはオープンシステムであることです。多くの人が参加して改善に貢献することでシステムが成長します。業界の人たちが「自分だけがこのシステムで得をしたい」「この機能はオープンシステムで公開したくない」と自分本位の考えをすると、オープンシステムの理念が発揮されません。海外と比べて日本の各産業にはその傾向があるように感じます。その引力に負けないことが成功の鍵だと思います。

三治:
私たち次第だということですね。

PwCコンサルティング合同会社 パートナー 三治 信一朗

PwCコンサルティング合同会社 パートナー 三治 信一朗

Q:フィジカルAIのさらなる進化に向けて、次はどのようなデータが重要になりますか?

金出:
今後は家庭用ヒューマノイドを含めて多くのシステムの中に「人」の要素が関わってきます。そのため、特定の状況における人の行動のモデル化や、その分布を理解することが必要になります。人と共存する環境でロボットを効果的に動かすために、開発のシミュレーション環境に人の要素を含む必要があるわけです。
私が所属していた研究施設では「人間は世界で最も複雑で未解明なシステムだ」というスローガンを掲げていました。これは真理で、今も変わらない真実だと思います。つまりこれからは、人間のモデリングが次の大きなテーマだと思っています。

主要メンバー

金出 武雄

Technology Laboratory スペシャルアドバイザー, PwCコンサルティング合同会社

Email

三治 信一朗

パートナー, PwCコンサルティング合同会社

Email

{{filterContent.facetedTitle}}

{{contentList.dataService.numberHits}} {{contentList.dataService.numberHits == 1 ? 'result' : 'results'}}
{{contentList.loadingText}}

{{filterContent.facetedTitle}}

{{contentList.dataService.numberHits}} {{contentList.dataService.numberHits == 1 ? 'result' : 'results'}}
{{contentList.loadingText}}

本ページに関するお問い合わせ