MLOps実現に向けて抑えるべきポイント―テクノロジー最前線データアナリティクス&AI編（13）

MLOpsニーズの高まり

2010年代から第三次機械学習ブームが到来し、広く機械学習の実用化が進むようになるにつれて、ソフトウェア開発で使用されていたDevOpsの考え方を機械学習モデルの運用に反映したMLOps（Machine Learning Operations）のニーズが増加しています。

一方でMLOpsの考え方は、クラウドベンダーごとに定義が異なっていたり、MLOpsに精通していない場合には読み解くことが難しかったりすることがあります。

そのため、MLOpsを始めたい方にとっては、これらの各種定義や考え方を理解することが最初のハードルとなってしまいます。

そこで本記事では、MLOpsの実現レベルを評価する上で重要となるMLOpsの達成度に関して、可能な限り簡易な表現を用いて解説します。また合わせてMLOpsを始める、もしくはレベルアップを行う上で抑えるべきポイントを紹介します。

MLOpsの達成度

MLOpsの達成度を客観的に評価する観点として、各クラウドベンダーが独自にMLOpsのシステムや運用のレベルに応じた評価観点を設けています。

クラウドベンダーごとに表現などが異なりますが、概ね下記のレベルで分類が可能です。

Lv.0：特にMLOpsを実行していないレベル（手動で機械学習モデルを構築するレベル）
Lv.1：機械学習モデルの再学習を自動で実行できるレベル
Lv.2：機械学習モデルの高度化に柔軟に対応できるレベル

再学習とは、機械学習モデルに（特徴量に変更はなく）単に新たな学習データを追加して、トレーニングを再実施することを指します。

高度化は、本記事では機械学習モデルに新たな特徴量や新たなアルゴリズムを採用するなどして機械学習モデルの精度を向上させることを指します。

用語の整理

MLOpsでは機械学習モデルを作成する学習パイプライン(図表1の1、以下「学習PL」)と、機械学習の予測結果を出力する推論パイプライン(図表1の3、以下「推論PL」)が存在します。

推論PLは、例えば小売店のWebページで、ユーザーの情報に応じて機械学習モデルが推薦商品を出力するようなケースが考えられます。

上記のケースではWebアプリケーションから受け取った値に対して前処理などを実施し、機械学習モデルで予測し、Webアプリケーションに予測結果を返すような一連のプロセスが推論PLとなります。

共に「パイプライン」と表現されている通り、基本的にはシステム化されていて自動もしくは半自動で実行されるものになります。

また本記事では、学習PLで作成した機械学習モデルを推論PLに反映させることをデプロイ（図表1の2）、推論PLの予測結果を確認するモニタリング（図表1の4）と呼称します。

MLOpsの達成度Lv.0の概要と課題

MLOpsのLv.0では自動での機械学習モデルの作成は実施していないため学習PLは存在せず、データサイエンティストが開発で利用する環境をそのまま利用します。

また、推論PLにデプロイされた機械学習モデルのモニタリングなどは想定していません。

そのため、Lv.0で生じる課題の例としては主に下記が想定されます。

データサイエンティストが手順を誤って機械学習モデルを構築したため、機械学習モデルの予測がうまく機能しない
機械学習モデルの構築手順が属人化しており、新しい機械学習モデルの構築ができない
推論PLで動作している機械学習モデルの精度が検証できない

これらの課題に対して、MLOps Lv.1では学習PLを用意することで機械学習モデル構築のシステム化を進め、モニタリング機能を用意することで推論PLの予測値の監視を進めることになります。

MLOpsの達成度Lv.1の概要と課題

MLOpsのLv.1では機械学習モデルの自動構築と推論PLのモニタリングが実現でき、初めてMLOpsのループを繋げることができるようになります。

Lv.1では新たにいくつかの用語が登場するため、それぞれの役割を説明します。

まずはデータサイエンティストの開発環境と学習PLを繋げるコードレポジトリー（図表3の右上）です。コードレポジトリーにはデータサイエンティストが試行錯誤で利用したソースコードが格納されます。格納されたソースコードは“人手”により学習PLで動くように修正／適用されます。

次に学習PLで自動的に生成された機械学習モデルはレジストリー（図表3の上から3段目）に登録されます。このレジストリーに機械学習モデルの構築に利用したソースコードなどを含めて格納することで、モデル構築の透明性を確保します。

そして推論PLにデプロイされた機械学習モデルは常時モニタリング機能を用いて監視され、必要に応じてアラームを上げるように設計する必要があります。

最後に特徴量ストア（図表3の2段目左）です。MLOpsではデータサイエンティストの開発環境と学習PLおよび推論PLが可能な限り同じデータベースを参照できることが望ましいです（理由は後述します）。

Lv.1での課題は学習PLとデータサイエンティストの開発環境が連動していない点です。基本的にLv.1の学習PLで構築できる機械学習モデルは学習データの増加に伴う再学習です。そのため新しい特徴量の生成や新しいアルゴリズムの採用などのデータサイエンティストの試行錯誤を学習PLに反映させるには、システム開発が都度生じることとなります。

この課題に対してMLOps Lv.2ではCI/CD（後述）の強化を進めることとなります。

MLOpsの達成度Lv.2の概要

MLOpsのLv.2ではデータサイエンティストの開発環境と学習PLの間にCI/CD（図表4の右上）の機能が追加されます。

CI/CDとは「Continuous Integration（継続的インテグレーション）/Continuous Delivery（継続的デリバリー）」の略称であり、ソフトウェアの変更を自動でテストし、自動で本番環境に適用できるような状態にする開発手法を指します。

そのため、Lv.2ではデータサイエンティストの開発環境で実施した試行錯誤(新しい特徴量の追加や新しいアルゴリズムの採用など)の結果を自動的に学習PLに反映するということが実現できます。

MLOps実現に向けた注意点

MLOpsのレベル別の達成度について必要な機能や課題を整理しました。

これらのレベルはあくまでも目安であり、Lv.0とLv.1の間にもステップはあります。

ただしこれからMLOpsを開始する場合やレベルアップを考える上で、初期段階で方向性を定めるべきポイントがあります。

推論PLをマイクロサービス化しているか？
学習PLと推論PLで同じデータを利用できるか？
機械学習モデルはシステム化するには複雑すぎないか？

これらの観点がクリアされていないと、システムの変更時に手戻りが大きくなる可能性が高いため注意が必要です。以下に順を追って解説します。

推論PLのマイクロサービス化

マイクロサービスとは機能間の繋がりを疎結合にするという考え方です。

MLOpsのLv.1やLv.2では高頻度で機械学習モデルの更新作業が起こりえるため、システムにおいて機械学習モデルの実装部分が他の機能と疎結合になっていることが重要となります。

利用データの共通化

MLOpsの各プロセスではデータの再利用が発生します。そのため、商用環境と検証環境など異なる環境に対する社内ルール間での調整が必要となります。したがって、可能な限りデータを一元化し、データの二重管理やデータ移行のコスト、データ差分による予期せぬエラーなどのリスクを低減することが重要です。

機械学習モデルの簡易化

MLOpsで機械学習モデルを運用保守するためには、まずは複雑なアーキテクチャを避けることを推奨します。

複雑なアーキテクチャでMLOpsを実現するには、当然ながらより複雑なMLOpsのシステムが求められます。そのため、ビジネスの要求レベルとの調整が必要となります。したがって、可能な範囲でシンプルな機械学習モデルの採用を検討することが重要です。

MLOpsの今後の展望

生成AIの登場によりAI全体に対する注目が再燃していますが、生成AIの運用においてもMLOpsと同様の「試行錯誤」→「デプロイ」→「モニタリング」→「試行錯誤」→……のフローが重要であり、LLMOps（Large Language Model Operations）として整理が進んでいます。

LLMOpsもMLOps同様もしくはそれ以上に、AI活用に取り組む企業に必要とされる分野になると考えられます。

テクノロジー最前線―先端技術とエンジニアリングによる社会とビジネスの課題解決に向けて

MLOps実現に向けて抑えるべきポイント―テクノロジー最前線 データアナリティクス&AI編（13）

MLOpsニーズの高まり

MLOpsの達成度

用語の整理

MLOpsの達成度Lv.0の概要と課題

MLOpsの達成度Lv.1の概要と課題

MLOpsの達成度Lv.2の概要

MLOps実現に向けた注意点

推論PLのマイクロサービス化

利用データの共通化

機械学習モデルの簡易化

MLOpsの今後の展望

テクノロジー最前線―先端技術とエンジニアリングによる社会とビジネスの課題解決に向けて

データアナリティクス&AI編

エマージングテクノロジー編

エンジニアリング編

本ページに関するお問い合わせ

関連情報

データアナリティクス

テクノロジー最前線―先端技術とエンジニアリングによる社会とビジネスの課題解決に向けて

サイバーセキュリティ＆プライバシー インサイト・対談

PwC Japanグループ 採用情報

MLOps実現に向けて抑えるべきポイント―テクノロジー最前線データアナリティクス&AI編（13）