機械学習を用いたデータ分析ーテクノロジー最前線エンジニアリング編（2）

2023-03-27

機械学習においては、分析モデルの構築を自動化するアプローチが知られています。反復的に学習するアルゴリズムを使用することでデータ内の隠れたパターンを明らかにし、信頼性が高く、再現可能な結果を導き出すことができます。本稿では、機械学習を用いたデータ分析の一般的なプロセスと方法論についてご紹介します。

機械学習モデリングの一般的なプロセスは、（1）ビジネス理解、（2）データ理解、（3）データ準備、（4）モデリング、（5）評価検証、（6）適用の6つに大きく分けられます。さまざまな情報を統合・活用するためにデータ分析の基盤が使われていますが、理解が深まるにつれてモデルの精度を向上させるために、新しい有効なデータも収集する場合もあります（図表1参照）。

図表1.機械学習を用いたデータ分析の流れの全体像

図表1を通じて、機械学習の一般的な手順や全体的なフレームワークを直感的に理解できるかと思います。次に、データサイエンティストに最も関連性の高い部分である「データ理解」「データ準備」「モデリング」「評価・検証」について説明します。

1. データ理解

データを理解するためには、データ数、平均や中央値、標準偏差などの統計量を確認する必要があります。統計量の確認は前処理の手法判断だけでなく、データ収集プロセスの課題発見にも繋がります。そこで、これらの統計情報取得のために、データ分析などに標準で用いられるPython Pandasを用いると、下記3つがあります。

Pandas describe関数：データの概要情報を一括で取得するためのツールです。pandas 以外のツールキットを追加でインストールすることなく利用できます。
Pandas profiling report：1回目に使う際に環境構築に少し時間がかかりますが、HTML形式で出力できます。また、各変数の統計量を個別に表示できるだけでなく、変数間の相関係数なども表示することができます。
pydqc：Pandas profilingと同様に、より包括的な基本統計量を取得するために活用できます。表計算ソフトでまとまっており、特にデータクレンジング前後の分布を比較する際によく利用されています。

図表2.探索的データ解析ツール

2. データ準備

❖ 前処理

なぜ前処理が必要かというと、入手したデータが不正確であったり、一貫性がなかったりすることから、機械学習に直接使用できないケースが多々見受けられるからです。そのため、何かしらの処理を加えて“きれいな”データに整えてあげる必要があるのです。私が実際のプロジェクトでよく実施する処理としては、大きく分けて5つの項目が挙げられます。

1) 欠損/異常/重複値の処理

これに対応するためには、まずはビジネスロジックを理解することが重要です。欠損値のあるデータについては変換、もしくは削除することが多いですが、場合によってはこれらのデータは無視することが最も適切であることもあります。例えばアンケートデータを整理する時、答えがない、もしくはアンケートの設計に沿って答える必要がない質問は「N/A」（Not Available）のままにしておくほうが、より筋道が通った処理と思います。

2) カテゴリーデータの処理

文字列データを数値データに変換するプロセスです。例えば喫煙状況を調査する場合、タバコの本数を問わず、喫煙する人を「１」、吸わない人を「０」に全て変換し、それ以外の余計な情報を捨てるという処理が考えられます。

3) 特徴量削除

業界知識に基づいた処理です。重複データやモデルでは、不要な特徴量を削除します。特に、性別や人種などの情報は、倫理的な問題を伴う可能性があるので、取り扱いには十分注意すべきです。

4) 学習のための処理

例えば、各特徴量の値の幅を揃え、共通のスケールで、公平に特徴量を比較できるようにするため、「Rescaling / Normalization処理」を行います¹。学習のための処理にはさまざまなテクニックがあります。データの種類によってもまたそれぞれ独自の手法があります。しかし、どのような処理でも必ずアルゴリズムのパフォーマンス向上を保証できるわけではないので、試行錯誤しながら、最適な処理を選ぶ必要があります。

5) 特徴量の変換、追加

モデルの精度を向上するため、手動で特徴量の変換を行う場合もあります。特にデータ量が足りない場合、既存の特徴量からドメイン知識などを活かして、新しい特徴量を作成します。

図表3.データの前処理

❖ 特徴量選択

特徴量を選択することで、「モデルの精度の向上」「計算コストの削減」「説明可能なモデルにする」などのメリットが得られます。余分な特徴量を含めたままで学習させてしまうと、本来のパターンを見つけることができなくなるので、不要な特徴量を削除するのが一般的なやり方です。

その中で、Filter法、Wrapper法とEmbedded法の3種類の手法があります²。

Filter法は、目的変数と特徴量の相関係数などの統計量を計算し、特徴量を選択する方法です。この3種類の中で最も処理速度が速いため、特に特徴量の数が多い時に使われています。「特徴量」と「目的変数」を一対一で見るので、特徴量同士の関係を考慮しない比較的簡単な選択方法になります。
Wrapper法は、特徴量の組み合わせを変えてモデルを学習させて、性能を評価することを繰り返し、特徴量を選択する方法です。繰り返し学習させるので、計算コストが高い方法になります。
Embedded法は、モデルの重要度を利用し、特徴量を選択する方法です。例えば、決定木モデルを作り、feature importanceの重要度が低い特徴を削除するやり方があります。

図表4.特徴量の選択

❖ 可視化

Pythonでの可視化にはmatplotlib.pyplot、seabornといったライブラリがよく使われています。Seabornは初心者でも簡単で綺麗な可視化が得られます。Pyecharts、Bokeh、Plotlyを使うと、インタラクティブなグラフを作ることできます。TableauとPower BIはプログラミングをする必要がないので、プログラミング経験のないビジネスエキスパートでも使うことができます。

3. モデリング

機械学習のモデルは数えられないほど多くあります。そこに、どのようなアルゴリズムを使えばいいのかを判断する必要があるのですが、Scikit-learnのチートーシートがよく使用されています³。このチートーシートは回帰、分類、クラスタリング、次元削減の4種類に分けられており、最大４回の二択問題で判断することが可能です。

私が今まで参加したプロジェクトで使用された代表的なモデルを図表5にまとめました。「教師データあり」と「教師データなし」の2種類があります。大半のプロジェクトでは予測結果の説明が要求されるので、「教師データあり」のモデルはほぼ可読性に”〇”がついているモデルを使いました。その他、「教師データなし」のK-MeansとLDAにおいては、クラスタリングのロジックが多くの場合ブラックボックスになっています。今までのプロジェクトではコンサルタントと連携し、予測結果が論理的かどうかを確認する進め方で検証してきました。

図表5.よく使用される代表的なモデル

4. 評価・検証

モデルの評価と検証方法は技術者やプロジェクトによって異なりますが、私が参加したプロジェクトでは業務ロジックの検証とモデルのパフォーマンス検証の２種類を実施しました。

業務ロジックの検証は、なるべくモデルを解釈し、ビジネスエキスパートに説明するための工夫が必要です。あるプロジェクトではRandom Forestを使ったので、木の可視化および重要度表示をlimeというライブラリを使うことで解釈しました。モデルによっては、可読性が低い場合もあるので、別の解釈可能モデルで局所近似モデルを作成し、説明することも必要となります。
パフォーマンス検証は、ホールドアウトを使うのが一般的なやり方です。評価するテストデータを訓練、評価に分割し、使用します。また、サンプル数が少ない場合には、交差検証を行います。交差検証とは訓練データの中を、さらに訓練、検証に分割する手法です（図表6）。分類と回帰モデルはそれぞれ異なる指標を使用し、結果の評価を行います。例えば、二項分類は適合率、再現率、ROC/AUC、多クラス分類はF1 Score、回帰モデルはMSE（平均二乗誤差）などがよく使われます。

図表6.ホールドアウト交差検証

まとめ

ここまで、機械学習での重要な「データ理解」「データ準備」「モデリング」「評価・検証」という4つのプロセスについて簡単に説明してきました。実際にモデリング構築を行うにあたっては、さまざまな問題が生じます。データやニーズに応じて適切な手法を選択し、必要に応じて組み合わせて対応することが必要です。そこが機械学習の興味深いところです。