予測モデリングは、データ・モデリングを使用して将来の結果を予測する方法です。これは、企業が将来の見通しを予測し、それに応じて計画するための重要な方法の一つとなっています。確かに絶対的な確実性はありませんが、この手法は正確性が高い傾向があるため、広く活用されています。
予測モデリングとは
簡単に言えば、予測モデリングとは現在と過去のデータを基に、機械学習およびデータ・マイニングを活用して、将来発生する可能性の高い結果を予測する統計的な手法です。現在と過去のデータを分析し、学んだ知見を生成されるモデルに反映して、発生する可能性の高い結果を予測することができます。予測モデリングは、テレビの視聴率や顧客が次に購入する商品、信用リスク、企業の収益など、幅広い分野で予測を行うために利用されています。
予測モデルは固定されたものではありません。基になるデータの変更を取り込むために、定期的に検証され、修正が行われます。つまり、一度予測しただけで終わりではないのです。予測モデルでは、過去に発生した事象と現在発生している事象に基づいて仮定が設定されます。新たに受け取ったデータで現在の状況が変化していることが示された場合、将来発生する可能性の高い結果に対する影響も再計算する必要があります。たとえば、ソフトウェア会社は、複数の地域でのマーケティング費用と過去の売上データをもとにモデル化し、マーケティング支出の影響に基づいて将来の収益を予測するモデルを作成することができます。
ほとんどの予測モデルは高速に動作し、多くはリアルタイムで計算を完了します。そのため、例えば銀行や小売業者は、住宅ローンやクレジット・カードのオンライン申請に伴うリスクを計算し、予測に基づいてほぼ瞬時に申請を承諾または却下することができます。
計算生物学(opens in a new tab)や量子コンピューティング(opens in a new tab)などに使用される、より複雑な予測モデルも存在します。クレジット・カードの申請と比較して結果の計算に時間がかかりますが、計算能力を含む技術的な能力の進歩のおかげで、それまでよりも大幅に計算速度が向上しました。
上位5つの予測モデルの種類
幸いなことに、予測モデルは用途ごとに一から作成する必要はありません。予測分析ツールでは、幅広いユースケースに適用可能な様々な検証済みのモデルやアルゴリズムが使用されています。
予測モデリングの手法は時間の経過とともに洗練されていきます。データを追加に伴って、コンピューティング、AIおよび機械学習の能力が強化されるため、全体的な分析能力が向上し、モデルを使用してできることが増えていきます。
上位5つの予測分析モデルは、次のとおりです。
- 分類モデル:最も単純なモデルとされ、単純で直接的な問合せ応答のデータを分類します。ユースケースの例は、不正なトランザクションかどうかを判断することです。
- クラスタリング・モデル:このモデルは、共通の属性によってデータをグループ化します。共通の特徴や動作によって物事や人をグループ化し、より大きい規模で各グループの戦略を計画します。例えば、ローン申請において、条件が同じか類似している他の人の過去の返済状況に基づいて、信用リスクを判別します。
- 予測モデル:非常によく使用されるモデルです。数値で表されるあらゆるものに使用でき、過去のデータからの学習内容に基づいて予測を行います。例えば、レストランで次の週に注文するレタスの量や、カスタマー・サポート担当者が1日または1週間に対応できると期待される通話数を求めるために、過去のデータを利用します。
- 外れ値モデル:このモデルは、異常なまたは外れ値であるデータ・ポイントを分析することで機能します。例えば、銀行は外れ値モデルを使用して、トランザクションが顧客の通常の購買習慣から外れていないか、または特定のカテゴリの費用が通常どおりかどうかを調べて、不正を特定します。例えば、カード所有者がよく利用する大規模小売店で、洗濯機と乾燥機の代金として1,000ドルをクレジット・カードで支払った場合は問題ありませんが、顧客が他の商品を購入したことがない店舗でブランド衣類に1,000ドルをクレジット・カードで支払った場合は、アカウントの不正利用を示している可能性があります。
- 時系列モデル:このモデルは、一連のデータ・ポイントを時間に基づいて評価します。例えば、過去4か月間に病院で受け入れた脳卒中患者の数を使用して、来週、来月または今から年末までに病院が受け入れる患者の数を予測します。そのため、経時的に測定および比較される単一の指標は、単純な平均よりも意味があります。
一般的な予測アルゴリズム
予測アルゴリズムでは、機械学習またはディープ・ラーニングのいずれかを使用します。これらはどちらも、人工知能(AI)の一部です。機械学習(ML)では、スプレッドシートやマシン・データなどの構造化されたデータが使用されます。ディープ・ラーニング(DL)では、動画、音声、テキスト、ソーシャル・メディアの投稿や画像などの非構造化データが使用されます。これらは基本的に、人間がコミュニケーションのために使用するもので、数値やメトリックの測定値ではありません。
よく使用される予測アルゴリズムには、次のものがあります。
- ランダム・フォレスト:このアルゴリズムは、関連性のない複数のディシジョン・ツリーを組み合せたもので、分類と回帰の両方を使用して大量のデータを分類します。
- 2値のための一般化線形モデル(GLM):このアルゴリズムは、変数のリストを絞り込んで"ベスト・フィット"を見つけます。これは臨界点(opens in a new tab)、変更データ・キャプチャ(opens in a new tab)および質的予測子(opens in a new tab)などのその他の影響を解明して、"ベスト・フィット"の結果を決定するため、通常の線形回帰などの他のモデルの短所が解決されます。
- 勾配ブースティング・モデル:このアルゴリズムでも複数のディシジョン・ツリーを組み合せて使用しますが、ランダム・フォレストとは異なり、各ツリーには関連性があります。一度に1つずつツリーを作成するため、次のツリーで前のツリーの問題を修正できます。これは検索エンジンの出力などでのランク付けによく使用されます。
- K平均法:これは広く用いられる高速のアルゴリズムです。類似度によってデータ・ポイントをグループ化するため、クラスタリング・モデルでよく使用されます。たとえば、裏地付きの赤いウールのコートに対する好みの似た百万人以上の顧客といった大規模なグループ内で、個人に対してパーソナライズされた商品の提案を迅速に表示できます。
- Prophet:このアルゴリズムは、在庫ニーズ、営業目標およびリソース配分などのための生産能力計画用の時系列モデルまたは予測モデルで使用されます。非常に柔軟で、ヒューリスティック(opens in a new tab)や多数の有用な仮定を簡単に取り込むことができます。
予測モデリングとデータ分析
予測モデリングは予測分析とも呼ばれます。一般に、学術的な文脈では"予測モデリング"という用語のほうが好まれますが、予測モデリングを商業的に応用する場合は"予測分析"という用語が好まれます。
予測分析が成功するかどうかは、十分な量の正確かつクリーンで、関連性の高いデータに自由にアクセスできるかどうかに大きく依存します。予測モデルは、ディシジョン・ツリーやK平均法クラスタリングを使用するものなど、非常に複雑になることがありますが、最も複雑な部分は常にニューラル・ネットワーク(opens in a new tab)です。これは、結果を予測するようにコンピュータをトレーニングするためのモデルです。機械学習ではニューラル・ネットワークを使用して、非常に大規模なデータ・セットで相関を検出し、データ内のパターンを"学習"して特定します。
予測モデリングの利点
一言で言うと、予測分析はビジネスの結果を予測するための時間、労力およびコストを削減します。環境要因、競合情報、規制の変更および市場の状況などの変数を数値計算に反映して、比較的低コストでより完全な結果を得ることができます。
企業が活用できる予測の種類の例には、需要予測、人数計画、流動分析、外的要因、競合分析、フリートおよびITハードウェアの保守および財務リスクなどがあります。
予測モデリングの課題
予測分析が提示するすべての内容が有用であるわけではないため、確実に有用なビジネスの洞察が得られるようにこの技術を利用することが重要です。検出される情報の中には、好奇心を満足させるだけで、ビジネス上の価値はほとんどないものもあります。ほとんどの企業では、脱線する余裕はありません。
また、予測モデリングで使用できるデータ量の増加が利点となるのはある程度までのみです。データ量が多すぎると計算に偏りが生じ、意味のない結果や間違った結果が生成される恐れがあります。たとえば、外気温が下がるとコートの売上が増えます。ただし、これはある程度までで、外気温が-20度の場合に-5度の場合よりもコートの売上が増えることはありません。ある時点で、コートの購入意欲が高まる十分な寒さに達し、それ以上気温が下がってもそのパターンがはっきり変わることはなくなります。
また、予測モデリングに大量のデータを使用する場合、セキュリティとプライバシの保護も課題となります。さらなる課題が機械学習の制限にあります。
予測モデリングの制限
McKinsey社の報告(opens in a new tab)によると、一般的な制限とその"最適な解決法"には、次のようなものがあります。
- データ・ラベリングのエラー:これは、強化学習または敵対的生成ネットワーク(GAN)(opens in a new tab)によって解決できます。
- 機械学習のトレーニングに必要な大量のデータ・セットの不足:利用できる解決法は"ワンショット学習(opens in a new tab)"です。この場合、マシンは大量のデータ・セットではなく、少数のサンプルから学習します。
- マシンの何を行ったのか、なぜその行動をしたのかを説明する能力の欠如:マシンは人間のようには"思考"および"学習"しません。同様に、計算も人間では解明できないほど非常に複雑になります。それどころか、ロジックを追うことなどできません。このため、マシンに作業内容を説明させるのも、人間が説明することも困難になっています。ただし、モデルの透明性はいくつかの理由で必要です。中でも特に重要なのが人間の安全性です。期待できる解決策には、Local-Interpretable-Model-agnostic Explanations (LIME(opens in a new tab))およびAttention手法(opens in a new tab)があります。
- 学習の一般化可能性またはその欠如:人間とは異なり、マシンは学習した内容を次に持ち越すことができません。言い換えると、マシンは学習した内容を新しい状況に適用することができません。学習した内容は、1つのユースケースにのみ適用できます。ですからAIによる支配が近いうちに始まる心配はないでしょう。機械学習を使用した予測モデリングを再利用可能にする(つまり、複数のユースケースで利用できるようにする)ための解決策には、転移学習(opens in a new tab)があります。
- データとアルゴリズムのバイアス:データが対象を正しく表現していない場合、結果に偏りが生じ、多数の人々の集団が適切に扱われない可能性があります。さらに、元から組み込まれているバイアスを検出して、後から除去するのは困難です。つまり、バイアスの多くは永久に消えることがありません。これは移動する標的であり、明確な解決策はまだ見つかっていません。
より正確な
計画と予測
予測モデリングの未来
予測モデリング(予測分析とも呼ばれます)および機械学習は、まだ若く発展途上にあるテクノロジであるため、大幅な進歩の余地があります。手法、方法、ツールおよびテクノロジの発展に伴い、ビジネスや社会に対する利点も増大していくでしょう。
しかしながら、企業はこのテクノロジが成熟してすべての欠点が解決されるまで待っている余裕はありません。短期間で得られる優位性が大きすぎるため、後からこの技術を導入した企業が先行企業に競争で勝ち、競争力を維持することは難しいでしょう。
このテクノロジを理解し、早期に導入することで、技術の発展と並行してビジネス上の利点を拡大することが可能となります。
プラットフォームでの予測モデリング
最大規模の企業を除くすべての企業で予測分析の利点を享受する最も簡単な方法は、このテクノロジが組み込まれ、事前トレーニング済の機械学習を備えたERPシステム(opens in a new tab)を使用することです。たとえば、計画、予測および予算策定の機能では、変化する市場の状況に対応する複数のシナリオを迅速にモデル化するための統計モデル・エンジンが提供されます。
別の例としては、供給計画や供給生産能力機能でも同様に、配送、購買または受注の遅れの可能性やその他のリスクや影響を予測できます。ダッシュボードに代替サプライヤを表示して、企業が製造または物流の要件を満たすために切り替えることができるようにすることも可能です。
財務モデリングおよび計画と予算策定は、チームに過度の負担をかけず、これらの高度なテクノロジの多数の利点を享受するための重要な領域です。