Blog

ブログ

ブログトップに戻る
  • データサイエンス実践講座

第16回:分析方針の三要素(3)〜説明変数

ここまで、分析方針を立てる上で重要なのは次の3点、すなわち

 

1)アウトカム

2)解析単位

3)説明変数

 

のアウトカムと解析単位について解説してきました。あとは最後の説明変数さえ決まれば、分析に着手することができますし、この説明変数が豊富に考えられればそれだけ、意外な要因がアウトカムと関連していた、というような結果に出会える可能性が高まります。

 

”当たり前”の説明変数は、ビジネス上の意思決定では役に立たない

 

逆に言えば、アウトカムと解析単位の設定を適切にしたとしても、分析結果が「当たり前のどうしようもない」ものになってしまう原因は、そもそも分析方針を立てた時点で、当たり前のどうしようもない説明変数しか考えられなかったからなのかもしれません。

 

例えば「男女間で売上が違うのではないか?」とか「ある月の売上は前月と比べて高いのではないか?」という仮説をもとにしてBIツールやエクセルなどでのクロス集計を行うことは簡単です。しかし、その仮説が正しかったとしても、正しくなかったとしても、何かのビジネス的な意思決定に繋がらなかったのであれば、それは関係者一同が「ふ~ん」と言って終わり、というだけのものになってしまうかもしれません。

 

ヒアリングで適切な説明変数を見つけられるか?

 

こうした課題に対して、コンサルタントやデータサイエンティストたちは、分析すべき説明変数を考えるために「インタビュー」や「ヒアリング」を行うことがあります。分析するデータに対して様々な立場で携わる人たちに「この仕事で大事なことはなんでしょうか?」といったことを聞き回り、そこで得られた仮説をもとに説明変数を考えようというのです。

 

しかし、こうしたやり方もやはり「ふ~ん」というだけの壁を超えられないことがあります。

 

なぜなら、社内の誰かが多少インタビューされたぐらいで言語化できる程度の仮説というのは、仮にそれがデータで裏付けられたとしても「当たり前」のものであったりするからです。関係者が「思ってた通りだった」と頷くだけの結果では、業務の収益性を改善するようなアイディアは生まれて来にくいはずです。

 

インパクトのある説明変数を探す近道

 

ではどうすれば良いのでしょうか?私たちの答えは、豊富な説明変数のアイディアの引き出しを持ち、それを片っ端から分析すればいい、というものです。

 

人間往々にして、「仮説を考えろ」と言われると、その仮説が間違っていたらどうしようとかいうところをつい考えてしまうので大胆な仮説を生み出すことは出来ません。それよりも、解析単位の特徴(これが説明変数ということになります)をできるだけ豊富に、今あるデータから定義してやれないか、と考えた方が意外な結果にたどりつきやすいのです。

 

逆に、その説明変数とアウトカムとの間に関連性があるかどうか、という点については、人間が会議室で頭をひねるよりも、コンピューターにデータを分析させた方が早く正確に判断できるはずです。

 

ではどのようにしてデータからたくさん説明変数を考えることができるのでしょうか?

次回、ご紹介していきましょう。