Blog

ブログ

ブログトップに戻る
  • データサイエンス実践講座

第18回:最低限度の分析方針とデータ整備

ここまで「何を分析すべきか」という方針を、アウトカム、解析単位、説明変数という3点に分解して説明してきました。

 

分析プロジェクトの進め方

 

私たちの知る限り、多くの企業において、大量のデータを前にしてどこから手をつけて良いか分からない、とか、思いつく限りの仮説を試してみたがあまり面白いことはわからなかった、という理由で分析プロジェクトが上手くいっていないようです。

 

そんな時、まずは自社の長期的な利益に確実に直結する、ズルのしにくいアウトカムを定義し、現在のデータから様々な特徴(すなわち説明変数)が定義しやすくアクションのうちやすい解析単位を仮でも良いので決めてみましょう。

 

解析単位を仮置きする

 

ここで例えば解析単位が顧客だったとすれば「良い顧客とそうでない顧客の違いはどこにあるか」を見つけることになりますし、それが商品だとすれば「良い商品とそうでない商品の違いはどこにあるか」ということになります。そして言うまでもなくその「良い」という部分をどのような指標で定義するか、というのがアウトカムにあたります。

 

そして仮置きでも解析単位が決まったのであれば、今あるデータを使って様々な解析単位の特徴を、できるだけ多くリストアップして加工していきます。つまり、解析単位一つにつき一行、という形の分析用データセットを用意することになります。

 

これは、例えば解析単位が顧客であればデータベースの中の顧客マスターを分析すれば良い、というような話ではありません。顧客に直接的あるいは間接的に紐付く、購買履歴や商品と店舗のマスター、DMやコールセンターなどの接触など、ありとあらゆるデータを、顧客が解析単位だというのであれば顧客一人につき一行、という形でまとめ直し、「顧客の特徴を示す説明変数」として用いることができるはずです。

 

ここまでの作業が出来ていれば、何らかのツールを使って自分たちで分析するにしても、どこかの業者に分析作業を外注するにしてもそう難しい話ではありません。たくさん考えた説明変数のうち、どれがどの程度、解析単位ごとのアウトカムに影響を与えているのかを見つけるだけの話です。

 

最低限度の分析方針とデータ整備

 

また、以前データ整備のところで「社内のデータを全て完全に整備するのは大きなリスクを伴う」という話をしましたが、ここまでの分析方針が定まっていれば、まずはどのデータを使って分析すれば良いかという点についても意思決定ができるはずです。

 

まずは最低限アウトカムの計算元となるテーブル(例えば顧客の購買履歴や従業員の勤怠)と、解析単位でユニークになっているマスターテーブル(顧客マスターや従業員マスター)、そして、それらとすぐに紐付けられて値の抜け漏れや異常値の少ないいくつかのテーブルを使って説明変数を考える、というようなだけでも十分面白い結果に出会える可能性はあります。それ以上のデータを分析しようとした際に、何らかの整備(例えばIDの名寄せなど)が必要なのであれば、ひとまず現時点のデータだけでの分析結果を見てからその必要性を判断しても遅くはありません。

 

データが整備できなければ分析ができない一方で、分析方針が立たなければデータ整備が進まない、という状態ではいつまでたっても「鶏と卵」のような堂々巡りになってしまいます。

 

そこでこのように、最低限度の分析方針とデータ整備、というところから徐々にその範囲を拡大していく、というやり方を私たちはおすすめしています。