前々から気にはなっていたのですが、昨年度に会社に入ってきた新人さんの机においてあったので、「これは!」と借りて読ませて頂きました。私は現在は、データ分析にまつわる業務をしているのですが、仕事の中で感じてきたようなことがしっかりと明文化されており、非常に納得感の高い内容となっていました!一緒に働くメンバーにも、是非読んでもらいたい。


引用が多くなりますが、ざーっくり整理してみました。

ビッグデータ時代の、データへの向き合い方

統計学のビジネス活用の本質は「目的に対し何をしたらよいかという示唆を与えること」

はじめに「疫学の父」と呼ばれる ジョン・スノウのコレラの分析の話がでてきます。この話は以下のページによくまとまっていました

Argonauta:Newsletter:No.3:書評 'Snow on cholera' - 疫学の原点

非常に大きな意義のある仕事を成し遂げたスノウですが、

残念なことにスノウの主張は「科学的ではない」あるいは「確実な証拠がない」として学会や行政からは退けられたが、彼の助言に従ってコレラに汚染された水の使用を止めた町ではぱったりとコレラの感染が止まった(p.14)

というのはなかなか興味深い点です。いつの時代もKKD。いや、19世紀から何も変わっていないというのは問題ですね(笑)

このように

エビデンスは議論をぶっ飛ばして最善の答えを提示する。もちろんデータの取り方や解析方法によって、どれほどのレベルで正しいと言えるのか、どこまでのことを正しいと主張して間違いがないのかは異なってくる。しかしながら、エビデンスに反論しようとすれば理屈や経験などではなく、統計学的にデータや手法の限界を指摘するか、もしくは自説を裏付けるような新たなエビデンスを作るかといったやり方でなければ対抗できないのだ(p.18)

そして、いまやITと統計学の蜜月の時代。そんな、ビッグデータ時代に、あえてサンプリングによる情報コストの低減を、しっかりやり、トライ&エラーの方に重きをおくのもとても大事。データが大きすぎてはトライのコストも高くなるし、エラーの確認となればなおさらだ。

「まず正しい判断に必要な最小十分のデータを扱うこと」を推奨している...必ずしも最初からすべての解析を全データで行う必要はないのだ...結果を見ながらいろいろな手法やデータの切り口を試すという探索的解析においては、特にトライ&エラーの回数が重要になる。(p.54)

このあたりのプロセスと思考が、「普通の」の正しい仕様を作ってそれを実装していく答えのある「ソフトウェア開発」とは大きく違う点だと思う。いままで、ソフトウェアエンジニアでしっかり開発してきた方ほど、全く違うマインドセットになるので注意が必要になると思います。

データ分析の価値基準

データ分析の価値基準は

「その解析にかけたコスト以上の利益を自社にもたらすような判断につながるのだろうか?」という視点(p.58)

自社に利益をもたらすためには、「うーん・なるほど」だけではなく、さらに一歩先の「リアクション」が必要。そのような具体的な行動を引き出すために必要なのが、3つの問い。

1. 何かの要因が変化すれば利益は向上するのか?

2. そうした変化を起こすような行動は実際に可能なのか?

3. 変化を起こす行動が可能だとしてその利益はコストを上回るのか?

この3つの問に答えられた時点ではじめて「行動を起こすことで利益を向上させる」という見通しが立つ(p.59)

この3つの問いに、真摯に向き合い応える分析、それをビジネス意思決定者から引き出す分析が、本当に重要と思う。

説得力を高めるための、統計的検証による、「有意な差異」

データの中から、何らかの誤差とは考えにくい偏りを発見すれば、それは重要な示唆に富む仮説となる。こうした有望な仮説を抽出するスピードと精度こそが現代における統計学の第一の意義であり、うだうだ会議で机上の空論を戦い合わせることなどよりもよほど有益だろう(p.95)

データを見てデータドリブンで判断していこうぜ、という雰囲気は、明らかにでてきていると思う。が、そこに対して、このデータは本当に信用していいデータなの? その問いに応える手法はやはり重要。そこが崩れると誰も信用してくれなくなるし、やっぱりそれではKKDとあまり変わらない。分析からでてきたデータをみせた上、そのデータがどれほど信用できるのか、もしくはできないのか、客観的な目安が提示できるようになりたい。

とりあえずランダムに実験する価値

正解のない判断を個人のセンスに任せるぐらいなら、とりあえずランダム化して定期的に評価する、というやり方の方が長期的なメリットは大きい(p.121)

こういった実験的なアクションを継続して取れ、さらにそこからの学びを得て、次に活用する、そういった意志決定方法がより成長につながる、というのは面白い気づきだと思う。もちろん行動を起こすためのコストは場合によってはあるだろうが、逆に言えば、いかにそれを最小化し、行動につなげられる仕組みが作れるか、これが不確実な時代でチャンスを掴む者とそうでない者を分けるのだなと改めて感じた。個人のレベルでいえば、そういう環境に自分の身をおく、そういう環境を選ぶというのも重要と思う。

21世紀の統計家には求められるスキルは

その後、具体的な分析手法(回帰、マイニング、予測など)が、ひと通り紹介された上で、

ポイントは予測モデルから今後何をすべきかを議論したいのであれば、回帰モデルの方が役に立つ。こうした違いを理解したうえで適切な手法を選び分けることが、21世紀の統計家には求められるのである。(p.244)

統計学と計量経済学の「本質的」な違い、と我々のチャレンジ

この2つの学問は本質的な哲学が違う。

統計学は「帰納的」であり、計量経済学は「演繹的」。あるいは「実証」と「理論」。(p.259)

さらには、「工学」と「科学」も似ているかもしれない。我々がビジネスの世界で、データをより「科学的に」扱いたい、と取っているアプローチは、この2つの哲学の合流点なのかもしれないし、そうでありたいなと思った。

似たタイトルのシリーズがたくさんでてますが、「実践編」いつでも見れるようにと私も買いました。他は読み比べてませんが、「実践編」はより実践的と思います。