データ分析

データサイエンスとかいう広すぎる領域の片隅で

AI人材でも文系データサイエンティストでもなんでもいいのだが、僕の身の回りの領域(マーケティングとか心理系とか)でデータ分析をするにあたっては、単なる統計解析やシミュレーションの観点とは別で追加的に考えなければいけないことはいくつもある。工学研究科で「データサイエンス」っていう科目で実習なんかやってみて色々と思ったのでいくつか書こうと思う。少なくとも、データマイニングとかだけやってきた人がそのまま入ってきても自分がそれまでに使ってきた手法をそのまま適用するだけでマーケティングのアクションにつながるような有益な情報を高い信頼性をもって発掘できるかは結構疑わしい気がする。

第一に分析にあたっての「従属変数と独立変数は,分析者が (なんらかの理論的根拠に基づき) 想定・仮定する」(伊藤, 2018)という前提はもっと広く認識されるべきだと思う。実際データサイエンスの実習では「とりあえず全部突っ込んで変数選択させました」ってやる人はすごく多いのだが、頼むから考えるのを面倒くさがらないでほしい。それで結果パラメータ推定値のt-valueが大きかったからといってだから何なんだという話になるし、結果を踏まえてアクションまで考えさせるとろくなことにならなかったりする。

この「構造を想定する」という作業が重要視されるタスクは簡単なところではやはり回帰分析なのだなあ。この回帰分析というものは(相関係数と対比する形で)「X→Yの因果関係を調べる方法」だとか紹介されたりもするが、しかし残念なことにその構造で分析してる時点で分析者は既にその因果関係を仮定してしまっているということに注意がいっていない場合が多い。そして万が一にもその仮定が後から崩れてしまうと、出てきた結果は(その数値がなんであれ)何の示唆も持たないことになる。つまり、実際には回帰分析で因果関係を示すのではなく、回帰の前にそのモデルの妥当性を示す必要がある。回帰分析は理論的に提示された構造に対するエビデンスに過ぎないのであって、回帰分析の結果から話を始めるのでは物事として順序がおかしくなってしまう。先に引用したことはここにつながるのであり、数値的な云々はその後に考えるべきことだ。

だから仮に2変数に時系列的なグレンジャー因果性なんかが認められたとしても、それは理論的に2変数が因果関係を持つという「理論」が先にあって初めて「実証」されることだし、そのバックボーンなしに回帰分析なんかやったところで、そこで出てくるのは数値的な変動を表面的に見ているだけに過ぎないという点で(あえて嫌な言い方をすると)偏相関を見るのとそう変わらない。

理系のデータ分析では先に理論的な構造の仮定があるからこそそれらを分析することによって信頼できる結果が出るのだろうと思うけど、そこに無意識的すぎるのが分野外でのデータ分析を行うにあたっての大きな障壁になる。

もっというと、彼ら彼女らは必要な変数だけを実験で取得していて、そこではいろんな条件で結果を既に統制した上で変数を取ったりできるんだろうと思う。つまり分析を行う時点では既に変数はコントロールされた値になっている。だが文系領域はそんなことばかりではない。仮に実験室実験だとしても、人間や経済に実験できることはあまり多くはない(下手なことをすると人が死んだりするので)。だからこそ我々は回帰分析において説明変数で結果を統制するわけだけど、彼らのやる大規模な変数選択において、どれだけ「統制」が念頭に置かれているのかは一回聞いてみたいところではある。まあ結果の解釈をしないなら統制も不要なんだけど、それ以前に結果の解釈がそもそも不要なのであれば統計解析で因果関係を明らかにすること自体も不要だし、端的にいって統計解析の役割が終焉する。たとえばマーケティングにおける顧客の離脱予測なんて、精度だけを追い求めたいならLSTMでも使った方がよっぽどいい結果になる。これは機械学習というものが「手法自体はモデルではあるものの、実際にデータを当てた学習済みのそれはモデルではなく推定器に過ぎない」というところにも繋がってくる。この辺はまた気が向いた時に書く。

まあデータ分析もなんだかんだ色々大変なんだよね。しらんけど。