データ分析

ビッグデータとバイアスの話

いやなんか、カフェで俺の出身大学の若者が何も知らない素人相手にビッグデータについていろいろ教えてあげてんのを近くのテーブルで仕事しながらぼーっと聞いていたんだけど、めっちゃ間違っていた。横から割り込むか本気で迷った。

ビッグデータを特徴付けるのは4つのV(Volume、Variety、Velocity、Veracity)だが、これは(普通に考えれば当たり前のことなのだが)決して「全消費者」の「全データ」を表しているわけでは到底ない。実際にはごく一部の消費者のごく一部のデータでしかない。

「全消費者の全データ」なのか「一部の消費者の一部のデータ」なのかを見誤ると何が起きるのかというと、データを母集団として推論に走ってしまうことになる。彼は結構得意げに「ビッグデータでは標本の偏りなんていう問題は発生しないんですよ」とか言っていたのだが、取り方が間違っていればどれだけ大人数から取ったところでサンプルは偏る。

学生は1回10円のアンケートでも暇つぶしに答えるかもしれないが、年収1000万の人は答えない。仮に謝金だけで100万かけたって学生と主婦、あとはサラリーマンのうちお小遣いの少ない人だけ、その人々合計10万人のデータが集まったとかって話になる。そのデータは当然偏っている。仕方なく分布に合わせてウェイトバックすることになるが、ウェイトバックは分布に合わせて手元のデータを引っ張ってるだけなので、そもそも得られていない情報は組み込むことができない。人数が多く取れてしまった層のウェイトを小さくしようが、お小遣いの多い学生やサラリーマン、あるいは世帯収入の高い専業主婦は含まれていないかもしれない。分布に合わせるだけでは無理。

これはポイントカードなんかでも同様で、いくら大量にデータが取れてもポイントカードを提示しない人のデータは取れていない。得られたデータ(ID-POS)とレジ(POS)を付き合わせると平均単価がID-POS側で下振りする。これは収入の高い人の方がポイントカードを提示しにくいから。

そもそも顧客全体のデータが正しく取れていることすら稀だし、調査なら変数の欠損で未回答バイアスになるし、センサー系なら測定誤差もある。位置情報のログ取っても、確認すると瞬間移動かと思うぐらいずれてたりする。データ対象者だって、仮に企業が自社の顧客全体のデータを取っていたとしても、それを元に競合他社利用の予測モデルなんか作ろうものなら真逆の結果すら出る。いくらVarietyが高いっつったって消費者の行動全てを変数に落とし込むことは不可能なので、一消費者について考えても「多面的」ではあるが当然「全て」ではない。あらゆる観点から選択バイアスがバッチバチに発生する。

ここにちょっと書いたことなんて(もちろん教科書にもいくらでも書いてあるんだけど)、実際ちょっと統計解析やってみればすぐ経験的に理解できるはずなんだけどなあ。

近々偉い人に、こういう学生いましたよって言いに行きますね。