婚活データサイエンスにみるバイアス

この世界のありとあらゆる全てを数字に落とし込んだデータなんていうものが当然存在しないことからも分かるように、データとは世界の一部分を見える範囲だけ切り取ったものに過ぎない。

世の中のデータサイエンティストは変数の正規性などにはやたらうるさいが、一方でデータとして測定可能な事象のみを(すなわち本来であれば氷山の一角に過ぎないはずの観測事象のみを)存在の全てとして、あるいはある程度の信頼性を伴う事実として、判断するきらいがあるように思う。これはかなり危険なことだ。行動ログとは常に結果であり、それ自体が原因たりうることは基本的にない。

時々「結婚相手を検討することを目的に、デート中に観測した相手の振る舞いを数値化して統計的に分析する」という試みが行われている様子が観測されるが、これは本問題の極地だと思う。第一に、「デート中に観測・収集した行動ログと結婚後の振る舞いが同質である」というのは仮定としてかなり強い。強すぎるといってもいい。第二に、バイアスとして目にも明らかなSDRがかかっている。社会的望ましさに合わせてデート中の行動を最適化すると、多くの場合にそのしわ寄せはデート外(i.e., 分析者からは観測できない地点)に発生する。これはかなり危険な選択バイアスに繋がる。

データには浮かび上がってこない差を仮に異質性(heterogeneity)と呼ぶとするなら、それを理解するのに一番手っ取り早いのはマッチングアプリを始めることである。ある個人という人間を表現する情報を、数値化あるいは尺度化が可能な変数のみに絞ったとき、それは人間というものの驚くべき代替可能性を浮き彫りにする。ある個人と同じ程度の学歴・身長・年収の男性は信じられないほど多く存在しており、つまりある条件を入力しそれに合致する人間の集合が数値の羅列として出力されたとき、そこでは個々人の異質性は完全に無視される。上で書いたデート行動の数値化はこれに毛が生えた程度の行動に過ぎないという意味で、”本質”の評価には至らないだろう。

これは(何回でも書くが)マルクスガブリエルが”人々”を「平均と分散で表した集合」として表すことに強い嫌悪感を抱いているのと構造としては同じで、つまるところ我々は、人間の個別の特徴や差が示されていないことにもっと恐れ慄くべきなのかもしれない。

まあ私の専門はそういうネタの分析なんですけどね。お仕事お待ちしております。