データ分析

データサイエンスと専門性の在り処

データサイエンスにはデータの理解(統計的な知識とプログラミング等のデータを操作するための能力)とは別にドメイン知識が必要だとよく言われる。これは前稿で機械学習や統計学を用いて何処か全く違う分野で活躍していた人がいたからといって、その人がいきなりマーケティングデータから素晴らしい知見をポンと出せるかは疑わしいというようなことを書いたことにもつながるのだが、すると「データ分析」という言葉自体は実は専門性には該当しない可能性がある。それをぼーっと考えていたときに不意に昔のことを思い出した。

まだ大学院に入りたての夏、データサイエンティストになりたくて仕方なかったのでいろんな企業さんのデータアナリスト系のインターンで勉強させていただいていた。あの頃インターンで一緒になったD3の方(名前も所属も専門も何一つ覚えていないが)に帰り道の電車の中で専門を聞かれ「データ分析です」と答えて「漠然としてるね…」と一蹴された。

そう、データ分析という言葉は漠然としているのだ。コンピュータ・サイエンスや、あるいは極めて純粋な統計理論や機械学習の手法開発に従事していない限りデータ分析というものそれ自体が専門性になることは実は起き得ないのではないか(そしてそれは応用領域ではない)。例えば調査を用いて研究を行う分野はたくさんあるが、それらを一括して「サーベイサイエンス」なんて名付けたところで、当然個々の研究領域のドメイン知識なしに他分野に調査の専門家だからと踏み込んでいけるかと言われたらそうではないはずだ(もちろん方法論が近い以上共通する/参考になる部分はあるだろうが)。

僕は(勝手に)コロナ関係のデータを集めて(勝手に)分析して独自に色々考えるなどしているものの、かといってそれを(たまにゼミ生に共有したりはするけどそれ以外には)決して外には出していないこともそこにつながる。データ分析ができるからといって医学・疫学・薬学その他のあらゆる医療系分野に関して僕は十分な学術的知識を有していない。そういったドメイン知識を持たずにデータを分析したときになにが起きるかというと、これは僕がマーケティング系のデータ分析においてひたすら言っていることでもある「分析のためのモデルを(独自の、あるいは既に存在する理論や仮定といった)何かしらの情報をもとに自力で構築しなければならない」というところを侵襲してしまう。つまりわけもわからずにとんでもないモデル構築、果てはとんでもない結論にたどり着きうるリスクがある。

実はコロナ関係で論文を書いて既に査読付きの論文誌に投稿したなんていうのもあるんだけど、それは医学系や経済系の人間との共著だからやれたのであって、あれを自分でやる気には到底ならないというか、それ以前にやっていい気がしない。でも現実には(コロナ以前はその踏み込み先がまさにマーケティング分野だったのでよくわかるわけだが、)データ分析を専門だと言い張り他分野にズカズカ土足で踏み込んでくる人たちは山ほどいる。この先数年間はコロナ関係でとんでもない論文が乱発されることになるんだろうと思う。

俺自身も専門外の分野でまで他人の役に立ちたいとか、話題になっている領域で名を立てたいとか、そういうハイエナのような欲望に飲まれることのないよう肝に命じなければならない。