データの要約と情報量の話

コロナ禍と前後して「これからは動画の時代！読書なんかしてるやつは馬鹿！」みたいなノリで世の中が一気に動画に移行した。しかし実際のところ、動画にしても音声にしても文章と比較した学習効率の低さにはうんざりするものがあって、本の章を1つ扱う解説動画を観る（それもただ観るだけの）時間で、読書だと一通り読み込んだ上で自分なりのアウトプットまでできる。

そんな感じで、「それでも動画でゆっくり丁寧に学ぶことが大事なのだろうか…？」なんて考えていたところ、最近のAI関連でそれなりの精度の文字起こしとその翻訳や要約ができるようになった。すると人々は途端に「動画の文字起こしと要約でタイパ！動画を全部見ているやつは馬鹿！」みたいな感じで動画の内容を文字に起こして圧縮し始めた。

マジでなんなんだ。本を読めよ。

要約が悪いわけではない。僕も本の要約や概要を知るためにflierを使うことはたまにある。

研究でさえも最近はPerplexityで見つけた論文をChatGPTで要約して、いくつか情報が足りない点についてChatGPTとディスカッションして、その上でしっかり原文を読み込むかどうか決定するのが基本的なルーティーンになっている。僕はもうこの辺のツールに毎年の研究費のうちの結構な額を払ってもいいとさえ思っている。

ただいずれにせよ、要約で内容の”ミソ”だけ吸い取ることでは決して得られないものが確実にある。

それを言い切れるのは結局のところ僕の最近の研究関心がその辺りにあるからで、データにおいても、代表値に要約することによって”原データから毀損する情報”というものが必ずある。ある集合を代表することは（それがいかなるマイノリティ的属性の集合であっても）常にその集合のマジョリティの立場を取ることであり、したがって何かしらの情報は必ず無視することになる。さもなくば要約は行われない。

ただし、ここで何かしらの情報を必ず無視するというのも、情報理論の見地からみる”要約”は復号可能な形でデータの情報量を減らすことが目的となるので厳密には語弊があるけど、統計学や機械学習においてのそれはデータを学習できる形に整形するために必要な過程であり、当然ながら復号できないので情報は多かれ少なかれ必ず落ちる。

（だから弱要約の多エンティティ多変量時系列データやクロスセクションデータをマルチモーダルに学習させる必要が出てくる。この辺は次に出る（であろう）論文に書いてます）