RFM分析の拡張手法のレビュー

国内誌に査読論文がacceptされました。ありがたい。「RFMC 分析における Clumpiness 指標の拡張と自社顧客の行動予測への応用 Clumpiness を活用した離脱時期と競合利用の予測手法の提案」です。Clumpiness指標の問題を整理して指標改善してから、スマホゲームの離脱とスーパーマーケットの購買データに当ててモデリングしています。

その分析でも気になっていたんだけど、RFMだとRecency, Frequency, Monetaryの3指標になるからどうしてもウェブサービスとかアプリ利用にはちょっと当てづらい。特に広告収入ベースのフリーのサービスなんかだとMonetaryとして使える指標がない。

RFMを代表値を使った利用ログのsummaryだと考えると、いかに少ない数値で、いかに消費者の異質性を捉えたまま要約できるかというゲームに落とし込める。するとスマホアプリとかウェブ利用なんかにはmonetaryよりもduration（利用時間や滞在時間の合計あるいは平均）を使った方が説明性が高いことは容易に想像できる。ただ、「ログデータで課金情報とれないから代わりに利用時間使うわ」みたいな気軽な感じでモデル作ってるのたまにあるけど、その辺の変形モデルいっぱいあるから。

ということでRFMのバリエーションを調べていると（必ずしも原著は引っ張っていないです）、[1] にいくつかレビューされていた。

0. そもそもRFMについて

この類のクラシカルなマーケティング系分析手法に関しては、大体Blattberg et al. (2008) [0] を参照しておけばいい。RFM分析についての言及では、少なくとも1961年にはGeorge Cullinanが顧客分析にRFMを用いることを奨励していると記されていて、どうも原典はわからない模様。いずれにしても、ダイレクトマーケティングにおいてDMに対する反応の異質性を把握するためにRFMが使われ始めたようなことが書いてある。

やはりRFMが受けし特命は異質性の把握なのであり、その把握のための指標が時代とともに更新されていくのは極々自然なことだ。

1. RFMの変形モデル系

Recency, Frequency, Duration （RFD）：Monetaryの代わりにDurationを使うモデル。たとえば [5] では”uses Duration to measure how long the user actually interacted with the application” とのことで、まさに今回探していたもの。

Recency, Frequency, Possessed Quantity (RFQ)：保有数量として同じカテゴリ内のアプリのインストール数なんかを使う。ほとんどのゲームアプリは基本無料だから自分のスマホにインストールしたゲームアプリの数を考慮した方がいい的な話。しかし1企業が競合アプリのインストール数を把握するのはそもそも現実的ではないし、基本無料であればインストール自体にはコストがほとんど掛からないので、ロイヤルティにそこまで影響するかは疑問。[6]

Recency, Frequency, Reach (RFR)：ソーシャルグラフ系（SNSなど）に当てるために変形した形。”proposed for social graph, i.e. Recency – last post, Frequency – total number of posts, Reach – networks, friends.”とのことなので、各ノードの接続数（twitterのフォロワー数やFacebookの友人の数とかに該当）ぐらいなら機械的に集めてこられるけど、本当にリーチ（具体的な各投稿のインプレッションとか）のデータを使おうと思ったらtwitter自体がやるのでも大変だろうな。

Frequency, Recency, Amount and Type（FRAT）：Monetaryの代わりにAmount (of Money) & Type (of goods) として、順序尺度に離散化した商品のグレードとかを入れてる。[4] class-A cars, class-B cars and class-C carsみたいに離散化した順序尺度を使ってるけど、これ複数購買があった時に平均も出しづらいし、つまりは繰り返しがあるような商品購買/サービス利用には適用しづらいよなあ。”what a person buys at present would be indicative of what that person would buy in the future”とのことで複数購買が（基本的には）発生しない自動車みたいな大きい買い物に対して直近の商品データを入れる感じなのかな。

2. Extended RFM系

Extended RFMはRFMの3指標にさらに別の指標を加えたモデル。RFMは簡易的すぎて異質性が捕捉しづらい。

Recency, Frequency, Monetary, Clumpiness (RFMC)：利用タイミングの偏りとしてClumpinessを提案して議論が沸き起こったモデル。[7] 僕もこの辺を触って遊んでいる人である。

Recency, Frequency, Monetary, Time, Churn probability (RFMTC)：最初の購入/利用開始からの経過時間(Time)と、その瞬間の離脱確率を入れるモデル。 [8] これで面倒なのは明らかにChurn probabilityの考慮なんですよね。本文では “Churn probability is defined as the probability that a customer discontinue his/her use of a service for ever after a market- ing campaign” とのことで、複数回のマーケティングキャンペーンへの反応有無をベルヌーイ過程として、接触かけてもアクションが返ってこなかったら…みたいな話っぽい。しかし（これはそもそもの話として）、RFMやってる人たちっていうのは多くの場合に「RFM分析で算出した指標を基に離脱確率を予測したい」みたいな感じ（あるいは指標を加重和で1つに統合して顧客をランク付けしたいだとかCLV出したいだとか）だったりするというのに、そのRFMの中で離脱確率まで指標化しろっていうのはちょっとどうなのかなと思ってしまうけどね。

Recency, Frequency, Monetary, Count Items (RFMCI)：購入品目数を考慮するもの。[9] あんまり読んでないけど、確か綺麗に結果が出なかったんじゃなかったかな。

Recency, Frequency, Monetary, Length (RFML)：RFDのDurationはある月（or該当する調査期間内）の総利用時間なんかを入れていたわけだけど、L指標ではLengthとして利用期間（最後の利用日 – 最初の利用日）、つまりこれまで何日間続けているか、あたりの情報を入れる。[9] ただまあ、これも論文が医療系(health care services for a public sector hospital)のデータに当ててるっていうちょっと特殊なパターンなので、医療に比べて遥かに離脱/復帰/ブランドスイッチの起きやすいゲーム分野では、アクティブだった月だけカウントしていった方がいいかもしれない。

Timely RFM（TRFM）：商品購買の周期性（purchase periodicity）と属性（product property）を考慮した指標化。[3]

3. その他

Weighted RFM（WRFM）：同じRFMの値でも他人の利用状況によって相対的なロイヤルティは変わってくるからそこを標準化したっていうような話かな。 [2]

この中でいくつかの手法が3指標RFMに顧客i (i \in \Omega)、ウェイトw_j (j \in R, F, M) について

$score_i = w_R R_i + w_F F_i + w_M M_i$

とかってやってるけど、僕の研究だとそれぞれの要素の影響の有無やその方向を見たいので、それをさらに1指標に要約するようなことはやりません。必要以上の要約は情報量を毀損するだけなので。

[0] Blattberg, R. C., Kim, B. D., & Neslin, S. A. (2008). Database marketing. Springer.

[1] Birant, D. (2011). Data mining using RFM analysis. In Knowledge-oriented applications in data mining. IntechOpen.

[2] Sarvari, P. A., Ustundag, A., & Takci, H. (2016). Performance evaluation of different customer segmentation approaches based on RFM and demographics analysis. Kybernetes.

[3] Lee, L. H. L. F. M., & Liu, W. J. (2006, July). The timely product recommendation based on RFM method. In Proceedings of the International Conference on Business and Information, Singapore (pp. 12-14).

[4] Cho, Y. S., Kim, K. A., Moon, S. C., Park, S. H., & Ryu, K. H. (2015). Effective purchase pattern mining with weight based on FRAT analysis for recommender in e-commerce. In Computer Science and its Applications (pp. 443-454). Springer, Berlin, Heidelberg.

[5] Yan, B., & Chen, G. (2011, June). AppJoy: personalized mobile application discovery. In Proceedings of the 9th international conference on Mobile systems, applications, and services (pp. 113-126).

[6] Liu, F., Zhao, S., & Li, Y. (2017). How many, how often, and how new? A multivariate profiling of mobile app users. Journal of Retailing and Consumer Services, 38, 71-80.

[7] Zhang, Y., Bradlow, E. T., & Small, D. S. (2015). Predicting customer value using clumpiness: From RFM to RFMC. Marketing Science, 34(2), 195-208.

[8] Khajvand, M., Zolfaghar, K., Ashoori, S., & Alizadeh, S. (2011). Estimating customer lifetime value based on RFM analysis of customer purchase behavior: Case study. Procedia Computer Science, 3, 57-63.

[9] Zare Hosseini, Z., & Mohammadzadeh, M. (2016). Knowledge discovery from patients’ behavior via clustering-classification algorithms based on weighted eRFM and CLV model: An empirical study in public health care services. Iranian journal of pharmaceutical research : IJPR, 15(1), 355–367.