データ分析

Colab Pro+を契約した

家の空気を循環させるために山善のタワーファンを買ったら、「静音モデルでこのモーター音なん…?」「んでこのモーター音でこの風量なん…?」みたいなことになってしまい、全く循環している気配はないのに音だけはうるさい家ができた。安物を買った俺が完全に悪い。

Colab Pro+

オンプレの解析サーバーを保守するのがいい加減馬鹿らしくなってきた。これまではColaboratoryだとインスタンスがしょっちゅう吹っ飛ぶので、最初のデータ整形だけは自前の解析サーバーか他所のシステムを借りてやっていたんだけど、もうそれすらも面倒臭くなってきた。もちろん位置情報データとか触ろうと思ったらスパコン借りないといけないんだけど、Colab Pro+を契約して位置情報のデータ整形以外は基本的にColabで済ませることにした。

ColabとGoogle Drive

これまでColab Proの契約に気が進まなかったのはGoogleのせいではなく大学側の設定の問題で、大学のGoogle Workspaceは容量無制限で使えるけど、Google Paymentが使えないように設定されてる関係でColab Pro+が契約できなかったのだ。

かといって個人のGoogleアカウントで契約すると今度はGoogle Driveの容量が足りない。フォルダを共有して大きなファイルができるごとに所有権を移譲するようなことはやってられない。

仕方がないので個人アカウントでColab Pro+とGoogle One (2TB)を契約して、Google Driveの中身をほぼ丸ごと大学のアカウントと共有して使っている。わざわざそんなことをしてまで大学のアカウントを噛ませるのは、ひとえにGoogle WorkspaceじゃないとFilestreamが使えないから。

実際Google Driveとの連携にしたって、ローカルにすぐファイルが同期されるのは確かに便利なんだけど、逆にいうと分析用のデータなんてそんなもんはローカルに落ちてくるなという話でもある。セキュリティ的にも怖い。

つまり個人のGoogleドライブを使ってそこからデータの読み書きをすると解析データが全部ローカルに落ちてくるので嫌なんですよ。解析用のデータだけで3TBぐらいあるので。(これ以外にS3に100TBぐらい溜まっているが…)

前職でAWSのS3とEC2上のJupyter使って解析やってた時も思ったけど、やっぱ大規模データをいじるならストレージ系よりちゃんとデータベースを使った方がいい。ストレージ系はどうしてもファイルの保管をメインにしているから頻繁な読み書きには向いていないし、だからまずもって読み出しが遅い。さらにはやっぱそこの読み書きの間にファイル関係のエラーで色々吹っ飛んだりもする。

Pro+のRAM割り当て

ぱっとデータ整形に使ってみたけどRAMは32GBぐらいは割り当ててくれるっぽい。

128GBとかまでは期待しないにしても、価格が倍になってもいいから64GBぐらいまで対応してくれるととりあえずは安心して使えるかなという印象ではある。プランとしてPro+から考えればPro Max++ぐらいのグレードでよい。(ちなみに設定からランタイムをハイメモリに設定しておかないとPro+だろうが普通に死ぬ。)

サーバーがぶっ壊れないか(そして大学の停電スケジュールがいつなのか)に常に恐れ慄きながら過ごしている身としては、この利便性で年6万ならタダ同然というか、もはや払っていないのと同じというか。

AWSとかGCPとか契約して自分で環境を保守するのが面倒だからこういうのを使っているわけで、Colabにすることで多少割高になるのは問題ではない。俺はシステムエンジニアではないのだ。

次に環境を改善するとしたら、Google Oneを解約してどこかでSQLサーバーでも立てる感じになるかな。