データ分析

DockerでMySQL立ち上げ

dockerでのMySQLコンテナの立ち上げがなぜかちょっとだけうまくいかないので丁寧にやっていく。

$ docker run --name jsql -p 3306:3306 -p 33060:33060 -v ~/mySql/:/var/lib/mysql -d mysql/mysql-server
$ docker logs jsql
[Entrypoint] MySQL Docker Image 8.0.18-1.1.13
[Entrypoint] No password option specified for new database.
[Entrypoint]   A random onetime password will be generated.
[Entrypoint] Initializing database

~~~

[Entrypoint] GENERATED ROOT PASSWORD: 
*******************

パスワードの指定なしでMySQLを立ち上げ、docker logsでワンタイムパスワードを取得する。GENERATED ROOT PASSWORD:のところがそれ。

$ docker exec -it jsql mysql -p
Enter password: *****

Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 9
Server version: 5.7.28

Copyright (c) 2000, 2019, Oracle and/or its affiliates. All rights reserved.

Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.

Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

mysql> 

ログインできたらワンタイムパスワードを任意のパスワードで初期化する。

mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY 'my-secret-pw';
Query OK, 0 rows affected (0.00 sec)

これでパスワードの変更は完了。

rootユーザーは使いたくないとかlocalhost上のユーザーだとJupyterからアクセスできないとかいろいろあるので、ユーザー作って権限を付与する。

mysql> CREATE USER 'jniimi'@'%' IDENTIFIED BY 'my-secret-pw';
mysql> GRANT ALL ON *.* TO 'YOUR_USER_NAME'@'%';

本来は ‘username’ @ ‘hostname’ 形式での指定だけど、今回はホスト指定なしの%で通してます。(どっちみちうちの研究室のオンプレは研究室内のローカルネットワークか指定したIPからしかアクセスできない)

てかあんまSQL詳しくないんだけど、平文でパスワード打つ仕様しかないのかな。docker-compose使うにしてもパスワードがyaml上に、最初のワンタイムパスワードもlog上に平文で載るし。

ユーザーできたら一旦ログアウトして、今設定したユーザーネームとPWでログインできることを確かめておく。

$ docker exec -it jsql mysql -u YOUR_USER_NAME -p

pandas.DataFrameを突っ込む

全部pickleにしてたんだけど、データ量がえぐい。そして手元にはデータサイエンスが嫌いになるぐらい莫大な量のcsvファイルがある。とりあえずpickleをMySQLに突っ込んでみる。

%pip install sqlalchemy pymysql ipython-sql
import pandas as pd
from sqlalchemy import create_engine
import pymysql

engine = create_engine('mysql+pymysql://[USERNAME]:[PASSWORD]@[HOSTNAME]:[PORT]/[DATABASE]?charset=utf8', echo=False)

ここでポイントになるのはHOSTNAMEのところぐらいかな。コンテナ立ち上げ時に–linkとか使っときゃいいんだけど、deprecatedだとかっていう話もある。ここのHOSTNAMEに関しては、普通に外部(後述のMySQL Workbenchとか)からアクセスするときにはホストのグローバルIP+ポート番号でいいんだけど、今回は同一のDocker上にあるJupyter(コンテナ)からMySQL(別のコンテナ)へのアクセスなので、Dockerで内部的に振られたIPを指定する必要がある。

確かめるためには、MySQL側のbashに入ってhostを見ればいい。

$ docker exec -it jsql /bin/bash
# cat /etc/hosts
127.0.0.1	localhost
::1	localhost ip6-localhost ip6-loopback
fe00::0	ip6-localnet
ff00::0	ip6-mcastprefix
ff02::1	ip6-allnodes
ff02::2	ip6-allrouters
172.17.0.4	***

これでDocker内部のIPは172.17.0.4だとわかるので、それをHOSTNAMEに指定すればいい。ちなみに #hostname -i でもみれるけどmysql/mysql-server入れただけのコンテナだとhostnameコマンドは入っていない。

あとはMySQLへの書き込み。

d = pd.read_pickle('df.pkl')
d.to_sql([TABLENAME], engine, index=False, if_exists='append')

うん、こんだけですね。指定したTABLEがすでに存在しているときの挙動がif_existsで、今回は追加していってほしいので’append’にしてある。その他’replace’(上書き)、’fail’(エラー吐いて中止)などある。

ただまあ、時間かかるねーこれは。手元のデータ全部処理するのに1週間ぐらいかかりそうな気がする。気長にやらせるしかないなあ。

MySQL Workbenchからアクセス

学部時代に留学生で先輩というか後輩というかの人がデータをMySQLとモニタリングソフトで触っていたのがずっと頭にあって、それがやりたかったのだ。当時彼女が何を使っていたのか定かではないが、とりあえずWorkbenchでドヤ顔でモニタリングする。

今回は外部のPC(というか普通に手元のMacBook)からアクセスしたいので、グローバルIPを使う。Docker上のポートの設定は冒頭のオプション-p 3306:3306 -p 33060:33060で済ませてあるので、あとは本体のグローバルIPの3306ポートにアクセスすればいい。

新規の接続設定からConnection Nameを適当につけ、HostnameにグローバルIPを、ポートはそのまま3306、今作ったユーザー名とパスワードを入力すれば簡単に接続できる。楽だーーー。

余談だけど外部の人に計算資源を使ってもらうために整備したJupyterHubがうまく挙動していないことが判明した。かなしみである。