機械学習環境Google Colaboratory(学習メモ)
学んだプログラミング環境についてメモします。
機械学習を行う場合、変数やデータが多い場合は、PCで実行するのは時間がかかりすぎる。
機械学習やディープラーニングでは、GPU を使うことが前提になるが、個人でGPUをそろえるのは金額面で無理がある。
そんな場合に、Google Colaboratoryはおすすめ。
Google Colaboratory
無料でブラウザからPythonが実行できる環境。GPUが使える。共有が簡単。
colab.research.google.com
Google Colaboratory は、 Google Drive との連携できるため、解析対象のデータを Google Drive 上においておくと便利。
具体的にgoogle driveでデータを保存しておく場所。
Google Colaboratoryには、機械学習やディープラーニングを行うために必要なパッケージがそろっている。
例:NumPy、pandas、Matplotlib、TensorFlow、Keras...
使用上の制約が2つある。
・90分ルール
ブラウザと Google Colaboratory とのセッションが切れて90分後、ランタイムがシャットダウンする。
・12時間ルール
インスタンス起動後、12時間経過すると、ランタイムはシャットダウンする。
ランタイムがシャットダウンすると、実行中であったとしても、すべてリセットされる。
したがって、途中結果などについては、Google Drive などに保存する必要がある。
また、コマンドをつかってランタイムの確認ができる。
!cat /proc/uptime | awk '{print $1 / 60 " m, " $1 / 60 / 60 " h "}'
リソースの制約は、以下のとおり。
・ストレージ
・GPU利用 360GB
・GPUなし 40GB
・TPU利用 40GB
・メモリ 13GB
・GPUメモリ 12GB
リソースの使用状況は、画面の右上に表示される。
Google Colaboratory の使い方
Jupyter Notebook と基本的には同じ。コードを入力して、Shift+Enter で実行。
新規スクリプトファイルの作成
左上の「+ 新規」ツールアイコンをクリックして、
その他 > Google Colaboratory
を選択して、新しいスクリプトを開く。
Google DriveデータをColaboratoryで使う場合
Google Driveにあらかじめ解析したいデータを入れておくことで、Google Coraboratoryからデータにアクセスできる仕組みがある。その場合、事前に認証手続きをおこなう必要がある。
認証の手続きは次のとおり。
認証手続き用のリンクと、認証コード入力用のテキストフィールドのフォームが表示されたら、認証手続きにしたがって、認証コードを入手、フォームに入力してエンターキーを押す。
In[0]:
DATA_PATH = '/content/gdrive/My Drive/Colab Notebooks/data/' # Google Colabratory 使用時 try: from google.colab import drive drive.mount('/content/gdrive') except ModuleNotFoundError as e: DATA_PATH = './data/' # ローカル環境 使用時
Enter your authorization code:
··········
Mounted at /content/gdrive
しばらくすると認証が完了する。
変数 (例えば、「DATA_PATH」) に、データ・ファイルのパスが設定されるので、これに、実際に使うファイル名をつなげればデータをロードできる。
押していただけると励みになります!