これはなに?
Databricksが従量課金に対応したので、DatabricksをAWS上にデプロイして、Databricksコンソール見れるところまでやってみました。
AWSにおけるDatabricksを用いたレイクハウス構築を高速に:新たなPay-as-You-Goオファリングの発表 - Qiita
Databricksとは
昔別のブログで少し解説したので、そちらのリンク張っておきます。
データ分析でDatabricksを利用してみた所感 - 雲のメモ帳
デプロイ
早速AWS上にDatabricksをデプロイしてみます。
① Databricksのサブスクライブ(AWSマーケットプレイス)
AWS Marketplace: Databricks Lakehouse Platform
② Databricksアカウント作成(Databricksコンソール)
先ほど登録したメールアドレスに確認メールが飛びます。
③ Databricks ワークスペース設定(Databricksコンソール)
14日間はフリーなので、プランはお好きなものを選んでください。
Re:Dash使いたい場合や権限管理したい場合はPremium以上を選びましょう。
④ Databricks 環境構築(AWSコンソール)
QuickスタートをクリックするとCfnの設定画面に移ります。
パスワードは先ほど登録したDatabricksアカウントのパスワードです。
⑤ Databricks 環境確認(Databricksコンソール)
https://accounts.cloud.databricks.com/workspaces
Cfnのデプロイが成功したら、再度Databricksのコンソールに戻ります。
先ほど作成したワークスペースのURLが見れるようになっています。
この画面までこれたら、通常のDatabricksを利用するのと同じように利用できます。
Tips
ワークスペース立ち上げ後のクラスターの状態
ちなみにワークスペースを立ち上げると一台Databricksクラスターが自動で立ち上がってSpotインスタンスが起動しているので注意です。
一応2時間アクティビティが無いと自動停止されるようにはなっていますが、課金が気になる方はクラスターを停止しましょう。
ネットワーク
ネットワークですが、以下のようになっていました。 NATGWが起動するので、個人で利用する方は課金に注意してください。
- VPC * 1
- Subnet
- Public * 1 : NATGW用
- Private * 3 : Databricksクラスターの起動用
最後に
Databricks on AWSもAzureと同様に従量課金ができるようになって、利用するハードルが下がったように感じました。気軽に分析する環境としては最高なので、環境の選択肢が広がったのはうれしい。