雲のメモ帳

猫とクラウドと旅行が好きなインフラエンジニアです。 日々の調べたことや興味が持ったことをこのブログにアウトプットします。

Databricks

Databricks クラスターの起動を早くする方法

これはなに? Databricksを利用して分析を進めていくと必要なライブラリが多くなり、起動が遅くなることがあります。起動を早くする方法があるので、Tipsとして記載します。

Databricks上でTensorBoardを実行して、Word2Vecモデルを可視化してみた

これはなに? Databricks上でTensorBoardが実行できることを知ったので、Word2VecのモデルをDatabricks上で可視化するサンプルコードを残しています。

Databricks on AWS が従量課金に対応したので、デプロイ試してみた

これはなに? Databricksが従量課金に対応したので、DatabricksをAWS上にデプロイして、Databricksコンソール見れるところまでやってみました。 AWSにおけるDatabricksを用いたレイクハウス構築を高速に:新たなPay-as-You-Goオファリングの発表 - Qiita

WEB上からDatabricks クラスターにシェルアクセスする

これはなに? WEB上からDatabricks クラスターにシェルアクセスためのTipsです。Databricksクラスターはマネージドに色々やってくれるので、あまり接続する機会はないです。ただ、不具合などのトラブルシューティングの際にシェルアクセスすると作業が捗るの…

Azure Databricksのpysparkでデータ加工する際によく使うコード集

これはなに? 私がDatabricksのpysparkを使ったデータ加工する際によく使っているコードをメモとして残します。 Databricks特有の部分と一般的なpysparkの部分を分けて書いています。

DatabricksへのアクセスをIP制限する

これはなに? DatabricksでIP制限するための手順メモ。 Azureを利用している場合は、P1ライセンスを持っていればAzureADの認証部分でも実施可能ですが、今回はDatabricksの機能を使ってIP制限します。

Databricks上のテーブル列にコメントを入れる

これはなに? Databricks上に作成したテーブルの列にコメントを入れる方法を調べたので備忘録。

PowerBIデスクトップからDatabricksに接続して分析する

これはなに? PowerBIデスクトップから、Databricks上のテーブルに接続し可視化する手順を記載します。 流れとしては、Databricks上でアクセス情報及びクレデンシャルを取得し、その情報を基にPowerBIデスクトップから接続、可視化を実施します。

データ分析でDatabricksを利用してみた所感

これはなに? Databricksをデータ分析で利用してみたので、備忘録のため所感をまとめてみました。 利用したのはAzure Databricksですが、AWSなど他のプラットフォーム上のDatabricksでも機能的に大きな違いはないと思います。

Databricks(Spark)でXMLファイルを読み込む

これはなに? DatabricksでXMLをソースとしてデータ分析するために、DatabricksでXMLを読み込むための手順。 Sparkのライブラリインストールから、XMLファイルをSparkのデータフレームに格納するところまで。