雲のメモ帳

猫とクラウドと旅行が好きなインフラエンジニアです。 日々の調べたことや興味が持ったことをこのブログにアウトプットします。

pyspark

Azure Databricksのpysparkでデータ加工する際によく使うコード集

これはなに? 私がDatabricksのpysparkを使ったデータ加工する際によく使っているコードをメモとして残します。 Databricks特有の部分と一般的なpysparkの部分を分けて書いています。

コンテナを使って、JupyterNotebook + PySparkの開発環境を構築する

これはなに? JupyterNotebook + PySparkの開発環境をJupyterが提供しているコンテナイメージより構築する。 開発環境はWindows。