これはなに? 私がDatabricksのpysparkを使ったデータ加工する際によく使っているコードをメモとして残します。 Databricks特有の部分と一般的なpysparkの部分を分けて書いています。
これはなに? Azure Fileストレージの使用量監視、アラートの設定をやってみます。 監視はAzure モニターを利用します。
これはなに? 以前AWS CURの情報をSplunk Add-on for AWSでデータ取り込みをしたのですが、取り込みログを調べる方法を記載します。Splunkのライセンス形態は日毎の取り込み容量になるので、取り込み容量の調査をする際に有効なログです。 以前の記事は以下…
これはなに? Athenaでのクエリ結果のソースファイルを特定する方法。Athenaのトラブルシューティングをする際のソースファイルがおかしいのか、テーブルがおかしいのか切り分けする必要があるので、その際に利用できます。
これはなに? 以前AWS CURの情報を可視化したのですが、ダッシュボード化した際に、ダッシュボード上で任意のパラメータで可視化したくなったので、Splunkで動的パラメータを使ってみました。 Splunkでは動的パラメータのことをトークンと言うらしいです。 w…
これはなに? Splunkでログ分析した際に、ログの出力結果と外部にある情報を結合したいことがあり、Lookup Tableがめちゃくちゃ便利だったので、設定方法を備忘録として記載します。
これはなに? DatabricksでIP制限するための手順メモ。 Azureを利用している場合は、P1ライセンスを持っていればAzureADの認証部分でも実施可能ですが、今回はDatabricksの機能を使ってIP制限します。
これはなに? AWS利用料を確認するLINE Botを作ってみたので機能紹介と簡単な構築手順&コード公開。 個人の検証環境としてAWSを利用していると結構課金額がいってしまうので、こまめに確認できるようによく利用するツールのLINEを使ってAWS利用料を確認でき…
これはなに? 2020年11月にRedshiftのPythonドライバがOSSになったので使ってみた。 Redshiftから取得したデータをPandasのDataframeを使って分析することが多いので、取得してきたデータをDFに格納までしてみました。 GitHub - aws/amazon-redshift-python-…
これはなに? AWS S3 Selectを使って、CSVやParquetファイルの中身を確認するスクリプトを作ったので備忘録。 CLIをそのまま使うとパラメータの指定が大変なので、スクリプト化しました。利用しているAWSコマンドは、”select-object-content”。 select-objec…