データ分析でDatabricksを利用してみた所感

これはなに? Databricksをデータ分析で利用してみたので、備忘録のため所感をまとめてみました。 利用したのはAzure Databricksですが、AWSなど他のプラットフォーム上のDatabricksでも機能的に大きな違いはないと思います。

Databricks(Spark)でXMLファイルを読み込む

これはなに? DatabricksでXMLをソースとしてデータ分析するために、DatabricksでXMLを読み込むための手順。 Sparkのライブラリインストールから、XMLファイルをSparkのデータフレームに格納するところまで。

Splunkで1日のインデックスごとのログ流量を集計する

これはなに? インデックスごとのログ流量を確認するためのTips。 Splunkのライセンス利用料は、基本的に1日の取り込んだログの流量に依存するため、1日辺りのログ流量の情報が重要になってきます。

Splunkでログ分析する際に参考になるリンク集

これはなに? Splunkを利用してログを分析した際に、参考になるサイトが結構あったので、そのリンク集です。 適宜追記していこうと思っています。

S3の特定パス配下にファイルが配置されたことを検知して、Amazon EventBridge(CloudwatchEvents)を実行する

これはなに? S3の特定のパス配下にファイルが配置されたことを検知して、Amazon EventBridge(CloudwatchEvents)を実行するための設定方法。 Amazon EventBridgeからLambdaやCodePipelineを呼べるので、様々の処理のトリガーとして使えます。 Amazon EventBr…

コンテナを使って、JupyterNotebook + PySparkの開発環境を構築する

これはなに? JupyterNotebook + PySparkの開発環境をJupyterが提供しているコンテナイメージより構築する。 開発環境はWindows。

Kinesis Data Firehose とSplunkを連携する際にハマったところ

これはなに? CloudWatchlogs上のログを、Kinesis Data Firehose経由で、Splunkに連携する検証をしていたところ思わぬところでハマったので、その内容について書きます。 Cloudwatchlogsのサブスクリプションの設定やKinesisの設定手順は、以下のチュートリ…

Glue Job実行時に発生する ”File already Exists” の原因を調査する

これはなに? Glue JobでデータフレームからファイルをS3に出力する際に度々おきる ”java.io.IOException: File already exists” の原因調査について、かなりまとまっている記事があったので日本語訳を載せます。 元記事 confusedcoders.com

Glueのデータカタログにカラムを追加した際に、Dynamicframeで認識しないときの対処方法

これはなに? Glueのデータカタログにカラムを追加した時に、Dynamicframeでカラムを認識できずにコケることがあったので、その対象方法と検証結果について書きました。

CodebuildでDiffを実行するとエラーとなる場合の対処方法

これはなに? CodebuildでDiffを実行する場合のTips。 Codebuildのタスクで、特に何も考えずDiffを実行したところ、CodeBuildがエラーでコケたので対処方法について調査しました。

ECSで実行しているコンテナに対して、実行時間タイムアウトを実装する

これはなに? ECSで実行しているコンテナに対して、Lambdaを使って実行時間タイムアウトの仕組みを実装します。 タスク定義にタイムアウトの項目があったので、それで実行時間タイムアウト指定できるかなと思ったのですが、依存関係のタイムアウトとコンテナ…

CodeBuildでソースプロバイダのブランチ名を取得する

これはなに? CodeBuild内でソースプロバイダのブランチ名を取得するTips。 CodeBuildを利用して、DockerFileよりDockerコンテナを作成する際に、ビルドするソースのブランチによって挙動を変えたくて調査しました。 ソースプロバイダは、CodeCommmit。

AWS AthenaでS3上のCSVファイルより、テーブルを作成するときにヘッダー行をスキップする方法

Athenaを利用して、S3のCSVファイルを読み込むときにヘッター行をスキップするTips

ECRの untagged イメージにタグ名をつける

これはなに? AWS CLIでECRの untagged イメージにタグ名をつける手順メモ。 公式の手順だとイメージ変更にタグ名が必要だが、そもそもタグが付いてないイメージなので困って調べた。 イメージにもう一度タグを付ける - Amazon ECR

AWS CLIでAWSリソース情報をCSV形式で取得する

これはなに? EC2やLambdaなどのリソース情報をCSV形式で取得するAWS CLIコマンド群。 コスト削減を目的としてデータ集めていたので、課金に関連するパラメータが多いです。 実行環境はWindows。

AmazonLinux2のコンテナにAmazon Coretto8,11をインストールして、alternativesで切り替える

AmazonLinux2のコンテナに、AmazonCorretto8,11をインストールして、alternatives で切り替えられるようにします。

ECS コンテナインスタンスのスケールイン時のタスク実行チェックとドレイニング自動化

ECSでAutoScalngを設定している場合、スケールイン時に実行中のタスクを異常終了させないようにタスクがないかチェックしてあげる必要があります。 AWSの公式ブログで自動化している記事があったので、処理を正確に理解するために記事を参考にしながらLambda…

ECS on EC2でEFSをマウントする

ECS on EC2のコンテナ内でEFSを利用する際に少しハマったのでさらっと設定の備忘録。 事前準備 設定 ① ECS ‐ タスク定義 - <タスク定義名> - ボリューム ② ECS ‐ タスク定義 - <タスク定義名> - コンテナ定義 - マウントポイント 動作確認

boto3 でCloudWatchLogsの一覧を出力する

CloudWatchlogsはAWSの各種サービスのログやOSのログなどを簡単に保管できるのですが、気が付くと大量のロググループが作成されていて、料金もまぁまぁ発生したりしています。 今回Boto3使ってCloudwatchlogsの一覧を取得するスクリプトを作成しました。 保…

Jenkins SlaveタスクをFargate上で実行する

1. 環境 2. 作業 ① ECSプラグインをインストールする ② クラスター作成 ③ タスク定義作成 ④ Jenkins Slave Template 設定 ⑤ 動作確認 3. 最後に 1. 環境 OS : AmazonLinux2 Jenkins : 2.223-1.1 ECS プラグイン: Amazon Elastic Container Service (ECS) / F…

Lambda内で利用されるboto3のバージョンを調べてみた

Lambdaで実行するboto3のバージョンを調べたのでメモ。 調べ方 OSモジュールをインポートして、Lambdaのruntime情報が格納されているディレクトリを参照する。 以下はPython3系のLambdaを調べた時のコード。 import os import pprint as pp def lambda_handl…

boto3 でEC2とLambdaにアタッチされているIAMロール一覧を出力する

権限の見直しなどでEC2やLambdaのIAMロール回りを見直すことが多く毎回コンソールやCLIで確認するのが手間なので、CSVで出力できるようにしました。 以前IAMロールの一覧とアタッチされているIAMポリシーの一覧を作成するスクリプトを作りましたが、それを改…

CodePipeline から Lambda(Python)を実行した際に、「実行中」 からステータスが変わらない

最近 CI/CD環境の構築をしており、CodePipelineからLambdaを実行した際にハマったのでメモを残します。 問題 問題 環境 原因と解決方法 原因 解決方法 サンプルコード

異なるAWSアカウントのS3バケット間でコピーしたオブジェクトが「403 Access Denied 」になったときの対処法

異なるAWSアカウントのS3間のデータコピーをAWS CLIで実施した際に権限回りで少しはまったので備忘録です。 問題 原因と解決方法 最後に

S3 Select でParquetの中身を簡単に確認する

Parquetファイルは、テキストエディタなどでは中身を確認することがができず、中身を確認するのがすごく手間です。 S3にPaquetファイルを保管している場合は、S3 Select により簡単に中身が確認できるため、その手順を記載します。 手順 最後に

lambdaでWindowsのPathを指定する場合の注意点(エスケープシーケンス)

LamdbaからRun Command を実施するためにWindowsのPathを指定したところ、うまく実行できず詰まったのでメモ。 普通にWindowsのPathを指定すると \(バックスラッシュ) がPythonのエスケープシーケンスに変換されていたのが原因でした。 [参考サイト] エスケ…

SquidでHTTPS対応な透過的Proxyを構築する

http及びhttpsの通信を透過的に処理するProxyをAWS上に構築します。 https通信を透過的にproxyするには、一度通信の復号化が必要なため、Squidの「ssl-dump」機能を利用します。 本構成では、機能検証のため冗長性等は考慮していません。本番利用する場合に…

IAM Role 一覧とアタッチされているポリシーをCSVで出力

IAM ロールの一覧とそれにアタッチしているポリシーの一覧を作る必要があり、 手動だと手間がかかるので、Python(boto3)を使ってCSVで出力できるようにしました。 やったこと スクリプト

AWS Glueを使って、データ分析基盤を構築する(CSV → Parquet)

最近データ分析基盤系に興味をもっているので、AWS Glueを使ったデータ分析基盤の構築についてのチュートリアルをやってみました。 CSVファイルを分析用のファイル形式の「Parquet」に変換し、Amazon Athenaから閲覧します。 AWS Glue と Amazon S3 を使用し…

【AZ-103 試験対策】IDの管理

Azure 資格試験 Exam AZ-103: Microsoft Azure Administrator - Learn | Microsoft Docs 取得のためのメモ [AZ-103 Link] 1. 【Azure AZ-103 試験対策】Azure サブスクリプションおよびリソースを管理する - 雲のメモ帳 2. 【Azure AZ-103 試験対策】ストレ…