雲のメモ帳

猫とクラウドと旅行が好きなインフラエンジニアです。 日々の調べたことや興味が持ったことをこのブログにアウトプットします。

ポルカドットスティングレイの歌詞データの分析結果を可視化してみた -TensorBoard-

これはなに? Word2Vecを使って、ポルカの歌詞データを分析したので、その結果について可視化してみました。 前回の記事でモデル化まで終わっているので、内容としては結構簡単です。 歌詞データの分析モデル作成は以下の記事を参照ください。 www.cloudnote…

ポルカドットスティングレイの歌詞データをPythonで機械学習、分析してみた -word2vec‐

これはなに? 前回自然言語処理をする環境構築をやってみたので、GWの宿題として実際に分析をやってみました。 せっかくなので自分が好きな分野で分析してみたかったので、好きなアーティストのポルカドットスティングレイの歌詞データを自然言語処理、分析…

Dockerで自然言語処理(NLP)をするための環境構築

これはなに? 業務で自然言語処理をすることが多くなって、環境構築するのがメンドイのでコンテナ化してみました。 形態素解析のためにMeCab、Word2Vecを利用するためにgensimをそれぞれインストールし、プラットフォームとしてJupyterLabを利用できるように…

Azure Databricksのpysparkでデータ加工する際によく使うコード集

これはなに? 私がDatabricksのpysparkを使ったデータ加工する際によく使っているコードをメモとして残します。 Databricks特有の部分と一般的なpysparkの部分を分けて書いています。

Azure File Storageの使用量を監視する

これはなに? Azure Fileストレージの使用量監視、アラートの設定をやってみます。 監視はAzure モニターを利用します。

Splunk Add-on for AWSの取り込みログを確認する

これはなに? 以前AWS CURの情報をSplunk Add-on for AWSでデータ取り込みをしたのですが、取り込みログを調べる方法を記載します。Splunkのライセンス形態は日毎の取り込み容量になるので、取り込み容量の調査をする際に有効なログです。 以前の記事は以下…

Athenaで各レコードのソースファイルを特定する

これはなに? Athenaでのクエリ結果のソースファイルを特定する方法。Athenaのトラブルシューティングをする際のソースファイルがおかしいのか、テーブルがおかしいのか切り分けする必要があるので、その際に利用できます。

Splunkダッシュボードで動的パラメータ(トークン)を利用する

これはなに? 以前AWS CURの情報を可視化したのですが、ダッシュボード化した際に、ダッシュボード上で任意のパラメータで可視化したくなったので、Splunkで動的パラメータを使ってみました。 Splunkでは動的パラメータのことをトークンと言うらしいです。 w…

SplunkでCSVベースのLookup Tableを使ってみる

これはなに? Splunkでログ分析した際に、ログの出力結果と外部にある情報を結合したいことがあり、Lookup Tableがめちゃくちゃ便利だったので、設定方法を備忘録として記載します。

DatabricksへのアクセスをIP制限する

これはなに? DatabricksでIP制限するための手順メモ。 Azureを利用している場合は、P1ライセンスを持っていればAzureADの認証部分でも実施可能ですが、今回はDatabricksの機能を使ってIP制限します。