雲のメモ帳

猫とクラウドと旅行が好きなインフラエンジニアです。 日々の調べたことや興味が持ったことをこのブログにアウトプットします。

ディレクトリを含まずにファイル圧縮する(zip -j)をPythonで実装する

これはなに? フォルダをzip化するときにディレクトリ情報を含みたくない時が時々あり、いつもはzip -jで対応していたのですが、zipコマンドが使えない環境だったのでPythonで実装しました。

Pythonを使って自身のグローバルIPを確認する

これはなに? Python実行環境のIPアドレスを調べる必要があり、サンプルコード作ったのでTIPSとして残しておきます。 サンプルコード実行するとGIPが取得できます。

Dockerを利用して、React実行環境を簡単に構築する

これはなに? 少しずつですが、フロントエンドの勉強もしていこうということで、まずはReactの実行環境をDockerで構築してみたのでメモを残します。

ポルカドットスティングレイの歌詞データをPythonを使ってキーフレーズ抽出してみた -PKE‐

これはなに? これまでポルカの歌詞データを使って自然言語を試してみたのですが、前々からやってみたかったキーフレーズ抽出を今回やってみようと思います。 ポルカドットスティングレイの歌詞どうしの類似度をPythonで算出してみた -Universal Sentence En…

Streamlit上でExcelで文字化けしないCSVのダウンロードリンクを生成する

これはなに? Streamlit上で生成したデータフレームをCSVとして出力し、Excelで読み込むと日本語が文字化けして困ったので、Excelで文字化けしないCSVのダウンロードファイルリンクの生成方法をメモとして残します。

Universal Sentence Encoderで発生した 「inheritable_header」 エラーの対処法

これはなに? ある日突然Dartabricks上でuniversal sentence encoderが動作しなくなり試行錯誤して対処したので、対処法を備忘録として残します。

Windowsでstreamlitコマンドが実行できない場合の対処方法

これはなに? Windows環境でStreamlitをpip installした後にコマンドがうまく実行できなかったので、その対処方法について備忘録を残します。

ポルカドットスティングレイの歌詞どうしの類似度をPythonで算出してみた -Universal Sentence Encoder‐

これはなに? ポルカの歌詞データ使って色々分析してきましたが、今回はUniversal Sentence Encoderという文章を数値化する仕組みを使って、歌詞どうしの類似度算出をやってみます。

Instagram Graph APIとPythonでInstagramからユーザーの投稿画像をダウンロードする

これはなに? Instagramの画像データ使って画像解析したいなーとおもったので、下処理としてInstagram Graph API使って画像のURL取得と実際に大量の画像を一括ダウンロードするPythonスクリプトを作ってみました。

PythonとGoogle スプレッドシートを使って、Instagramユーザー情報の簡易分析環境を作ってみた

これはなに? Instagramの簡易分析環境をPythonとGoogle スプレッドシート使ってみました。Instagramのインサイトって日ごとの細かいフォロワー数の変化や30日以上過去のデータが見れないので、GoogleSpreadsheetを簡易DB&BIツールとして利用して日ごとの変…

Teamsへカスタムアプリを登録し、ユーザーにカスタムアプリを配布する

これはなに? Teamsのカスタムアプリを登録して、ユーザーに配布するまでの手順メモです。Teamsのカスタムアプリに関する情報があまりなく、結構困ったので、どなたかの参考になれば。

Lambda Layer用PythonパッケージをWindows環境で簡単に作成する

これはなに? Lambda Layer用PythonパッケージをWindowsの環境で作成しようとすると環境準備が結構大変なので、Dockerを使って楽に作成する方法のメモです。

Instagram Graph APIとPythonでInstagramのハッシュタグ検索

これはなに? 前回の記事に引き続いて、Instagram Graph APIとPythonを使って、ハッシュタグ検索をしてみましたので、API仕様とサンプルコードを載せています。 Instagram Graph APIはドキュメントを呼んでもイマイチ使い方がわからないのと、あまり情報がな…

Instagram Graph APIとPythonでInstagramの「ユーザー情報、メディア情報」を取得する

これはなに? Instagram Graph API と Pythonを使ってInstagramのユーザー情報とかメディアの情報を取得してみたので、取得した項目とサンプルコードをあげます。API自体の使い方も結構癖があるのですが、何よりアクセストークンの発行とビジネスアカウントI…

WEB上からDatabricks クラスターにシェルアクセスする

これはなに? WEB上からDatabricks クラスターにシェルアクセスためのTipsです。Databricksクラスターはマネージドに色々やってくれるので、あまり接続する機会はないです。ただ、不具合などのトラブルシューティングの際にシェルアクセスすると作業が捗るの…

ポルカドットスティングレイの歌詞データをPythonで感情分析してみた -BERT日本語モデル‐

これはなに? 前回のブログに引き続いて、ポルカの歌詞分析やっていきます。 今回はBERTを使って歌詞の感情分析を実施し、曲中の感情の変化を可視化してみます。 www.cloudnotes.tech www.cloudnotes.tech

ポルカドットスティングレイの歌詞データの分析結果を可視化してみた -TensorBoard-

これはなに? Word2Vecを使って、ポルカの歌詞データを分析したので、その結果について可視化してみました。 前回の記事でモデル化まで終わっているので、内容としては結構簡単です。 歌詞データの分析モデル作成は以下の記事を参照ください。 www.cloudnote…

ポルカドットスティングレイの歌詞データをPythonで機械学習、分析してみた -word2vec‐

これはなに? 前回自然言語処理をする環境構築をやってみたので、GWの宿題として実際に分析をやってみました。 せっかくなので自分が好きな分野で分析してみたかったので、好きなアーティストのポルカドットスティングレイの歌詞データを自然言語処理、分析…

Dockerで自然言語処理(NLP)をするための環境構築

これはなに? 業務で自然言語処理をすることが多くなって、環境構築するのがメンドイのでコンテナ化してみました。 形態素解析のためにMeCab、Word2Vecを利用するためにgensimをそれぞれインストールし、プラットフォームとしてJupyterLabを利用できるように…

Azure Databricksのpysparkでデータ加工する際によく使うコード集

これはなに? 私がDatabricksのpysparkを使ったデータ加工する際によく使っているコードをメモとして残します。 Databricks特有の部分と一般的なpysparkの部分を分けて書いています。

Azure File Storageの使用量を監視する

これはなに? Azure Fileストレージの使用量監視、アラートの設定をやってみます。 監視はAzure モニターを利用します。

Splunk Add-on for AWSの取り込みログを確認する

これはなに? 以前AWS CURの情報をSplunk Add-on for AWSでデータ取り込みをしたのですが、取り込みログを調べる方法を記載します。Splunkのライセンス形態は日毎の取り込み容量になるので、取り込み容量の調査をする際に有効なログです。 以前の記事は以下…

Athenaで各レコードのソースファイルを特定する

これはなに? Athenaでのクエリ結果のソースファイルを特定する方法。Athenaのトラブルシューティングをする際のソースファイルがおかしいのか、テーブルがおかしいのか切り分けする必要があるので、その際に利用できます。

Splunkダッシュボードで動的パラメータ(トークン)を利用する

これはなに? 以前AWS CURの情報を可視化したのですが、ダッシュボード化した際に、ダッシュボード上で任意のパラメータで可視化したくなったので、Splunkで動的パラメータを使ってみました。 Splunkでは動的パラメータのことをトークンと言うらしいです。 w…

SplunkでCSVベースのLookup Tableを使ってみる

これはなに? Splunkでログ分析した際に、ログの出力結果と外部にある情報を結合したいことがあり、Lookup Tableがめちゃくちゃ便利だったので、設定方法を備忘録として記載します。

DatabricksへのアクセスをIP制限する

これはなに? DatabricksでIP制限するための手順メモ。 Azureを利用している場合は、P1ライセンスを持っていればAzureADの認証部分でも実施可能ですが、今回はDatabricksの機能を使ってIP制限します。

LINE Botを使って、LINE上からAWS利用料を確認できるようにしてみた

これはなに? AWS利用料を確認するLINE Botを作ってみたので機能紹介と簡単な構築手順&コード公開。 個人の検証環境としてAWSを利用していると結構課金額がいってしまうので、こまめに確認できるようによく利用するツールのLINEを使ってAWS利用料を確認でき…

Redshift から amazon-redshift-python-driver を使ってデータ取得し、Dataframe に取り込む

これはなに? 2020年11月にRedshiftのPythonドライバがOSSになったので使ってみた。 Redshiftから取得したデータをPandasのDataframeを使って分析することが多いので、取得してきたデータをDFに格納までしてみました。 GitHub - aws/amazon-redshift-python-…

AWS CLIでS3 SELECTを実行し、S3上のファイルの中身を簡単に確認する

これはなに? AWS S3 Selectを使って、CSVやParquetファイルの中身を確認するスクリプトを作ったので備忘録。 CLIをそのまま使うとパラメータの指定が大変なので、スクリプト化しました。利用しているAWSコマンドは、”select-object-content”。 select-objec…

Splunk EnterpriseでAWS CURの情報を可視化/分析する

これはなに? Splunkに、AWS のコストと使用状況レポート (AWS CUR)の情報を取り込んでコスト分析できる環境を構築します。