雲のメモ帳

猫とクラウドと旅行が好きなインフラエンジニアです。 日々の調べたことや興味が持ったことをこのブログにアウトプットします。

AWS Glue

AthenaでクロスアカウントのGlue データカタログを参照する

これはなに? Athenaを利用して別AWSアカウントにあるGlueデータカタログの参照を実施してみます。 通常別AWSアカウントのデータカタログはAthenaで利用できないのですが、2019年にリリースされたAthenaでの外部メタストアの参照機能を利用することで実現で…

Glue Job実行時に発生する ”File already Exists” の原因を調査する

これはなに? Glue JobでデータフレームからファイルをS3に出力する際に度々おきる ”java.io.IOException: File already exists” の原因調査について、かなりまとまっている記事があったので日本語訳を載せます。 元記事 confusedcoders.com

Glueのデータカタログにカラムを追加した際に、Dynamicframeで認識しないときの対処方法

これはなに? Glueのデータカタログにカラムを追加した時に、Dynamicframeでカラムを認識できずにコケることがあったので、その対象方法と検証結果について書きました。

AWS Glueを使って、データ分析基盤を構築する(CSV → Parquet)

最近データ分析基盤系に興味をもっているので、AWS Glueを使ったデータ分析基盤の構築についてのチュートリアルをやってみました。 CSVファイルを分析用のファイル形式の「Parquet」に変換し、Amazon Athenaから閲覧します。 AWS Glue と Amazon S3 を使用し…