雲のメモ帳

猫とクラウドと旅行が好きなインフラエンジニアです。 日々の調べたことや興味が持ったことをこのブログにアウトプットします。

S3 Select でParquetの中身を簡単に確認する

Parquetファイルは、テキストエディタなどでは中身を確認することがができず、中身を確認するのがすごく手間です。
S3にPaquetファイルを保管している場合は、S3 Select により簡単に中身が確認できるため、その手順を記載します。

手順

1. S3バケットより、該当のParquetファイルを選択し、[S3 Select - Parquet] をクリックします。 f:id:ykoomaru:20191222152842p:plain]

2. SQL エディタに [SQL] を記載し、[SQLの実行] をクリックします。
今回は、Parquetファイルから5件のデータを取り出します。 f:id:ykoomaru:20191222152853p:plain

SQL の書き方は以下の公式ドキュメントを参考にしてください。
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference.html https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference-select.html

S3 SelectのSQLをすごい丁寧に検証されているブログがありましたので、こちらも載せておきます。
S3 SelectでどんなSQLが書けるか検証 | AWSやシステム・アプリ開発の最新情報|クロスパワーブログ

3. 結果に SQL の実行結果が表示されます。 f:id:ykoomaru:20191222152917p:plain

最後に

S3に保管したデータの加工をしたいときなどにさくっとParquetファイルの中身を確認できるのはとても便利ですね。
数年前と比べてS3単体で色々なことができるようになっているので、今後のアップデートにも期待です。