【AWS】 S3 Select でParquetの中身を簡単に確認する

Parquetファイルは、テキストエディタなどでは中身を確認することがができず、中身を確認するのがすごく手間です。
S3にPaquetファイルを保管している場合は、S3 Select により簡単に中身が確認できるため、その手順を記載します。

手順

1. S3バケットより、該当のParquetファイルを選択し、[S3 Select - Parquet] をクリックします。 f:id:ykoomaru:20191222152842p:plain]

2. SQL エディタに [SQL] を記載し、[SQLの実行] をクリックします。
今回は、Parquetファイルから5件のデータを取り出します。 f:id:ykoomaru:20191222152853p:plain

SQL の書き方は以下の公式ドキュメントを参考にしてください。
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference.html https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference-select.html

S3 SelectのSQLをすごい丁寧に検証されているブログがありましたので、こちらも載せておきます。
S3 SelectでどんなSQLが書けるか検証 | AWSやシステム・アプリ開発の最新情報|クロスパワーブログ

3. 結果に SQL の実行結果が表示されます。 f:id:ykoomaru:20191222152917p:plain

最後に

S3に保管したデータの加工をしたいときなどにさくっとParquetファイルの中身を確認できるのはとても便利ですね。
数年前と比べてS3単体で色々なことができるようになっているので、今後のアップデートにも期待です。