Parquetファイルは、テキストエディタなどでは中身を確認することがができず、中身を確認するのがすごく手間です。
S3にPaquetファイルを保管している場合は、S3 Select
により簡単に中身が確認できるため、その手順を記載します。
手順
1. S3バケットより、該当のParquetファイルを選択し、[S3 Select - Parquet] をクリックします。 ]
2. SQL エディタに [SQL] を記載し、[SQLの実行] をクリックします。
今回は、Parquetファイルから5件のデータを取り出します。
SQL の書き方は以下の公式ドキュメントを参考にしてください。
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference.html
https://docs.aws.amazon.com/ja_jp/AmazonS3/latest/dev/s3-glacier-select-sql-reference-select.html
S3 SelectのSQLをすごい丁寧に検証されているブログがありましたので、こちらも載せておきます。
S3 SelectでどんなSQLが書けるか検証 | AWSやシステム・アプリ開発の最新情報|クロスパワーブログ
3. 結果に SQL の実行結果が表示されます。
最後に
S3に保管したデータの加工をしたいときなどにさくっとParquetファイルの中身を確認できるのはとても便利ですね。
数年前と比べてS3単体で色々なことができるようになっているので、今後のアップデートにも期待です。