Redshift から amazon-redshift-python-driver を使ってデータ取得し、Dataframe に取り込む

2020年11月にRedshiftのPythonドライバがOSSになったので使ってみた。
Redshiftから取得したデータをPandasのDataframeを使って分析することが多いので、取得してきたデータをDFに格納までしてみました。

やったこと

基本的には、pipを使ってレポジトリからインストールできます。

pip install redshift_connector

↑が実行できない場合は、ドライバをローカルに落としてpipでインストールしてください。

git clone https://github.com/aws/amazon-redshift-python-driver.git
cd redshift_connector
pip install .

ドライバをインストールすれば、Pythonスクリプトでimportできるようになります。

information_schema.columnsからカラム情報を取得してくると2次元になってDFにしたときにカラムが崩れるので、itertools.chain.from_iterableを使って1次元に平坦化しています。

Redshiftへのコネクション(redshift_connector.connect)で最低限必要な項目は以下です。

サンプルスクリプトを実行してみた結果です。pg_user テーブルをクエリしてその情報をDFに格納、出力できました。

f:id:ykoomaru:20201225164358p:plain