元のデータセットの中から、特定の列をピックアップして新しいデータフレームを作成する。新しく計算する際、定番の手順にもかかわらず、いつも忘れてしまい過去のやり方を確認しています。


チートシート

やりたいこと  コーディング
dfの列1と列2で新しい
データフレームを作成する
df = df[['列1' , '列2']]
  1. 角括弧2つ [[ ]] で、列を指定すればいい
  2. チートシートのように、df に代入すると、df自体の列が指定されたものだけになる=他の列を削除したこととなる

サンプルオペレーション

1
2
3
4
# 任意の列で新しいデータフレームを作成する
print('before', df.shape) 
df = df[['PY_02', 'PY_11']]
print('after', df.shape)

ビフォア、アフターでデータフレームのシェイプを確認する

before (7507, 14)
after (7507, 2)
1
2
# データフレームの先頭5行を見る
df.head()

カッコ内に数字をいれるとその数分、先頭から表示しますが、何も指定しないと 5行になります。

df.head()