pandasのDataFrameには、dropna()メソッドという機能があります。この機能を使うと、データフレーム内の欠損値を含む行や列を削除することができます。
例えば、以下のようなデータフレームを考えます。
import pandas as pd
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5],
'B': [6, 7, 8, 9, 10],
'C': [11, 12, 13, 14, 15],
'D': [16, 17, 18, 19, 20]
})
df
このデータフレームには、欠損値を含む行がありません。
A B C D
0 1 6 11 16
1 2 7 12 17
2 3 8 13 18
3 4 9 14 19
4 5 10 15 20
しかし、欠損値を含む行を追加した場合、以下のようなデータフレームになります。
import pandas as pd
df = pd.DataFrame({
'A': [1, 2, 3, 4, 5, None],
'B': [6, 7, 8, 9, 10, None],
'C': [11, 12, 13, 14, 15, None],
'D': [16, 17, 18, 19, 20, None]
})
df
A B C D
0 1.0 6.0 11.0 16.0
1 2.0 7.0 12.0 17.0
2 3.0 8.0 13.0 18.0
3 4.0 9.0 14.0 19.0
4 5.0 10.0 15.0 20.0
5 NaN NaN NaN NaN
このような場合、dropna()メソッドを使うと、欠損値を含む行を削除することができます。
df.dropna()
A B C D
0 1 6 11 16
1 2 7 12 17
2 3 8 13 18
3 4 9 14 19
4 5 10 15 20
また、欠損値を含む列を削除する場合は、以下のようにします。
df.dropna(axis=1)
A B
0 1 6
1 2 7
2 3 8
3 4 9
4 5 10
5 0 0
以上のように、pandasのDataFrameには、dropna()メソッドという機能があり、データフレーム内の欠損値を含む行や列を削除することができます。