pandasのDataFrameには、drop_duplicates()メソッドという機能があります。この機能は、データフレーム内の重複した行を削除することができます。
drop_duplicates()メソッドは、次のような引数を取ります。
- subset:重複をチェックする列を指定します。
- keep:重複した行を削除するか、最初の行を残すかを指定します。
- inplace:データフレームを更新するかどうかを指定します。
以下の例では、データフレームdf内の重複した行を削除しています。
import pandas as pd
# データフレームを作成
data = {'Name': ['Tom', 'Jack', 'Tom', 'Steve', 'Tom'],
'Age': [28, 34, 28, 42, 28]}
df = pd.DataFrame(data)
# 重複した行を削除
df.drop_duplicates(subset=['Name'], keep='first', inplace=True)
# 結果を表示
print(df)
Name Age
0 Tom 28
1 Jack 34
3 Steve 42