2022-08-01 20:19:00

pandas 데이터프레임 내 중복 데이터(중복 행)를 제거할 때는 drop_duplicates() 메소드를 사용합니다. 

 

drop_duplicate() 메소드로 중복 행 제거하기

다음과 같은 엑셀 파일이 있다고 가정하겠습니다.

 

 

보시다시피 3번째 행과 4번째 행은 같은 값들을 갖고 있습니다. 이런 경우에 drop_duplicates() 메소드를 사용하면 두번째로 출현한 4번째 행이 제거됩니다. 

 

import pandas as pd

df = pd.read_excel('./dataset1.xlsx')
print(df)

df1 = df.drop_duplicates()
print(df1)

 

 

만약 특정 컬럼 기준으로 중복 데이터를 제거하고 싶으면 다음과 같이 컬럼명을 리스트 안에 넣어서 인수로 전달해주면 됩니다.

 

df = df.drop_duplicates(["features2"])

 

참고자료

[1] https://mizykk.tistory.com/93