2022-08-01 20:19:00
pandas 데이터프레임 내 중복 데이터(중복 행)를 제거할 때는 drop_duplicates() 메소드를 사용합니다.
중복 행 제거하기
다음과 같은 엑셀 파일이 있다고 가정하겠습니다.
보시다시피 3번째 행과 4번째 행은 같은 값들을 갖고 있습니다. 이런 경우에 drop_duplicates() 메소드를 사용하면 두번째로 출현한 4번째 행이 제거됩니다.
import pandas as pd
df = pd.read_excel('./dataset1.xlsx')
print(df)
df1 = df.drop_duplicates()
print(df1)
생각해볼 점
중복 데이터라고 무조건 제거해야 할까요? 그렇진 않습니다. 모든 특성값이 같은 데이터를 관측 또는 측정하게 되는 경우가 있을 수 있습니다. 예를 들어 "12가3456" 번호판을 가진 차가 100km/h 제한 구간에서 121km/h로 달린 것을 과속측정기가 각기 다른 날에 찍혔을 수 있습니다. 이런 경우에 중복된 데이터라고 제거해버리면 벌금을 한 번 밖에 못 물리는 것이죠.
하지만 만약 같은 날, 같은 시점에 과속한 데이터를 과속측정기 기계 오류로 두 번 데이터베이스에 쌓았다면, 그런 건 제거해줘야 할 것입니다. 한번 과속한 걸로 벌금 두 번 내라고 하면 안 되겠죠.
'코딩 > pandas, matplotlib' 카테고리의 다른 글
[pandas] 중복 데이터 제거하기, drop_duplicates() 메소드 (0) | 2022.08.01 |
---|---|
[pandas] 누락된 데이터가 - 등의 기호로 표현되어 있을 때 NaN으로 변경하는 방법 (0) | 2022.07.29 |
[pandas] 특정 날짜 이후 데이터만 선택하기 (0) | 2022.07.26 |
[pandas] 결측치를 다른 값으로 채워 넣는 방법, fillna 메소드 (0) | 2022.07.23 |
[pandas] NaN 값이 있는 행 또는 열 삭제하는 방법, dropna 메소드 (0) | 2022.07.22 |
[pandas] 데이터프레임 컬럼 내 고유값의 개수 구하기, value_counts() 메소드 (0) | 2022.07.19 |
[pandas] 각 컬럼 데이터 중 NaN이 아닌 데이터의 개수를 보여주는 info() 메소드 (0) | 2022.07.18 |
[matplotlib] 그래프 x축, y축 눈금 위치 설정하는 방법, xticks, yticks (0) | 2022.07.04 |
[pandas] 데이터프레임 컬럼 자료형 변경하는 방법, astype (0) | 2022.07.03 |