root@bskyvision: ~#
방명록
태그
RSS

<닫기>

3,561,886/3,854/1,390

프로필사진
수많은 소음 속에서 신호를 찾아가는 bskyvision입니다.


<닫기>

  • 꼬장이이(가) 07.25에 작성한 댓글: test.

<닫기>


pandas 데이터프레임 내 중복 데이터(중복 행)를 제거할 때는 drop_duplicates() 메소드를 사용합니다. 

 

중복 행 제거하기

다음과 같은 엑셀 파일이 있다고 가정하겠습니다.

 

 

보시다시피 3번째 행과 4번째 행은 같은 값들을 갖고 있습니다. 이런 경우에 drop_duplicates() 메소드를 사용하면 두번째로 출현한 4번째 행이 제거됩니다. 

 

import pandas as pd

df = pd.read_excel('./dataset1.xlsx')
print(df)

df1 = df.drop_duplicates()
print(df1)

 

 

 

생각해볼 점

중복 데이터라고 무조건 제거해야 할까요? 그렇진 않습니다. 모든 특성값이 같은 데이터를 관측 또는 측정하게 되는 경우가 있을 수 있습니다. 예를 들어 "12가3456" 번호판을 가진 차가 100km/h 제한 구간에서 121km/h로 달린 것을 과속측정기가 각기 다른 날에 찍혔을 수 있습니다. 이런 경우에 중복된 데이터라고 제거해버리면 벌금을 한 번 밖에 못 물리는 것이죠.

 

하지만 만약 같은 날, 같은 시점에 과속한 데이터를 과속측정기 기계 오류로 두 번 데이터베이스에 쌓았다면, 그런 건 제거해줘야 할 것입니다. 한번 과속한 걸로 벌금 두 번 내라고 하면 안 되겠죠. 

이름
비밀번호
홈페이지
비밀여부