root@bskyvision: ~#
방명록
태그
RSS

<닫기>

3,561,886/3,854/1,390

프로필사진
수많은 소음 속에서 신호를 찾아가는 bskyvision입니다.


<닫기>

  • 꼬장이이(가) 07.25에 작성한 댓글: test.

<닫기>

2022-07-29 21:51:51

수집 또는 측정한 데이터를 활용하기 전에는 전처리 과정이 항상 필요합니다. 어떤 데이터셋에는 누락된 데이터가 "-" 또는 "?" 또는 "없음" 등으로 표현되어 있곤 합니다. 그런 경우에는 추후 분석을 위해서 NaN으로 변경해주는 것이 좋습니다. 판다스 데이터프레임의 replace() 메소드가 이러한 데이터 치환 목적에 사용됩니다. 

 

-로 표현된 데이터 NaN으로 치환하기

다음과 같은 엑셀 파일이 있다고 가정하겠습니다. 누락된 데이터는 -으로 표기되어 있습니다. 

 

 

저는 이 엑셀 파일을 판다스 데이터프레임으로 변환한 후 -으로 표기된 데이터를 NaN으로 변경하도록 하겠습니다. 이를 위한 파이썬 코드는 다음과 같습니다. 

 

import pandas as pd
import numpy as np

df = pd.read_excel('./dataset2.xlsx')
print(df)

df.replace('-', np.nan, inplace=True)
print(df)

 

해당 엑셀 파일을 데이터프레임으로 변환했을 때는 "-"으로 표기된 결측치들이 있습니다. 

 

 

"-"를 NaN으로 바꾼 결과를 다음과 같습니다.

 

이름
비밀번호
홈페이지
비밀여부