2022-07-29 21:51:51

수집 또는 측정한 데이터를 활용하기 전에는 데이터 전처리 과정이 항상 필요합니다. 어떤 데이터셋에서는 누락된 데이터가 "-" 또는 "?" 또는 "없음" 등으로 표현되어 있곤 합니다. 그런 경우에는 추후 분석을 위해서 NaN으로 변경해주는 것이 좋습니다. 판다스 데이터프레임의 replace() 메소드가 이와 같이 데이터 치환이 필요한 경우에 사용됩니다. 

 

-로 표현된 데이터 NaN으로 치환하기

다음과 같은 엑셀 파일이 있다고 가정하겠습니다. 누락된 데이터는 -으로 표기되어 있습니다. 

 

 

저는 이 엑셀 파일을 판다스 데이터프레임으로 변환한 후 -으로 표기된 데이터를 NaN으로 변경하도록 하겠습니다. 이를 위한 파이썬 코드는 다음과 같습니다. 

 

import pandas as pd
import numpy as np

df = pd.read_excel('./dataset2.xlsx')
print(df)

df.replace('-', np.nan, inplace=True)
print(df)

 

해당 엑셀 파일을 데이터프레임으로 변환했을 때는 "-"으로 표기된 결측치들이 있습니다. 

 

 

"-"를 NaN으로 바꾼 결과를 다음과 같습니다.