2022-07-29 21:51:51
수집 또는 측정한 데이터를 활용하기 전에는 전처리 과정이 항상 필요합니다. 어떤 데이터셋에는 누락된 데이터가 "-" 또는 "?" 또는 "없음" 등으로 표현되어 있곤 합니다. 그런 경우에는 추후 분석을 위해서 NaN으로 변경해주는 것이 좋습니다. 판다스 데이터프레임의 replace() 메소드가 이러한 데이터 치환 목적에 사용됩니다.
-로 표현된 데이터 NaN으로 치환하기
다음과 같은 엑셀 파일이 있다고 가정하겠습니다. 누락된 데이터는 -으로 표기되어 있습니다.
저는 이 엑셀 파일을 판다스 데이터프레임으로 변환한 후 -으로 표기된 데이터를 NaN으로 변경하도록 하겠습니다. 이를 위한 파이썬 코드는 다음과 같습니다.
import pandas as pd
import numpy as np
df = pd.read_excel('./dataset2.xlsx')
print(df)
df.replace('-', np.nan, inplace=True)
print(df)
해당 엑셀 파일을 데이터프레임으로 변환했을 때는 "-"으로 표기된 결측치들이 있습니다.
"-"를 NaN으로 바꾼 결과를 다음과 같습니다.
'코딩 > pandas, matplotlib' 카테고리의 다른 글
[pandas] 중복 데이터 제거하기, drop_duplicates() 메소드 (0) | 2022.08.01 |
---|---|
[pandas] 누락된 데이터가 - 등의 기호로 표현되어 있을 때 NaN으로 변경하는 방법 (0) | 2022.07.29 |
[pandas] 특정 날짜 이후 데이터만 선택하기 (0) | 2022.07.26 |
[pandas] 결측치를 다른 값으로 채워 넣는 방법, fillna 메소드 (0) | 2022.07.23 |
[pandas] NaN 값이 있는 행 또는 열 삭제하는 방법, dropna 메소드 (0) | 2022.07.22 |
[pandas] 데이터프레임 컬럼 내 고유값의 개수 구하기, value_counts() 메소드 (0) | 2022.07.19 |
[pandas] 각 컬럼 데이터 중 NaN이 아닌 데이터의 개수를 보여주는 info() 메소드 (0) | 2022.07.18 |
[matplotlib] 그래프 x축, y축 눈금 위치 설정하는 방법, xticks, yticks (0) | 2022.07.04 |
[pandas] 데이터프레임 컬럼 자료형 변경하는 방법, astype (0) | 2022.07.03 |