수집 또는 측정한 데이터를 활용하기 전에는 데이터 전처리 과정이 항상 필요합니다. 어떤 데이터셋에서는 누락된 데이터가 "-" 또는 "?" 또는 "없음" 등으로 표현되어 있곤 합니다. 그런 경우에는 추후 분석을 위해서 NaN으로 변경해주는 것이 좋습니다. 판다스 데이터프레임의 replace() 메소드가 이와 같이 데이터 치환이 필요한 경우에 사용됩니다.
-로 표현된 데이터 NaN으로 치환하기
다음과 같은 엑셀 파일이 있다고 가정하겠습니다. 누락된 데이터는 -으로 표기되어 있습니다.
저는 이 엑셀 파일을 판다스 데이터프레임으로 변환한 후 -으로 표기된 데이터를 NaN으로 변경하도록 하겠습니다. 이를 위한 파이썬 코드는 다음과 같습니다.
import pandas as pd
import numpy as np
df = pd.read_excel('./dataset2.xlsx')
print(df)
df.replace('-', np.nan, inplace=True)
print(df)
해당 엑셀 파일을 데이터프레임으로 변환했을 때는 "-"으로 표기된 결측치들이 있습니다.
"-"를 NaN으로 바꾼 결과를 다음과 같습니다.
'Dev > python' 카테고리의 다른 글
[flask+jinja2] flask 프로젝트에서 html에 이미지 삽입하는 방법 (0) | 2022.08.09 |
---|---|
[PyQt6] pyqt 앱 윈도우 크기 고정 방법 (0) | 2022.08.05 |
[python] playsound 라이브러리 playsound.PlaysoundException: Error 259 for command 예외 해결 방법 (2) | 2022.08.04 |
[pandas] 중복 데이터 제거하기, 데이터프레임 drop_duplicates() 메소드 (0) | 2022.08.01 |
[python] powershell에서 virtualenv 가상환경 활성화시 발생하는 오류 해결 방법 (0) | 2022.07.27 |
[python] ModuleNotFoundError: No module named 'PIL' 오류 해결 방법 (0) | 2022.07.26 |
[pandas] 특정 날짜 이후 데이터만 선택하기 (0) | 2022.07.26 |
[PySide6] QLabel 수평 가운데에 배치하기 (0) | 2022.07.23 |