2022-07-18 08:00:23

판다스 데이터프레임에는 유용한 메소드들이 정말 많습니다. 그 중 하나가 오늘 소개해드리는 info() 메소드입니다. info() 메소드를 활용하면 컬럼 별로 NaN이 아닌 데이터, 즉 유효한 데이터의 개수를 바로 알 수 있습니다. 우리가 실무에서 접하는 데이터에는 결측치가 꽤 많이 포함됩니다. 어떤 회사에서 설문조사를 시행했다고 가정해보겠습니다. 설문조사에 응답한 사람들이 모든 질문에 항상 대답을 해줄까요? 그럴리가 없죠. 어떤 질문은 그냥 건너뛴 사람도 있을 것입니다. 그러면, 자연스럽게 결측치가 생기는 것입니다. 따라서, 컬럼별로 유효한 데이터의 개수를 정리하는 것도 데이터 분석에서 꼭 필요한 과정입니다. 

 

데이터프레임 info() 메소드 사용법

seaborn 라이브러리에서 제공하는 타이타닉 데이터셋에서 컬럼별 유효한 데이터의 개수를 info() 메소드를 통해 살펴보겠습니다. 타이타닉 데이터셋에 대한 설명은 이전 포스팅을 참고하세요.

- [python] seaborn 라이브러리가 제공하는 타이타닉 데이터셋 설명    

 

import seaborn as sns

df = sns.load_dataset('titanic')
print(df.info())

 

 

info() 메소드가 반환해준 것을 출력해보니, 타이타닉 데이터셋은 총 891개의 행과 15개의 컬럼으로 구성되어 있고, age 컬럼, embarked 컬럼, deck 컬럼에는 결측치가 있다는 것을 알 수 있습니다. 특히 deck 컬럼에 결측치가 많이 있네요. 참고로 deck 컬럼은 선실 번호 정보를 담고 있는 컬럼입니다.  또한 info() 메소드를 통해 각 컬럼별로 어떤 타입의 데이터들이 들어가 있는 지도 한 눈에 파악할 수 있습니다. 

 

관련 글

- [python+pandas] 데이터프레임의 기술 통계 정보(평균, 표준편차, 최대값, 최소값, 분위수)를 요약해주는 describe() 메소드