코딩/python

[python] seaborn 라이브러리가 제공하는 타이타닉 데이터셋 설명

비스카이비전 2022. 5. 15. 13:32

seaborn 라이브러리에는 여러 데이터셋이 내장되어 있습니다. 

 

'anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'exercise', 'flights', 'fmri', 'gammas', 'geyser', 'iris', 'mpg', 'penguins', 'planets', 'taxis', 'tips', 'titanic'

 

이 중 우리에게 친숙한 타이타닉 데이터셋은 어떤 컬럼들로 구성되어 있는지 살펴보도록 하겠습니다. 

 

# -*- coding: utf-8 -*-
import seaborn as sns

titanic = sns.load_dataset('titanic') 
print(titanic.head()) # 첫 5개 행만 출력
print(type(titanic))

 

 

보시다시피 15개 컬럼으로 구성되어 있습니다.

 

1. survived

생존 여부

0이면 사망, 1이면 생존

 

2. pclass

객실 등급

1이면 1등급, 2이면 2등급, 3이면 3등급

 

3. sex

성별

male이면 남자, female이면 여자

 

4. age

나이

 

5. sibsp

함께 탑승한 형제 및 배우자 수

 

6. parch

함께 탑승한 자녀 및 부모 수

 

7. fare

요금

 

8. embarked

탑승지 이름 앞글자

C는 Cherbourg, Q는 Queenstown, S는 Southampton

 

9. class

객실 등급

First면 1등급, Second면 2등급, Third면 3등급

 

10. who

남자, 여자, 아이

man, woman, child

 

11. adult_male

성인 남자인지 여부

True면 성인 남자, False면 그외

 

12. deck

선실 번호 첫 알파벳

A, B, C, D, E, F, G

 

13. embark_town

탑승지 이름

Cherbourg, Queenstown, Southampton

 

14. alive

생존여부

no면 사망, yes면 생존

 

15. alone

혼자 탑승했는지 여부

True면 혼자 탑승, False면 가족과 함께 탑승

 

 

이처럼 타이타닉 데이터셋에는 성별, 탑승지, 요금, 동승자 수, 생존 여부 등의 탑승자 정보가 들어가 있음을 확인하실 수 있습니다.