seaborn 라이브러리에는 여러 데이터셋이 내장되어 있습니다.
'anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'exercise', 'flights', 'fmri', 'gammas', 'geyser', 'iris', 'mpg', 'penguins', 'planets', 'taxis', 'tips', 'titanic'
타이타닉 데이터셋
이 중 우리에게 친숙한 타이타닉 데이터셋은 어떤 컬럼들로 구성되어 있는지 살펴보도록 하겠습니다.
# -*- coding: utf-8 -*-
import seaborn as sns
titanic = sns.load_dataset('titanic')
print(titanic.head()) # 첫 5개 행만 출력
print(type(titanic))
보시다시피 15개 컬럼으로 구성되어 있습니다.
1. survived
생존 여부
0이면 사망, 1이면 생존
2. pclass
객실 등급
1이면 1등급, 2이면 2등급, 3이면 3등급
3. sex
성별
male이면 남자, female이면 여자
4. age
나이
5. sibsp
함께 탑승한 형제 및 배우자 수
6. parch
함께 탑승한 자녀 및 부모 수
7. fare
요금
8. embarked
탑승지 이름 앞글자
C는 Cherbourg, Q는 Queenstown, S는 Southampton
9. class
객실 등급
First면 1등급, Second면 2등급, Third면 3등급
10. who
남자, 여자, 아이
man, woman, child
11. adult_male
성인 남자인지 여부
True면 성인 남자, False면 그외
12. deck
선실 번호 첫 알파벳
A, B, C, D, E, F, G
13. embark_town
탑승지 이름
Cherbourg, Queenstown, Southampton
14. alive
생존여부
no면 사망, yes면 생존
15. alone
혼자 탑승했는지 여부
True면 혼자 탑승, False면 가족과 함께 탑승
이처럼 타이타닉 데이터셋에는 성별, 탑승지, 요금, 동승자 수, 생존 여부 등의 탑승자 정보가 들어가 있음을 확인하실 수 있습니다.
'Dev > python' 카테고리의 다른 글
[pandas] 선 그래프, 막대 그래프, 히스토그램, 박스 플롯 그리기 (0) | 2022.06.05 |
---|---|
[pandas] 튜플의 리스트를 데이터프레임으로 만들기 (0) | 2022.05.30 |
[python+pandas] 데이터프레임의 기술 통계 정보(평균, 표준편차, 최대값, 최소값, 분위수)를 요약해주는 describe() 메소드 (0) | 2022.05.29 |
[python+pandas] 여러 데이터프레임 하나의 엑셀 파일 내 각각 다른 시트에 저장하기 (5) | 2022.05.15 |
[pandas] 데이터프레임 groupby(), agg() 메소드로 그룹의 평균값, 최대값 산출하기 (0) | 2022.04.28 |
[python+pandas] 판다스 데이터 프레임에서 컬럼의 고유값을 알고 싶으면, unique 메소드 (0) | 2022.04.27 |
[pandas] 특정 컬럼 값 기준으로 데이터프레임 정렬하기, sort_values 메소드 (0) | 2022.04.26 |
[pandas] 판다스 데이터프레임 loc, at, iloc, iat 메소드 비교 (0) | 2022.04.24 |