오늘은 판다스 데이터 프레임의 특정 컬럼에서 고유값(선형대수학의 고유값 아님), 즉 유일한 값들을 리스트로 반환해주는 unique 메소드에 대해 알아보도록 하겠습니다.
우선 예시를 위해 간단한 데이터프레임을 만들도록 하겠습니다. 8명의 국적과 연봉을 담은 데이터프레임입니다.
import pandas as pd
dict_data = {'국적':['한국', '일본', '중국', '미국', '한국', '미국', '러시아', '한국'], '연봉':[4000, 6200, 2500, 8600, 5600, 6800, 3800, 5200]}
df = pd.DataFrame(dict_data)
print(df)
현재 보면, 한국, 일본, 중국 등 다양한 국적의 사람들이 있는데 어떤 국적의 사람들이 있는지를 확인하고 싶다면 어떻게 해야할까요? 이럴 때 사용하는 것이 바로 unique 메소드입니다.
print(df['국적'].unique())
위와 같이 코드를 작성해주면 국적 컬럼의 unique한 값들이 리스트의 형태로 반환됩니다.
8명의 사람들은 이 5개 국적의 사람들이었군요.^^
관련 글
[1] [python] 리스트의 중복된 요소들 중에 고유한 요소들을 알고 싶다면, numpy.unique()
'Dev > python' 카테고리의 다른 글
[python+pandas] 데이터프레임의 기술 통계 정보(평균, 표준편차, 최대값, 최소값, 분위수)를 요약해주는 describe() 메소드 (0) | 2022.05.29 |
---|---|
[python+pandas] 여러 데이터프레임 하나의 엑셀 파일 내 각각 다른 시트에 저장하기 (5) | 2022.05.15 |
[python] seaborn 라이브러리가 제공하는 타이타닉 데이터셋 설명 (0) | 2022.05.15 |
[pandas] 데이터프레임 groupby(), agg() 메소드로 그룹의 평균값, 최대값 산출하기 (0) | 2022.04.28 |
[pandas] 특정 컬럼 값 기준으로 데이터프레임 정렬하기, sort_values 메소드 (0) | 2022.04.26 |
[pandas] 판다스 데이터프레임 loc, at, iloc, iat 메소드 비교 (0) | 2022.04.24 |
[python] 파이썬 리스트에 최대 몇 개의 요소가 들어갈 수 있을까? (10) | 2022.04.19 |
[python] UnicodeDecodeError: 'cp949' codec can't decode byte 0xed in position 135: illegal multibyte sequence 에러 해결법 (0) | 2022.04.18 |