[pandas] 특정 날짜 이후 데이터만 선택하기 by bskyvision.com

2022-07-26 00:51:43

다음은 제 블로그의 일자별 페이지뷰를 정리한 엑셀 파일입니다.

이 엑셀 파일을 판다스 데이터프레임으로 불러온 후 2022-01-01 이후의 데이터만 선택해보겠습니다.

df_2022 = df[df['일 색인'] >= '2022-01-01']

이렇게 날짜를 기준으로 필터링이 가능한 이유는 현재 '일 색인' 컬럼의 데이터타입이 문자열이 아니라 datetime64이기 때문입니다.

print(df.dtypes)

참고로 어떤 컬럼이 날짜정보를 담고 있는데 데이터 타입이 문자열인 경우에는 pandas.to_datetime 함수를 사용하면 문자열 객체를 Timestamp 객체로 변환할 수 있습니다.

2022-01-01 이후 평균 페이지뷰 수를 구하면 다음과 같습니다.

average_2022 = df_2022['페이지뷰 수'].mean()
print("2022년 일별 페이지뷰 수 평균:", average_2022)

전체 코드

파이썬 전체 코드는 다음과 같습니다.

import pandas as pd 

# 엑셀 파일 데이터프레임으로 가져오기
df = pd.read_excel('page_view.xlsx', sheet_name='데이터세트1')
print(df)

# 컬럼 데이터 타입 확인
print(df.dtypes)

df_2022 = df[df['일 색인'] >= '2022-01-01']
print(df_2022)

average_2022 = df_2022['페이지뷰 수'].mean()
print("2022년 일별 페이지뷰 수 평균:", average_2022)

- [python + pandas] 데이터프레임에서 특정 기간의 데이터 추출하기

저작자표시 비영리 변경금지 (새창열림)

'Dev > python' 카테고리의 다른 글

[pandas] 중복 데이터 제거하기, 데이터프레임 drop_duplicates() 메소드 (0)	2022.08.01
[pandas] 누락된 데이터가 - 등의 기호로 표현되어 있을 때 NaN으로 변경하는 방법, replace() 메소드 (0)	2022.07.29
[python] powershell에서 virtualenv 가상환경 활성화시 발생하는 오류 해결 방법 (0)	2022.07.27
[python] ModuleNotFoundError: No module named 'PIL' 오류 해결 방법 (0)	2022.07.26
[PySide6] QLabel 수평 가운데에 배치하기 (0)	2022.07.23
[pandas] 결측치를 다른 값으로 채워 넣는 방법, fillna 메소드 (0)	2022.07.23
[PySide6] QLineEdit 위젯에 placeholder 넣는 방법 (0)	2022.07.22
[pandas] NaN 값이 있는 행 또는 열 삭제하는 방법, dropna 메소드 (0)	2022.07.22

전체 코드

관련 글

'Dev > python' 카테고리의 다른 글

티스토리툴바