Dev/python
[pandas] 특정 날짜 이후 데이터만 선택하기
bskyvision.com
2022. 7. 26. 00:51
반응형
다음은 제 블로그의 일자별 페이지뷰를 정리한 엑셀 파일입니다.

이 엑셀 파일을 판다스 데이터프레임으로 불러온 후 2022-01-01 이후의 데이터만 선택해보겠습니다.
df_2022 = df[df['일 색인'] >= '2022-01-01']

이렇게 날짜를 기준으로 필터링이 가능한 이유는 현재 '일 색인' 컬럼의 데이터타입이 문자열이 아니라 datetime64이기 때문입니다.
print(df.dtypes)

참고로 어떤 컬럼이 날짜정보를 담고 있는데 데이터 타입이 문자열인 경우에는 pandas.to_datetime 함수를 사용하면 문자열 객체를 Timestamp 객체로 변환할 수 있습니다.
2022-01-01 이후 평균 페이지뷰 수를 구하면 다음과 같습니다.
average_2022 = df_2022['페이지뷰 수'].mean()
print("2022년 일별 페이지뷰 수 평균:", average_2022)

전체 코드
파이썬 전체 코드는 다음과 같습니다.
import pandas as pd
# 엑셀 파일 데이터프레임으로 가져오기
df = pd.read_excel('page_view.xlsx', sheet_name='데이터세트1')
print(df)
# 컬럼 데이터 타입 확인
print(df.dtypes)
df_2022 = df[df['일 색인'] >= '2022-01-01']
print(df_2022)
average_2022 = df_2022['페이지뷰 수'].mean()
print("2022년 일별 페이지뷰 수 평균:", average_2022)