2022-07-26 00:51:43

다음은 제 블로그의 일자별 페이지뷰를 정리한 엑셀 파일입니다. 

 

 

이 엑셀 파일을 판다스 데이터프레임으로 불러온 후 2022-01-01 이후의 데이터만 선택해보겠습니다.

 

df_2022 = df[df['일 색인'] >= '2022-01-01']

 

 

이렇게 날짜를 기준으로 필터링이 가능한 이유는 현재 '일 색인' 컬럼의 데이터타입이 문자열이 아니라 datetime64이기 때문입니다.

 

print(df.dtypes)

 

 

참고로 어떤 컬럼이 날짜정보를 담고 있는데 데이터 타입이 문자열인 경우에는 pandas.to_datetime 함수를 사용하면 문자열 객체를 Timestamp 객체로 변환할 수 있습니다.

 

2022-01-01 이후 평균 페이지뷰 수를 구하면 다음과 같습니다. 

 

average_2022 = df_2022['페이지뷰 수'].mean()
print("2022년 일별 페이지뷰 수 평균:", average_2022)

 

 

전체 코드

파이썬 전체 코드는 다음과 같습니다.

 

import pandas as pd 

# 엑셀 파일 데이터프레임으로 가져오기
df = pd.read_excel('page_view.xlsx', sheet_name='데이터세트1')
print(df)

# 컬럼 데이터 타입 확인
print(df.dtypes)

df_2022 = df[df['일 색인'] >= '2022-01-01']
print(df_2022)

average_2022 = df_2022['페이지뷰 수'].mean()
print("2022년 일별 페이지뷰 수 평균:", average_2022)

 

관련 글

- [python + pandas] 데이터프레임에서 특정 기간의 데이터 추출하기