다음은 제 블로그의 일자별 페이지뷰를 정리한 엑셀 파일입니다.
이 엑셀 파일을 판다스 데이터프레임으로 불러온 후 2022-01-01 이후의 데이터만 선택해보겠습니다.
df_2022 = df[df['일 색인'] >= '2022-01-01']
이렇게 날짜를 기준으로 필터링이 가능한 이유는 현재 '일 색인' 컬럼의 데이터타입이 문자열이 아니라 datetime64이기 때문입니다.
print(df.dtypes)
참고로 어떤 컬럼이 날짜정보를 담고 있는데 데이터 타입이 문자열인 경우에는 pandas.to_datetime 함수를 사용하면 문자열 객체를 Timestamp 객체로 변환할 수 있습니다.
2022-01-01 이후 평균 페이지뷰 수를 구하면 다음과 같습니다.
average_2022 = df_2022['페이지뷰 수'].mean()
print("2022년 일별 페이지뷰 수 평균:", average_2022)
전체 코드
파이썬 전체 코드는 다음과 같습니다.
import pandas as pd
# 엑셀 파일 데이터프레임으로 가져오기
df = pd.read_excel('page_view.xlsx', sheet_name='데이터세트1')
print(df)
# 컬럼 데이터 타입 확인
print(df.dtypes)
df_2022 = df[df['일 색인'] >= '2022-01-01']
print(df_2022)
average_2022 = df_2022['페이지뷰 수'].mean()
print("2022년 일별 페이지뷰 수 평균:", average_2022)
관련 글
'Dev > python' 카테고리의 다른 글
[pandas] 중복 데이터 제거하기, 데이터프레임 drop_duplicates() 메소드 (0) | 2022.08.01 |
---|---|
[pandas] 누락된 데이터가 - 등의 기호로 표현되어 있을 때 NaN으로 변경하는 방법, replace() 메소드 (0) | 2022.07.29 |
[python] powershell에서 virtualenv 가상환경 활성화시 발생하는 오류 해결 방법 (0) | 2022.07.27 |
[python] ModuleNotFoundError: No module named 'PIL' 오류 해결 방법 (0) | 2022.07.26 |
[PySide6] QLabel 수평 가운데에 배치하기 (0) | 2022.07.23 |
[pandas] 결측치를 다른 값으로 채워 넣는 방법, fillna 메소드 (0) | 2022.07.23 |
[PySide6] QLineEdit 위젯에 placeholder 넣는 방법 (0) | 2022.07.22 |
[pandas] NaN 값이 있는 행 또는 열 삭제하는 방법, dropna 메소드 (0) | 2022.07.22 |