bskyvision RSS 태그 관리 글쓰기 방명록
2021-03-04 09:28:18
728x90

오늘은 2019년과 2020년의 KBO 리그 최종 순위와 구단별 평균 연봉 사이에 어떠한 상관관계가 있는지에 대해 살펴보도록 하겠습니다. 선수들에게 돈을 많이 쓴 구단이 과연 더 높은 순위를 기록했을지, 아니면 돈과 성적 사이에는 큰 상관성이 없었는지에 대해 분석해보겠습니다. 

 

2020년

먼저 2020년부터 살펴보겠습니다. 2020년 최종 순위와 구단별 평균 연봉을 표로 정리하면 다음과 같습니다. 

 

출처: 2020 KBO 소속선수 등록 및 연봉 현황 발표

 

평균 연봉 순위 1위에 랭크된 NC는 실제로 우승을 거뒀습니다. 반면 평균 연봉 꼴찌인 KT는 3등을 거뒀습니다. KT 구단주 입장에서 기분이 아주 좋았겠죠? 평균 연봉 순위 2위인 롯데는 7위에 머물렀습니다. 선수들이 연봉 값을 못한 것으로 볼 수 있습니다. 이 데이터의 산점도(scatter plot)를 그리면 다음과 같습니다. 가로축이 팀 평균 연봉이고, 세로축이 팀 순위입니다.

 

 

산점도를 살펴보면 전반적으로 평균 연봉이 높아질 수록 순위가 좋아지는 것처럼 보이긴 하지만, 그 상관성이 커보이진 않습니다. 좀 더 정확히 판단하기 위해 팀 순위와 평균 연봉 간 피어슨 상관계수(Pearson correlation coefficient)를 구해보면, 고작 -0.2823 밖에 되지 않습니다. 피어슨 상관계수의 절대값이 1에 가까울 수록 상관성이 큰 것이므로 0.2823이란 수치는 상당히 낮은 것입니다. 연봉이 선수들의 현재 경기력을 제대로 나타내지 못하고 있다는 것이죠.

 

참고로 위 산점도와 피어슨 상관계수는 다음과 같은 파이썬 코드로 얻었습니다.

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
 
rank = np.array([12345678910])
salary = np.array([16581161431004016148141451465716393149601448611198])
 
plt.scatter(salary, rank, c='b')
plt.title('2019 team rank and team average annual salary')
plt.xlabel('salary')
plt.ylabel('rank')
plt.grid(True)
 
print("Pearson correlation coefficient:", stats.pearsonr(rank, salary)[0])
cs

 

2019년 

이번에는 2019년 데이터로 다시 한번 평균 연봉과 팀 순위의 상관관계를 살펴보겠습니다. 

 

 

2019년에 롯데는 평균 연봉에서 1등이었지만, 불행히도 10위를 기록했습니다. 반면 평균 연봉에서는 8위에 불과했던 키움은 최종 2위를 차지했습니다. 평균 연봉과 팀 순위의 산점도는 다음과 같습니다. 2020년보다 뭔가 더 심각해보이죠? 이 산점도에서는 어떤 경향이 전혀 보이지 않습니다. 

 

 

피어슨 상관계수를 구했더니 0.1195였습니다. 양수의 상관계수가 나왔다는 것은 상당히 심각한 것입니다. 왜냐하면, 일반적으로 연봉이 높을 수록 팀 순위의 숫자는 작을 것(순위에서는 1이 10보다 좋은 것이죠?)을 기대하기 때문입니다. 그런데 양의 상관계수가 나왔다는 것은 돈을 더 많이 쓴 팀들의 순위가 오히려 더 안 좋은 편이었다는 뜻이기 때문입니다. 2019년 시즌 종료 후 구단들 입장에서는 정말 당황스러웠을 것 같습니다. 이때의 참혹한 결과로 인해 많은 구단들이 선수들의 연봉을 손 보게 되었고, 결과적으로 그나마 나아진 2020년의 상관관계가 나온 것이 아닐까 짐작해봅니다. 

 

참고로 위 산점도와 피어슨 상관계수는 다음과 같은 파이썬 코드로 얻었습니다.

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
 
rank = np.array([12345678910])
salary = np.array([1543113242181421348616576952217820128441366819583])
 
plt.scatter(salary, rank, c='b')
plt.title('2019 team rank and team average annual salary')
plt.xlabel('salary')
plt.ylabel('rank')
plt.grid(True)
 
print("Pearson correlation coefficient:", stats.pearsonr(rank, salary)[0])
cs

 

 

2021년 KBO 리그의 팀 평균 연봉과 순위 간 상관계수는 얼마가 나올지 궁금해집니다. 구단주가 투자한 금액만큼 성과를 보게 될까요? 아니면 또 다시 실망스러운 결과를 얻게 될까요? 

 

저는 다음 시간에도 유익한 글로 찾아뵙겠습니다. 야구 데이터 분석가로 취업하는 그날까지~~~!

 

참고자료

[1] www.koreabaseball.com/News/Notice/View.aspx?bdSe=7678, KBO, "2020 KBO 소속선수 등록 및 연봉 현황 발표"

댓글

방문해주신 모든 분들을 환영합니다.

* 글을 읽던 중에 궁금했던 부분은 질문해주세요.

* 칭찬, 지적, 의문, 격려, 감사표현 등을 남겨주세요.

* 최대한 답변 드리도록 노력하겠습니다.

* 욕설과 광고를 담은 댓글은 가차없이 삭제합니다.


  1. BlogIcon 푸쿵@2021.03.04 10:51 신고 ~$ 시각화가 깔끔해서 보기좋네요^^ [댓글주소]  [수정/삭제]  [답글작성]
  2. BlogIcon 꼬장스카이비전@2021.03.04 17:17 ~$ 연봉이 없는 너가 이렇게 훌륭하게 분석 하는걸 보면 연봉이랑은 상관이 없는게 아닐까 [댓글주소]  [수정/삭제]  [답글작성]
    • BlogIcon bskyvision@2021.03.04 17:38 신고 ~$ [답글]: 이런 ㅋㅋ 팩폭하냐 ㅋㅋ 프로야구는 엔터테인먼트적 요소도 강해서 같은 실력이라도 팀에 돈 많이 벌어다주는 선수에게 더 많은 연봉을 주는듯 ㅎㅎ [댓글주소]  [수정/삭제]
  3. 이병우@2021.03.17 23:50 ~$ 유익한 자료 잘 보고 있습니다.
    세이버매트릭스 관련 분석을 하기에는 SQL+를 공부하는게 나을까요 혹은 파이썬을 공부하는게 나을까요? [댓글주소]  [수정/삭제]  [답글작성]
guest@이름 ~$
guest@패스워드 ~$
guest@홈페이지주소작성 ~$

guest@댓글작성 ~$




bskyvision. Designed by bskyvision.