통계분석방법의 종류와 이해: 빈도분석, 평균분석, 변량분석, 상관분석, 회귀분석
가설이란 어떤 연구 문제에 대한 잠정적인 결론을 뜻한다[4]. 예를 들어, 다음과 같은 명제들이 가설이 될 수 있다(이미 검증된 것들일 수도 있겠지만).
"축구경기 시청을 좋아하는 20대 남자는 축구게임도 좋아한다."
"30대 남자와 여자의 근육량에는 차이가 있다."
"서울에서 고등학교를 다니고 있는 고3 수험생의 수능 수리영역 평균 성적은 다른 지역 고3 수험생의 평균 성적과 차이가 있다."
"보수주의자들과 진보주의자들의 행복지수에는 차이가 있다."
가설은 어디까지나 아직 검증되지 않은 '썰'이다[1]. 따라서 검증이 필요하다. 가설을 검증하는 단계에서 주로 통계분석방법을 활용한다. 통계분석방법에는 빈도분석, 평균분석, 변량분석, 상관분석, 회귀분석이 있다. 오늘은 이 5가지 분석방법은 각각 무엇이고, 어떤 상황에 어떤 분석방법을 써야하는지에 대해서 정리하려고 한다.
통계분석방법의 종류
1) 빈도분석($\chi ^{2}$ 검증, 카이자승 검증)
측정하여 얻은 데이터가 사람 수, 횟수 등의 빈도인 경우에 사용한다. 이 방법은 집단 간 빈도 차를 비교한다.
예를 들어, '밤 10시부터 12시 사이에 치킨, 피자, 떡볶이를 시켜먹는 사람 수는 차이가 있다', '대학생들이 어학 연수 지역으로 미국, 캐나다, 호주를 선호하는 사람 수에는 차이가 있다'라는 가설을 검증하려면 빈도분석을 해야한다.
측정하여 얻은 데이터가 점수고 비교해야할 집단이 두 개만 존재할 때, 두 개 집단의 평균 등을 비교하여 가설을 검증한다.
예를 들어, '수면교육을 받은 그룹과 받지 않은 그룹의 수면의 질(점수로 나타낼 수 있을 때)은 차이가 있다', 'A병원과 B병원 환자들의 만족도는 차이가 있다'라는 가설들을 검증하려면 평균분석을 사용해야한다.
3) 변량분석(F 검증)
측정하여 얻은 데이터가 점수고, 3개 이상 집단을 비교할 때 사용한다. 가장 많이 사용되는 검증 방법으로써, 영어로 ANOVA(analysis of variance)로 표현된다.
예를 들어, 'A 방식의 수면교육을 받은 그룹과 B 방식의 수면교육을 받은 그룹과 C 방식의 수면교육을 받은 그룹의 수면의 질은 차이가 있을 것이다'라는 가설을 검증하려면 변량분석을 선택해야한다. 집단이 3개 이상이기 때문이다.
4) 상관분석
두 변수간 관계성이 얼마나 큰가를 분석할 때 사용한다. 상관분석에서는 변수들 간 상관성 유무만 확인하고, 인과관계는 분석하지 않는다. 상관분석의 핵심은 상관계수(r)를 구하는 것이다. 상관계수는 -1에서 1 사이의 값을 갖게 된다. 상관계수의 절대값이 1에 가까울 수록 두 변수는 큰 관계성을 갖고 있다. 상관계수의 절대값이 0에 가깝다면 관계성이 적다는 것이다.
널리 사용되는 상관계수에는 Pearson 상관계수, Spearman 상관계수, Kendall 상관계수가 있다. Pearson 상관계수는 두 변수의 관계가 얼마나 선형적인지를 반영한다. 한 변수를 x축, 다른 한 변수를 y축에 놓고 그래프를 그렸을 때, 직선에 가까운 분포를 띄면 두 변수는 선형관계를 갖고 있는 것이다. Pearson 상관계수의 절대값이 1에 가까울수록 두 변수는 강한 선형관계이다. Spearman 상관계수와 Kendall 상관계수는 두 변수의 관계가 얼마나 단조로운지를 반영한다. 한 변수가 커질 때 다른 한 변수도 커지고, 한 변수가 작아질 때 다른 한 변수도 작아진다면 단조성이 큰 것이다. Spearman 또는 Kendall 상관계수의 절대값이 1에 가까울수록 두 변수는 강한 단조관계이다.
5) 회귀분석
독립변수가 종속변수에 영향을 미치는지 분석할 때 사용한다. 회귀분석은 인과관계를 분석한다. 관측된 사건들을 정량화해서 여러 독립변수와 종속변수의 관계를 함수식으로 설명한다.
예를 들어, 단 하나의 세트메뉴만 파는 햄버거 가게가 있다고 가정해보자. 주인은 햄버거의 맛, 감자튀김의 맛, 가격, 종업원 친절도, 가게 분위기라는 5가지 독립변수가 고객 만족도(여기서 종속변수)에 각각 얼마나 영향을 미치는지 알고 싶다. 그렇다면 회귀분석을 시행하면 된다.
회귀분석의 핵심은 결정계수($r^2$)를 구하는 것이다. 독립변수와 종속변수로 구한 상관계수에 제곱한 값이다. 결정계수는 독립변수를 가지고 얼마만큼 의미 있게 종속변수를 예측할 수 있는지를 판별할 때 사용한다. 위의 예처럼 독립변수가 5개라면, 총 5개의 결정계수를 계산할 수 있다. 결정계수가 보통 0.65 이상이면 해당 독립변수를 가지고 의미 있게 종속변수를 예측할 수 있다고 판단한다.
이상의 내용을 표로 정리하면 다음과 같다.
통계분석은 이과생이나 문과생이나 논문을 쓰기 위해서는 꼭 거치게 되는 관문과도 같다. 완벽하게 모든 것을 알지는 못하더라도 본인이 써야하는 방법은 제대로 익혀두자.
<참고 자료>
[1] 박규상 지음, "처음쓰는 논문 쓰기", 샌들코어(2014)
[2] 김의중 지음, "인공지능, 머신러닝, 딥러닝 입문", 위키북스(2016)
[3] https://socialinnovation.tistory.com/133, 누구나 함께 살 수 있는 열린 공동체 사회, "가설 설정 및 가설 검정"
[4] https://terms.naver.com/entry.nhn?docId=941240&cid=47332&categoryId=47332, 네이버 지식백과, "Basic 고교생을 위한 사회 용어사전, 가설"