Red vs Blue를 주제로 2005년 네이처지에 올라왔던 '빨간색이 스포츠 경기에서 승률을 높인다'는 연구를 다루게 되었는데, 해당 연구에 사용된 통계 데이터가 유의미한지 카이제곱 검정을 이용해 분석하였다.

※사용한 프로그램: GoStats(다운로드 링크) - 자바가 설치되어 있어야 실행된다.


당시에 공개된 연구는 네이처지 온라인 아카이빙 페이지에서 볼 수 있다. 여기에서 연구자인 Russell Hill과 Robert Barton이 사용한 데이터(.xls)와 방법론(.doc)을 다운받았다. 스크롤을 좀 내려보면 'Supplementary information'에 링크가 걸려있다.

엑셀 파일에 종목별로 어떤 색이 승리했는지 정리되어 있다. 방법론에 나온 대로 워크오버를 제외한 승리 횟수를 계산한다. 

종목 승리한 유니폼 합계
Red Blue
권투(B) 147 120 267
태권도(TaeKwon) 45 35 80
레슬링 그레코로만형(GW) 25 23 48
레슬링 자유형(FW) 27 24 51
합계 244 202 446
% 55% 45% 100%

퍼센트만 보면 빨간색 유니폼의 승률이 55%로 파란색보다 10% 더 높다.

카이제곱 검정은 범주형 데이터 간의 관계를 파악하는 통계 분석 방법이다. 권투, 태권도, 레슬링 그레코로만형, 자유형이라는 4개 종목에서 빨간색과 파란색이라는 2가지 조건 간에 차이가 유의미한지 판단할 것이다.

GoStats로 돌려본 결과 다음과 같이 나왔다.

Raw data...
147.0, 120.0, 
45.0, 35.0, 
25.0, 23.0, 
27.0, 24.0, 

Row totals: 267.0 80.0 48.0 51.0 
Column totals: 244.0 202.0 
Grand total = 446.0
Expected data...
146.07174887892376, 120.92825112107623, 
43.766816143497756, 36.233183856502244, 
26.260089686098656, 21.739910313901344, 
27.90134529147982, 23.09865470852018, 

Chi-square(3) = 0.288
p = 0.9624
----------------------------------------------------
------ Pairwise Comparisons (using contrasts) ------
----------------------------------------------------
Pair 1:2   --->   Chi-square(3) =  0.032, p = 0.9985
----------------------------------------------------

데이터의 행과 열을 반대로 써야 하는 건가 싶었는데 각 행별로 1열과 2열의 관계가 유의미한지 궁금한 거니까 맞지 않나 싶다. 몇 달만에 쓰니까 또 헷갈린다;

결과에 대해 설명하자면 일단 Expected data가 기대값이다. 기대값은 주어진 데이터의 분포가 특정 가설 하에서 예상되는 빈도를 나타낸다고 한다. 

기대값(E) = (해당 행의 합)*(해당 열의 합)/총 관측값의 합

Chi-square(3)에서 '3'은 자유도이다. 원래 인용했던 티스토리 블로그에서 자유도 3을 한 걸 보고 교수님이 '자유도가 2여야 하는 거 아닌가? 왜 3이지??'라고 하셨었는데 그때는 솔직히 이해를 못해서(😇) 잘 모르겠다고 했었다. 자유도는 다음과 같이 계산되기 때문에 3이 맞다.

자유도 = (행의 수 - 1)*(열의 수 - 1)

아무래도 의문을 가지는 사람이 있으니 인용할 때 표도 같이 넣었어야 했나 보다.


카이제곱 검정은 실제 데이터와 기대값 간의 차이를 나타내며, 이 차이가 통계적으로 유의미한지를 판단하는 것이다. 값은 0.288이 나왔다.

p-값(p)은 관찰된 데이터가 우연에 의한 것인지를 나타낸다. p가 0.05보다 클 경우 우연에 의한 것으로 판단하는데, 위 데이터를 보면 p가 0.9624로 매우 높은 값이 나왔다. 우연히 일어났을 확률이 96%이므로 이 데이터로 얻은 결과는 통계적으로 유의미하지 않다.

마지막에 Pairwise Comparisons는 두 범주간의 관계를 추가적으로 계산해주는 건데 마찬가지로 유의미하지 않다는 결과가 나왔다.

따라서 붉은색 유니폼을 입으면 승리할 확률이 높다는 건 사실이 아니다.


참고자료