‘진짜 차이’인가, ‘우연’에 의한 결과인가

249호 (2018년 5월 Issue 2)

PDF 다운로드 횟수 10회중 1회차 차감됩니다.
다운을 진행하시겠습니까?
아티클 다운로드(PDF)
4,000원
필자가 컨설팅 프로젝트의 최종 보고를 위해 한 대기업의 임원 회의에 들어갔을 때의 일이다. 당시 그 대기업은 아시아 지역에서의 매출액 확대에 사활을 걸고 있었고, 같은 동남아시아 지역에 속하며 인구 및 경제 규모가 비슷한 국가 A와 국가 B에서의 영업 성과를 비교하며 향후 전략을 수정·보완하는 중이었다. 그런데 두 국가에서의 지난 30년간 영업 성과를 두고 임원들 사이에서 갑론을박이 벌어졌다. 국가 A의 지난 30년간 매출액 평균이 같은 기간 국가 B의 매출액 평균보다 약 10억 원 정도 높았는데 이를 두고 이것이 과연 유의미한 차이인지, 미미한 차이에 불과한 것인지 논쟁이 벌어진 것이다. 참고로 해당 대기업의 당시 연 매출액은 1조2000억여 원에 달했다. 영업 총괄임원은 ‘그 정도의 차이는 중요하지 않은 요인에 의해서 얼마든지 발생할 수 있으므로 큰 의미가 없다’는 입장이었고, 반면 재무 총괄임원은 ‘10억이면 우리 회사 신제품 하나의 초기 R&D 투자액에 달하는 금액인데 어떻게 이를 무시할 수 있겠는가’라는 입장이었다. 맥락은 다르겠지만 이와 같이 ‘애매한’ 논쟁 상황은 사실 기업 실무는 물론 개인의 일상생활에서도 매우 빈번하게 발생한다. 두 집단의 평균치 차이를 두고 이것이 두 집단 사이의 ‘진짜 차이’를 반영한 결과인지, 아니면 단순히 ‘우연’에 의한 결과인지 모두가 수긍할 수 있는 객관적인 답을 내놓기 쉽지 않은 상황이다.

이와 같은 애매한 논쟁은 서로 다른 관점에서의 통상적인 갑론을박으로는 결코 해결되지 않는다. 그렇다면 어떻게 하는 것이 좋을까. 우리는 객관적인 논쟁 해결을 위해 계량분석 이론을 통한 ‘과학적’ 도움을 받을 수 있다. 사실 위의 사례는 통계학에서 말하는 ‘두 집단 간 평균 차이에 대한 검정(Testing differences between two group means)’1 이 필요한 매우 전형적인 상황이기 때문이다. 통계학에서 ‘검정(Testing)’이란 관측된 통계치(가령, 위의 사례에서 약 10억 원의 매출액 차이)2 가 통계적으로 유의한 것(Statistically significant)인지, 아닌지를 판단하는 일련의 과정을 말한다. 이때 우리는 단순히 ‘유의하다’라는 표현이 아닌 ‘통계적으로 유의하다’라는 표현을 쓴다는 점에 특히 주의해야 할 필요가 있다. ‘통계적 유의성’에 대한 자세한 설명은 이 글의 말미에 덧붙이겠다. 통상적으로 통계학 개론의 첫 시간에 우리는 ‘영가설(Null hypothesis)’과 ‘대립가설(Alternative hypothesis)’이 무엇인지에 대한 논의로 통계학의 ‘아름다움’을 향한 긴 여정을 시작하는데 많은 사람이 이 두 용어의 무미건조함으로 인해 첫 시간부터 통계학에 대한 막연한 거부감을 품게 되곤 한다. 필자 역시 학부 1학년 시절 이 두 개념을 두고 적잖이 혼동을 겪었던 기억이 난다. 매우 중요한 이 두 가지 개념을 쉽고 간단하게 설명하자면 다음과 같다.

무궁무진하게 다양한 계량분석 기법들은 그 구체적인 성격이나 실행상의 난이도는 상이하지만 사실 모두 가설 검정(Hypothesis testing)을 위한 과학적 도구들이라는 공통점을 지닌다. 그리고 통계학에서는 통상 두 가지 반대되는 성격의 가설을 상정하는데 그것이 바로 영가설3 과 대립가설이다. 이 둘에 대해 수많은 이론서가 다양한 정의들을 내세우고 있지만 쉽고 간단하게 설명하자면 다음과 같다. 영가설은 ‘내가 반박해야 하는 가설’ 혹은 ‘관찰된 것은 단순히 우연에 의한 결과임을 상정하는 가설’을 말한다. 뭔가 재미있는 사실 혹은 의미 있는 차이점이 없을 것이라는 것을 상정한다는 점에서 영가설을 영어로 ‘Null(무효의, 아무런 가치가 없는) hypothesis’라고 부름이 이해가 될 법하다. 반면 대립가설은 ‘내가 주장 또는 입증하고자 하는 가설’ 혹은 ‘관찰된 것은 단순히 우연에 의한 결과가 아님을 상정하는 가설’을 말한다. 법정에서의 상황을 예로 두 가지 개념을 구분해보면 이해가 쉽다. 자신이 사건을 수사한 검사(劍士)라고 생각해보라. 이때 검사가 주장하고자 하는 바는 ‘피고는 유죄이며 관찰된 증거들은 단순히 우연에 의한 결과가 아니다’라는 것이다. 따라서 이것이 검사가 입증하고자 하는 대립가설이 된다. 반면 검사가 반박해야 하는 바는 ‘피고는 무죄이며 관찰된 증거들은 단순히 우연에 의한 결과에 불과하다’는 것이며, 따라서 이것이 검사의 영가설이 된다. 법정에서 검사의 직무는 바로 판사로 하여금 영가설을 기각(Reject)하도록 하는 것에 있다. 병을 진단할 때 의사의 역할 역시 마찬가지다. ‘피검진자에게는 병이 있으며, 관찰된 증상과 검사 결과들은 단순히 우연에 의한 것이 아니다’라는 것이 의사의 대립가설이 된다.

다시 위에서 얘기한 대기업의 사례로 돌아가 같은 논리를 적용해 보자. 임원회의의 논쟁에서 영가설은 ‘약 10억 원의 매출액 평균 차이는 우연에 의한 것이며 따라서 두 국가의 영업실적 사이에 통계적으로 유의한 차이는 없다’는 주장이고, 대립가설은 ‘약 10억 원의 매출액 평균 차이는 우연에 의해 발생하기에는 너무 큰 수치이며 따라서 두 국가의 영업실적 사이에 통계적으로 유의한 차이가 있다’는 주장이다. 이제 독자들도 용어의 의미를 완전히 이해했으리라 생각된다. 영업 총괄임원과 재무 총괄임원 사이에서 벌어진 논쟁의 요지 역시 결국 영가설과 대립가설의 형태로 명쾌하게 정리될 수 있다. 그리고 객관적인 데이터가 존재하기만 한다면 계량분석 이론에 기반해 이에 대한 과학적인 검정을 실시할 수 있다.4

그렇다면 계량분석 이론은 어떤 방식으로 두 임원 사이의 논쟁에 접근하는가. 사실 매우 간단하다. 다음의 세 가지 단계를 따라가기만 하면 된다. 첫째, 두 집단(가령, 국가 A와 국가 B) 평균치 사이의 차이(통계치)를 계산하고 영가설과 대립가설을 분명하게 설정한다. 다시 한번 강조하지만 영가설은 두 집단 간 유의한 차이는 없다는 것을 상정한다. 둘째, ‘두 집단 간 평균치 사이의 관측된 차이’라는 통계치에 대한 표준오차(Standard error)5 를 계산한다. 이때 두 집단이 상호 독립(Independent)6 이라면 두 개의 평균치 간 차이의 표준오차는 두 집단 평균의 분산(Variance)7 더한 후 제곱근을 취하는 방법을 통해 간단히 계산된다.8 셋째, 첫째 단계에서 구한 값을 둘째 단계에서 구한 값으로 나눠준다. 이 값을 z라고 해보자. z가 2보다 크다면 95% 신뢰수준에서 영가설을 기각한다.9 즉, z가 2보다 크다면 95% 신뢰수준에서 두 집단 평균치 사이의 관측된 차이는 우연에 의한 결과로 보기에 너무 큰 수치이고 따라서 통계적으로 유의한 ‘진짜 차이’가 있을 것이라는 결론을 내리게 되는 것이다. 위의 세 단계는 엑셀 프로그램의 ‘데이터-데이터 분석-t 검정’ 메뉴를 통해서 매우 쉽게 따라갈 수 있다. 실무에서 제대로 활용하기 위해 또 다른 사례를 통해 다시 한번 연습을 해보자.

249_34_1
 
사례

다국적 기업 P사는 매년 한국 시장에서의 소비자 만족도 변화 추이 분석을 위해 전국의 소비자 1000명을 무작위로 뽑아 소비자 만족도 조사를 실시한다. 2016년과 2017년을 비교할 때 소비자 만족도의 평균 점수는 64점에서 66점으로 2점이 올랐다. 반면 평균의 표준오차는 2016년 0.35에서 2017년 0.32로 줄어들었다.

이 글을 읽고 있는 독자가 P사의 마케팅 총괄임원이라면 2점의 관측된 차이를 유의한 것으로 분석하겠는가, 아니면 단순히 우연에 의한 차이로 분석하겠는가. 결코 복잡하지 않다. 위에서 설명한 세 단계를 차분히 따라가 보자. 첫째, 관측된 차이(통계치)는 2점이고 ‘2016년과 2017년 소비자 만족도 평균치 사이에 유의한 차이는 없으며, 관측된 차이인 2점은 단순히 우연에 의한 것이다’라는 형태로 영가설을 설정한다. 둘째, 두 개의 평균치 사이의 관측된 차이에 대한 표준오차를 계산한다. 2016년과 2017년 각각의 소비자 만족도 조사에 응한 개별 소비자들이 상호 독립이라는 가정하에 두 표준오차의 제곱의 합에 다시 제곱근을 씌워줌으로써 쉽게 계산할 수 있다.
249_34_2

셋째, 첫 번째 단계에서 구한 값을 두 번째 단계에서 구한 값으로 나눠준다.

249_34_3

그러면 z값은 약 4로 계산이 되는데 이는 95% 신뢰수준에서의 기각 기준치인 2보다 훨씬 큰 수치이다. 따라서 우리는 영가설을 기각해야 한다. 앞서 말했듯이 일련의 단계는 엑셀 프로그램의 ‘데이터-데이터 분석-t 검정’ 메뉴를 통해서 매우 쉽게 따라갈 수 있다. 독자가 P사의 마케팅 총괄임원이라면, 2016년과 2017년 소비자 만족도 평균치 사이의 차이는 우연에 의해 발생하기에는 너무 큰 값이며, 따라서 2016년 대비 2017년의 소비자 만족도는 통계적으로 의미 있게 상승했다고 긍정적인 결론을 내려야 하는 것이다.

이와 같이 계량분석 이론은 우리가 기업 실무에서 매우 빈번하게 마주하는 애매한 상황을 과학적 방법에 근거해 명쾌하게 해결할 수 있도록 도와준다. 하지만 위의 간단한 방법을 사용함에 있어서 반드시 유념해야 할 것이 있다. 이 글을 시작하면서 이미 강조했듯이 계량분석 이론을 통해 내리는 결론은 ‘통계적 결론’이라는 점이 바로 그것이다. 다시 말해, 우리는 위 사례에서 2점의 소비자 만족도 평균 점수 차이를 유의한 것으로 분석하지만 이때의 ‘유의함’이란 ‘통계적 유의성(Statistical significance)’을 일컫는 것임을 유념해야 하는 것이다. 통계적 유의성이 다른 맥락에서의 유의성을 위한 필요조건이 될 수는 있으나 그 자체로서 항상 충분조건이 되는 것은 아니다. 예를 들어, P사가 2016년 과 2017년 두 번의 소비자 만족도 조사 사이의 기간 동안 소비자 만족도 향상을 위해 획기적인 제품 개선을 실시했고 여기에 어마어마한 금액의 비용을 지출했다면 P사 입장에서 2점의 소비자 만족도 향상은 ‘통계적’으로만 유의할 뿐 투자 대비 효용 측면에서는 의미가 없다고 해석될 여지가 있다. 따라서 필자는 이와 같은 측면을 고려해 계량분석을 할 때 반드시 경제적 유의성(Economic significance)과 통계적 유의성(Statistical significance)을 구분할 것을 강조해오고 있다.10

오늘날 기업들은 무한 경쟁시대를 살아가고 있으며 소비자와 경쟁사들은 실시간으로 진화하고 있다. 이러한 상황에서 애매모호한 문제에 대한 비과학적인 의사결정은 아주 사소한 것일지라도 기업의 생존을 크게 위협할 수 있다. 예전에는 실무 경험이 풍부한 임원의 한마디가 애매모호한 문제에 대한 과학적 의사결정을 위한 최선의 근거로서 기능했다면 이제는 무궁무진하게 축적된 객관적 데이터가 그 역할을 상당 부분 대신하게 됐다. 단, 필자가 그동안 강조해왔듯이 데이터는 마치 원유(原油)와 같아서 정제(精製)되지 않은 상태에서는 아무런 효용도 주지 못한다. 데이터를 정제해 과학적 의사결정의 도구로 사용할 수 있는 기업만이 그것에서 비롯되는 엄청난 효용을 누릴 수 있으며 그 출발점은 데이터 분석의 발판이 되는 계량분석 기초에 대한 관심과 이해에서 비롯돼야 한다.

신선호 롤랜드버거 시니어 컨설턴트 seonho.shin@rolandberger.com

필자는 서울예술고등학교를 졸업(피아노 전공)하고 서울대 경제학과를 졸업했으며 독일 연방정부의 국비장학생으로 독일 프랑크푸르트대 경영경제학 석사 학위를 받았다. 독일 함부르크의 에어버스와 모니터그룹을 거쳐 독일 뮌헨에 본사를 둔 유럽 최대 컨설팅 기업 롤랜드버거에서 시니어 컨설턴트로 재직 중이다. 프랑크푸르트대 계량경제학 연구실에서 강의와 연구를 병행하고 있다. 그동안 정책효과 분석, 수요 예측, 시장 세분화 등 퀀트 기반의 다양한 프로젝트를 수행해 왔다.
동아비즈니스리뷰 255호 Network Leadership 2018년 8월 Issue 2 목차보기