계량분석 A to Z
데이터를 바라보는 시각 자체는 다양할 수 있으나 이를 분석하는 과정은 옳고 그름이 매우 분명하게 존재한다. 또 다른 의미에서 0과 1의 영역이기 때문이다. 계량 데이터에 대한 당신의 분석은 오롯이 옳거나 혹은 완전히 틀린 것이다. 필자는 이 글을 통해 많은 사람들이 계량 데이터를 마주할 때 가장 흔히 범하는 간단하지만 치명적인 오류에 대해 논하고자 한다.
사례
국내 굴지의 대기업 A사(社)는 영업사원들의 세일즈 역량 향상을 위해 막대한 비용을 들여 새로운 세일즈 트레이닝 프로그램을 개발했다. 참여 여부는 현업 일정을 감안해 영업사원들이 자발적으로 선택할 수 있도록 했다. 큰 비용을 들여서 개발한 프로그램이었기에 인사 담당 임원은 트레이닝 프로그램이 실질적인 효과를 거뒀는지 확인하고 싶었다. 따라서 트레이닝에 참여한 집단과 참여하지 않은 집단의 최근 한 달간 영업실적을 비교했다. 그 결과 트레이닝에 참여한 영업사원들의 영업실적이 무려 30% 이상 높은 것을 확인할 수 있었다. 이에 인사 담당 임원은 해당 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 결정했다.
과연 A사의 세일즈 트레이닝 프로그램은 효과를 거둔 것일까? 또한 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 한 인사 담당 임원의 결정은 합리적인 것일까.
만약 위의 질문에 대해서 “A사의 트레이닝 프로그램은 효과적이었다”라고 답했다면 당신은 계량분석에 있어 치명적인 오류를 범한 것이다. 결론부터 말하자면 그 이유는 A사가 영업사원들로 하여금 트레이닝 프로그램 참여 여부를 ‘자발적으로’ 선택하도록 했기 때문이다. 트레이닝 프로그램에 자발적으로 참여한 영업사원들은 참여하지 않은 영업사원들보다 향후 커리어에 대한 열망이 높고, 더 부지런하며 본인의 업무에 대한 애착이 강할 확률이 높다. 또한 그런 이유에서 세일즈를 원래부터 잘하던 영업사원들이 ‘더욱 잘하기 위해’ 트레이닝 프로그램에 참여했을 공산도 크다. 그렇기 때문에 위에서 관측된 30%라는 수치에는 트레이닝 프로그램의 효과뿐 아니라 커리어에 대한 높은 열망, 성실성, 강한 업무 애착도, 기존의 높은 세일즈 역량 등에 의한 효과들이 모두 섞여 있다. 따라서 이 수치는 필자가 평소에 즐겨 쓰는 표현에 따르면 ‘오염된 분석수치(Contaminated analysis)’인 것이다. 무엇이 분석에 오염을 유발했는지 구체적으로 살펴보자.
대부분의 계량분석은 회귀분석(Regression)에 기반을 두고 있다. 회귀분석이란 Y로 표현되는 종속변수(영향을 받는 변수)와 X로 표현되는 독립변수들(영향을 주는 변수) 사이의 관계를 통계적 기법으로 추정하는 것으로, 이는 우리가 잘 알고 있는 상관(Correlation)이라는 개념에서 비롯된 것이다.1
A사 역시 트레이닝 프로그램의 효과분석을 위해 영업사원들의 실적을 종속변수로 삼아 아래와 같은 회귀분석을 실시했다.
영업실적ⅰ=β₁+β₂지역ⅰ+β₃근속연수ⅰ+β₄트레이닝 참여여부ⅰ+εⅰ
위의 회귀분석 공식에서 아래 첨자로 표기된 ⅰ는 분석의 대상이 되는 개별 영업사원을,β₂∼β₄는 각각의 독립변수들이 종속변수로서의 영업실적에 미치는 효과의 크기(Estimated effect size)를 의미한다. εi는 회귀분석에 이미 포함된 독립변수인 지역, 근속연수, 트레이닝 참여 여부를 제외하고 영업실적에 영향을 미치지만 모델에 포함되지 않은 모든 변수들을 포괄하는 것으로 오차항(Error term)이라 불린다. 그리고 계량분석에 있어서 대부분의 치명적인 결함은 바로 이 오차항에서 비롯된다. 이런 이유에서 오차항에 대한 민감도(Sensitivity)는 데이터 애널리스트가 갖춰야 할 가장 중요한 역량 중 하나라고 해도 과언이 아니다. 위의 사례에서 A사가 범한 ‘오염된 분석’ 역시 오차항에 대한 둔감함에서 비롯된 것이다. 영업실적에 영향을 미치지만 회귀분석에 독립변수로서 포함되지 않은 영업사원의 성실성, 커리어에 대한 높은 열망, 강한 업무 애착도 등의 요소들은 모두 오차항(εi)에 들어가게 되고, 특정 조건에서 이러한 오차항의 요소들은 분석에 편의(Bias)를 가져오는데 가장 대표적인 편의가 바로 위의 사례에서 A사가 범한 것과 같은 누락편의(OVB·Omitted Variable Bias)2
‘누락편의’라고 부르는 이유는 분석모델에 포함돼 있어야 할 변수들이 ‘누락(Omission)’됨으로써 오차항에 들어가게 되고, 이에 의해서 편의(偏倚)가 발생했기 때문이다. 그렇다면 누락편의는 정확하게 어떤 경우에 발생하는가? 누락편의는 아래의 두 가지 조건이 동시(AND)에 충족될 때 발생한다.
첫째, 누락된 요소(ex. 영업사원의 성실성)가 종속변수(영업실적)에 유의미한 영향을 미치면서 (AND)
둘째, 누락된 요소(ex. 영업사원의 성실성)와 분석의 목적이 되는 독립변수(ex. 트레이닝 참여 여부) 사이에 상관관계가 있을 때3
거듭 강조하지만 위의 두 가지 조건이 ‘동시에’ 충족될 때 누락편의가 발생한다.4
바꿔 말하자면, 누락된 요소들이 종속변수에 유의미한 영향을 끼치지 않거나 혹은 누락된 요소와 분석의 목적이 되는 독립변수 사이에 상관이 없다면 누락편의는 발생하지 않는다. 하지만 필자가 위에서 언급한 영업사원의 성실성, 커리어에 대한 높은 열망, 강한 업무 애착도 등은 영업실적이라는 종속변수에 유의미한 영향을 미치는(누락편의의 첫 번째 조건) 동시에 분석의 목적이 되는 트레이닝 참여 여부와 상관이 있을 가능성(누락편의의 두 번째 조건)이 매우 높으므로 이들을 고려하지 않은 상태에서 이뤄진 회귀분석의 결과값(β₄)은 트레이닝의 효과에 더해 누락된 요소들의 효과가 몽땅 섞여 있는 ‘오염된 분석값’일 확률이 매우 높다. 따라서 단순히 이를 토대로 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 한 인사 담당 임원의 결정은 부적절하다.
가입하면, 한 달 무료!
걱정마세요. 언제든 해지 가능합니다.
질문, 답변, 연관 아티클 확인까지 한번에! 경제·경영 관련 질문은 AskBiz에게 물어보세요. 오늘은 무엇을 도와드릴까요?
Click!
회원 가입만 해도, DBR 월정액 서비스 첫 달 무료!
15,000여 건의 DBR 콘텐츠를 무제한으로 이용하세요.