Top
검색버튼 메뉴버튼

계량분석 A to Z

포함되지 않은 변수를 보는 것이, 계량분석의 오차를 줄이는 길

신선호 | 235호 (2017년 10월 Issue 2)


데이터를 바라보는 시각 자체는 다양할 수 있으나 이를 분석하는 과정은 옳고 그름이 매우 분명하게 존재한다. 또 다른 의미에서 0과 1의 영역이기 때문이다. 계량 데이터에 대한 당신의 분석은 오롯이 옳거나 혹은 완전히 틀린 것이다. 필자는 이 글을 통해 많은 사람들이 계량 데이터를 마주할 때 가장 흔히 범하는 간단하지만 치명적인 오류에 대해 논하고자 한다.

 

사례
국내 굴지의 대기업 A사(社)는 영업사원들의 세일즈 역량 향상을 위해 막대한 비용을 들여 새로운 세일즈 트레이닝 프로그램을 개발했다. 참여 여부는 현업 일정을 감안해 영업사원들이 자발적으로 선택할 수 있도록 했다. 큰 비용을 들여서 개발한 프로그램이었기에 인사 담당 임원은 트레이닝 프로그램이 실질적인 효과를 거뒀는지 확인하고 싶었다. 따라서 트레이닝에 참여한 집단과 참여하지 않은 집단의 최근 한 달간 영업실적을 비교했다. 그 결과 트레이닝에 참여한 영업사원들의 영업실적이 무려 30% 이상 높은 것을 확인할 수 있었다. 이에 인사 담당 임원은 해당 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 결정했다.

 

과연 A사의 세일즈 트레이닝 프로그램은 효과를 거둔 것일까? 또한 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 한 인사 담당 임원의 결정은 합리적인 것일까.

만약 위의 질문에 대해서 “A사의 트레이닝 프로그램은 효과적이었다”라고 답했다면 당신은 계량분석에 있어 치명적인 오류를 범한 것이다. 결론부터 말하자면 그 이유는 A사가 영업사원들로 하여금 트레이닝 프로그램 참여 여부를 ‘자발적으로’ 선택하도록 했기 때문이다. 트레이닝 프로그램에 자발적으로 참여한 영업사원들은 참여하지 않은 영업사원들보다 향후 커리어에 대한 열망이 높고, 더 부지런하며 본인의 업무에 대한 애착이 강할 확률이 높다. 또한 그런 이유에서 세일즈를 원래부터 잘하던 영업사원들이 ‘더욱 잘하기 위해’ 트레이닝 프로그램에 참여했을 공산도 크다. 그렇기 때문에 위에서 관측된 30%라는 수치에는 트레이닝 프로그램의 효과뿐 아니라 커리어에 대한 높은 열망, 성실성, 강한 업무 애착도, 기존의 높은 세일즈 역량 등에 의한 효과들이 모두 섞여 있다. 따라서 이 수치는 필자가 평소에 즐겨 쓰는 표현에 따르면 ‘오염된 분석수치(Contaminated analysis)’인 것이다. 무엇이 분석에 오염을 유발했는지 구체적으로 살펴보자.

대부분의 계량분석은 회귀분석(Regression)에 기반을 두고 있다. 회귀분석이란 Y로 표현되는 종속변수(영향을 받는 변수)와 X로 표현되는 독립변수들(영향을 주는 변수) 사이의 관계를 통계적 기법으로 추정하는 것으로, 이는 우리가 잘 알고 있는 상관(Correlation)이라는 개념에서 비롯된 것이다.1 A사 역시 트레이닝 프로그램의 효과분석을 위해 영업사원들의 실적을 종속변수로 삼아 아래와 같은 회귀분석을 실시했다.

 

영업실적ⅰ=β₁+β₂지역ⅰ+β₃근속연수ⅰ+β₄트레이닝 참여여부ⅰ+εⅰ

 

위의 회귀분석 공식에서 아래 첨자로 표기된 ⅰ는 분석의 대상이 되는 개별 영업사원을,β₂∼β₄는 각각의 독립변수들이 종속변수로서의 영업실적에 미치는 효과의 크기(Estimated effect size)를 의미한다. εi는 회귀분석에 이미 포함된 독립변수인 지역, 근속연수, 트레이닝 참여 여부를 제외하고 영업실적에 영향을 미치지만 모델에 포함되지 않은 모든 변수들을 포괄하는 것으로 오차항(Error term)이라 불린다. 그리고 계량분석에 있어서 대부분의 치명적인 결함은 바로 이 오차항에서 비롯된다. 이런 이유에서 오차항에 대한 민감도(Sensitivity)는 데이터 애널리스트가 갖춰야 할 가장 중요한 역량 중 하나라고 해도 과언이 아니다. 위의 사례에서 A사가 범한 ‘오염된 분석’ 역시 오차항에 대한 둔감함에서 비롯된 것이다. 영업실적에 영향을 미치지만 회귀분석에 독립변수로서 포함되지 않은 영업사원의 성실성, 커리어에 대한 높은 열망, 강한 업무 애착도 등의 요소들은 모두 오차항(εi)에 들어가게 되고, 특정 조건에서 이러한 오차항의 요소들은 분석에 편의(Bias)를 가져오는데 가장 대표적인 편의가 바로 위의 사례에서 A사가 범한 것과 같은 누락편의(OVB·Omitted Variable Bias)2  ‘누락편의’라고 부르는 이유는 분석모델에 포함돼 있어야 할 변수들이 ‘누락(Omission)’됨으로써 오차항에 들어가게 되고, 이에 의해서 편의(偏倚)가 발생했기 때문이다. 그렇다면 누락편의는 정확하게 어떤 경우에 발생하는가? 누락편의는 아래의 두 가지 조건이 동시(AND)에 충족될 때 발생한다.

 

첫째, 누락된 요소(ex. 영업사원의 성실성)가 종속변수(영업실적)에 유의미한 영향을 미치면서 (AND)

둘째, 누락된 요소(ex. 영업사원의 성실성)와 분석의 목적이 되는 독립변수(ex. 트레이닝 참여 여부) 사이에 상관관계가 있을 때3




거듭 강조하지만 위의 두 가지 조건이 ‘동시에’ 충족될 때 누락편의가 발생한다.4 바꿔 말하자면, 누락된 요소들이 종속변수에 유의미한 영향을 끼치지 않거나 혹은 누락된 요소와 분석의 목적이 되는 독립변수 사이에 상관이 없다면 누락편의는 발생하지 않는다. 하지만 필자가 위에서 언급한 영업사원의 성실성, 커리어에 대한 높은 열망, 강한 업무 애착도 등은 영업실적이라는 종속변수에 유의미한 영향을 미치는(누락편의의 첫 번째 조건) 동시에 분석의 목적이 되는 트레이닝 참여 여부와 상관이 있을 가능성(누락편의의 두 번째 조건)이 매우 높으므로 이들을 고려하지 않은 상태에서 이뤄진 회귀분석의 결과값(β₄)은 트레이닝의 효과에 더해 누락된 요소들의 효과가 몽땅 섞여 있는 ‘오염된 분석값’일 확률이 매우 높다. 따라서 단순히 이를 토대로 트레이닝 프로그램에 대한 투자를 두 배 이상 늘리기로 한 인사 담당 임원의 결정은 부적절하다.


037


그렇다면 누락편의를 피하기 위해서는 어떻게 해야 하는가. 당연히 중요한 변수들을 누락시키지 않고 모델에 포함해야 한다. 하지만 이때 두 가지 사항에 반드시 주의해야 할 필요가 있다. 첫째, 기업 실무에 종사하고 있는 많은 데이터 애널리스트들이 누락편의를 피하기 위해 중요하지 않은 변수들까지도 ‘몽땅’ 모델에 포함시키는 경우가 매우 빈번한데, 이 경우 추정치의 표준오차(Standard error)가 증가해 분석의 정확도를 심각하게 저하시킬 수 있다.5 따라서 중요하지 않은 변수들을 적절하게 모델에서 제외할 수 있는 안목 역시 매우 중요하다. 이런 이유로 필자는 계량 분석이 사용되는 컨설팅 프로젝트에서도 정성적(Qualitative)인 안목을 지닌 실무진과 정량적(Quantitative)인 테크닉을 지닌 컨설턴트의 협업이 무엇보다 중요함을 매 순간 느껴왔다. 계량 분석 모델은 절대 모델을 만든 사람 혼자서 컴퓨터 앞에 앉아 뚝딱 만들어 낼 수 있는 성질의 것이 아니다.





둘째, 중요한 변수를 누락시키지 않고 분석에 포함시키고 싶어도 요구되는 데이터가 존재하지 않는 경우가 많다. 예를 들어보자. 앞에서 언급한 ‘영업사원의 성실성’이라는 변수를 누락시키지 않고 모델에 포함시키고자 할 때, 어떤 데이터를 사용해야 할까. ‘성실성’이라는 항목은 객관적으로 측정하기 힘들다는 이슈가 있기에 대신 개별 영업사원의 업무 태도에 대한 상사 및 동료들의 평가가 적절한 대위변수(Proxy variable)로 고려될 수 있겠다. 하지만 문제는 이러한 데이터가 단순한 기술(Description)이 아닌 정량적인 수치의 형태로 A사의 데이터 풀(Data pool)에 존재하는지 여부다. 만약 그러한 데이터가 없다면 A사는 트레이닝의 효과분석을 함에 있어서 누락 편의를 피할 수 없다. 이런 이유에서 포괄적인 계량 데이터의 중요성이 강조되는 것이다.

필자가 학부 2학년 시절 처음 통계학을 접했을 때 사회과학 통계의 대가인 은사는 모델에 투입되는 양질의 데이터의 중요성을 강조하면서 ‘Garbage In, Garbage Out(GIGO·무가치한 데이터를 넣으면 무가치한 결과가 나온다)’이라는 유명한 표현을 매시간 귀에 못이 박히도록 인용했다. 기술의 진보로 우리는 예전에 비해 양질의 데이터를 손쉽게 얻을 수 있게 됐으니 ‘Garbage In’의 이슈는 상당 부분 완화됐으리라 생각한다. 하지만 아무리 방대한 양질의 데이터를 보유하고 있더라도 오차항의 중요성을 간과하고 ‘오염된 분석’을 했을 때, 그 결과는 작게는 프로젝트를, 나아가서는 하나의 기업을 송두리째 흔들어 놓기에 충분하다는 점에서 ‘Garbage Out’의 이슈는 여전히 존재한다. 따라서 우리는 계량 데이터를 마주할 때 치명적인 오류의 가능성을 항상 경계해야 하며 그 출발점은 분석 모델의 오차항을 샅샅이 뜯어보는 것에 있다고 봐도 무방하다. 물론 누락편의는 오차항에서 비롯되는 무수히 다양한 오류의 유형 중 하나에 불과하다. 하지만 누락편의는 가장 빈번하게 발생하면서도 그 영향이 치명적일 수 있다는 점에서 가장 먼저 경계돼야 할 것임에 틀림없다. 


신선호 롤랜드버거 시니어 컨설턴트 seonho.shin@rolandberger.com
 
필자는 서울예고를 차석으로 졸업(피아노 전공)하고 한국고등교육재단의 대학특별장학생으로 서울대를 우등 졸업(경제학 전공)했다. 독일 함부르크의 에어버스(Airbus)와 모니터그룹을 거쳐 독일 뮌헨에 본사를 둔 유럽 최대의 전략 컨설팅 업체인 롤랜드버거에 재직 중이며 현재 독일 연방정부의 국비 장학생으로 프랑크푸르트대에서 강의와 연구를 병행하고 있다. 세부 전공 분야는 계량분석(Quantitative analysis)으로 그동안 정책 효과 분석, 수요 예측, 시장 세분화 등 퀀트 기반의 다양한 프로젝트를 수행해왔다.

  • 신선호 | - 독일 전략 컨설팅 '롤랜드버거' 재직 중
    - 독일 함부르크 에어버스(Airbus), 모니터그룹

    seonho.shin@rolandberger.com
    이 필자의 다른 기사 보기
관련기사