계량분석 A to Z

대표성 없는 샘플을 고른 ‘선택편의’숨어 있는 또 하나의 회귀공식 주목을

238호 (2017년 12월 Issue 1)


지난 DBR 235호에서는 오차항1 의 중요성을 강조하면서 ‘누락변수에 의한 편의(Omitted variable bias)’에 대해서 설명했다. 중요한 변수를 모델에 포함하지 않았을 때 발생하는 누락편의는 오차항에서 비롯되는 오류 중 가장 빈번하게 발생하면서도 그 영향이 치명적일 수 있다는 점에서 반드시 경계해야 한다. 누락편의 이외에도 오차항에서 비롯되는 오류에는 매우 다양한 유형이 있는데 그중 누락편의 못지않게 중요한 것이 바로 ‘선택편의(Selection bias)’다. 독자들의 쉬운 이해를 위해 구체적 사례를 통해서 논의를 시작해보자.

 

사례 1  글로벌 투자은행에 근무하는 A 애널리스트는 해외 기관고객들을 위해 내년도 한국 시장 전반에 관한 투자보고서를 작성하면서 올해 국내 기업들의 성장률을 분석했다. 이 과정에서 올해 국내에서는 기업의 규모가 작을수록 성장률이 높게 나타났다는 점을 발견하고 투자보고서에 “소규모 기업에 주목하라”는 메시지를 중요한 사항으로 기재
했다.

 

이 시점에서 독자들에게 질문을 던져보려 한다. 중요한 투자보고서에 “기업의 규모가 작을수록 성장률이 높은 것으로 관찰됐다”라고 기재한 A 애널리스트의 분석은 과연 옳은 것일까. 계량분석의 관점에서 결론부터 얘기하자면 A 애널리스트는 분석을 하는 과정에서 치명적인 오류를 범했다. 그 이유를 설명하자면 다음과 같다.

기업의 성장률에 영향을 미치는 요소들을 분석하기 위해 A 애널리스트는 회귀분석 모델을 활용했는데 이를 위해서는 분석의 대상이 되는 기업에 관한 세부적인 데이터가 필요하다. 다행히 데이터 제공업체로부터 잘 정리된 데이터를 구입했는데 문제는 소규모 기업의 경우 대기업과 다르게 아예 도산을 해서 청산이 된 경우가 많았고, 청산한 기업은 데이터 제공업체의 데이터 수집대상에서 아예 배제된다는 점을 고려하지 않은 것이다. 다시 말하면 소규모 기업 중 잘 정착해 성장을 거듭하고 있는 일부 기업들만이 데이터 수집과정에서 ‘체계적으로’2  선택(Selection)됐고 이는 ‘소규모 기업에 주목하라’는 ‘오염된 분석결과(Contaminated analysis)’를 가져오게 된 것이다. 선택편의란 이와 같이 관심의 대상이 되는 모집단(Population)을 제대로 대표하지 못하는 표본(Sample)이 그릇된 형태로 선택되면서 계량분석의 추정결과에 편의(Bias)가 발생하는 것을 지칭하는 개념이다. 선택편의는 결코 쉽지 않은 개념일 뿐 아니라 다양한 데이터 유형에서 광범위하게 발생하기 때문에 한 가지 사례를 더 들어보려 한다.

 
047


사례 2  글로벌 소비재 기업 W사의 마케팅 부서를 총괄하는 B 임원은 자사 제품에 대한 소비자 만족도 분석을 위해 1만여 명에 달하는 자사 제품 구매경험자들을 대상으로 설문조사를 실시했고 약 7000명 정도의 구매경험자들로부터 답변을 얻었다. 응답한 표본의 크기가 충분하다고 생각돼 응답을 하지 않은 나머지 3000여 명 정도의 구매경험자들은 분석대상에서 제외했다. 그리고 분석 결과 제품 패키징(Packaging)은 고객 만족도에 전혀 영향을 미치지 않는다는 사실을 발견하고 CEO에게 “비용 효율화를 위해 패키징을 간소화하더라도 소비자 만족도에는 부정적 변화가 없을 것”이라는 의견을 전달했다.

 

위와 같은 B 임원의 분석은 적절했는가? 아니다. B 임원은 계량분석의 관점에서 큰 오류를 범했다. 그리고 그 원인은 역시 선택편의에 있다. 마케팅 부서의 관심대상(모집단)은 전체 구매경험자였으나 3000여 명의 무응답자를 분석대상에서 단순히 제외해버림으로써 설문조사에 제대로 응한 일부 구매경험자들만을 대상으로 분석을 실시했고, 그 결과 ‘살아남은 표본’은 원래 관심의 대상이었던 모집단을 제대로 대표하지 못하게 됐기 때문이다. 쉬운 이해를 위해 이렇게 생각을 해보자. 평소 W사 제품에 높은 충성도를 가지고 있었던 구매경험자들은 W사에 대한 호감도가 높고 따라서 W사에서 실시하는 설문조사에 열심히 응한 반면 상대적으로 W사에 대한 호감수준이 낮은 나머지 구매경험자들은 설문조사에 응하지 않은 것일 수 있다. 그렇다면 ‘살아남은 표본’인 7000여 명의 구매경험자들은 W사에 대해 높은 호감도를 가지고 있는 ‘선택된 일부 표본’이며, 이들은 관심의 대상인 모집단과 ‘체계적으로 다른’ 오염된 표본인 것이다. 따라서 이들 7000여 명만을 대상으로 한 B 임원의 분석은 선택편의에서 비롯되는 오류를 피하기 힘들다. B 임원의 보고내용과 달리 3000여 명의 무응답자들을 포함한 전체 모집단에서는 패키징이 간과할 수 없는 중요한 이슈일 가능성도 있는 것이다.

그렇다면 선택편의를 피하기 위해서는 어떻게 해야 하는가. 계량분석을 할 때, 반드시 하나가 아닌 두 개의 회귀공식을 머릿속에 그려보라고 조언하고 싶다. 바꾸어 말하자면 숨어 있는 또 하나의 회귀공식에 주목하라는 얘기다. 통상적으로 기업실무에서는 관심의 대상이 되는 종속변수(ex. 소비자 만족도)를 다룬 하나의 회귀분석 방정식만을 놓고 분석을 개진하는 경우가 대부분인데 선택편의를 피하기 위해서는 반드시 숨어 있는 또 하나의 회귀분석 방정식을 생각할 수 있어야 한다. 이때 숨어 있는 방정식이란 바로 ‘어떤 표본들이 선택돼 나의 분석대상에 들어와 있는가’를 종속변수로 삼은 회귀분석 방정식이다. 위의 두 가지 사례에서 숨어 있는 회귀공식의 종속변수를 찾아보자면 [사례 1]의 경우 ‘도산하지 않고 사업을 지속해 나의 데이터 풀에 들어와 있는가’, [사례 2]의 경우 ‘설문조사에 제대로 응답해 나의 데이터 풀에 들어와 있는가’이며, 이는 ‘Yes or No’의 이분(Binary) 형태를 지니게 마련이므로 통상의 선형 회귀분석과는 다소 다른 로직(Logit), 프로빗(Probit) 등의 계량분석 테크닉이 필요하다. 용어가 다소 생소할 수 있겠으나 이 역시 회귀분석 기법의 일종이기 때문에 기본 원리만 충분히 이해한다면 복잡한 계산은 통계 프로그램을 통해 손쉽게 해결할 수 있다. [사례 2]의 경우를 대상으로 두 가지 회귀공식 모두를 표현해보자면 다음과 같다.

 

D(설문조사 응답 여부)=Xβ + ε1 ← [숨어 있는 회귀공식] 종속변수: ‘설문조사에 제대로 응답했는가?’3
 

Y(소비자 만족도)=Zβ + ε2 ← [통상의 회귀공식] 종속변수: ‘소비자 만족도는 어느 수준인가?’4

 

선택편의는 숨어 있는 회귀공식의 오차항ε1과 통상적인 회귀공식의 오차항ε2 사이의 상관관계에서 비롯되는 오류다. 따라서 오차항ε1과 오차항ε2 사이에 유의미한 상관관계가 있는지를 살펴보는 것에서부터 분석을 시작할 것을 당부한다.5  그리고 두 오차항 사이의 유의미한 상관관계가 관찰될 경우 본래 관심의 대상이었던 두 번째 회귀공식을 분석하는 과정에서 통상적인 방법이 아닌 ‘선택’을 고려한 적절한 통계적 처리가 반드시 필요하다. 다양한 통계적 기법들이 개발돼 있으나 헤크만(Heckman)이 제안한 2단계(Two-stage) 추정기법이 가장 보편적으로 사용되고 있다.6  대부분의 상용 통계 프로그램이 2단계 추정기법의 계산 기능을 제공하고 있어 기업 실무에서도 비교적 손쉽게 활용할 수 있다.7

계량분석은 빅데이터의 시대를 살아가는 오늘날 기업들에 필수불가결한 무기다. 하지만 많은 기업들이 데이터 자체의 특성이나 데이터 수집과정의 특수성 등을 고려하지 않은 채 표본의 크기만 키워 기계적인 분석을 반복하고 있는 경우를 많이 봤다. 단언컨대 빅데이터가 잘못된 분석기법을 만나는 순간 그 부작용은 가히 상상을 초월한다. 그리고 선택편의는 그러한 부작용의 전형적인 사례다. 데이터를 마주할 때에는 본인이 직접 데이터를 분석할 때든 혹은 남이 분석한 결과물을 받아볼 때든 반드시 비판적인 자세를 견지해야 할 필요가 있다. 그리고 어떤 경우에서건 필자가 위에서 강조한 ‘숨어 있는 또 하나의 회귀공식을 그려보는 것’이 큰 도움이 될 것이다. 

신선호 롤랜드버거 시니어 컨설턴트 seonho.shin@rolandberger.com
 
필자는 서울예고를 차석으로 졸업(피아노 전공)하고 한국고등교육재단의 대학특별장학생으로 서울대를 우등 졸업(경제학 전공)했다. 독일 함부르크의 에어버스(Airbus)와 모니터그룹을 거쳐 독일 뮌헨에 본사를 둔 유럽 최대의 전략 컨설팅 업체인 롤랜드버거에 재직 중이며 현재 독일 연방정부의 국비 장학생으로 프랑크푸르트대에서 강의와 연구를 병행하고 있다. 세부 전공 분야는 계량분석(Quantitative analysis)으로 그동안 정책 효과 분석, 수요 예측, 시장 세분화 등 퀀트 기반의 다양한 프로젝트를 수행해왔다.
동아비즈니스리뷰 319호 New Wave of Logistics 2021년 04월 Issue 2 목차보기