계량분석 A to Z

표본의 독립 여부, 철저히 의심하라

247호 (2018년 4월 Issue 2)

필자는 얼마 전 굴지의 소비재 업체로부터 계량 데이터 분석 자문을 의뢰받았다. 이 기업은 기존 제품의 성능 개선 및 신제품 개발을 위해 전 세계 20여 개 주요 국가에서 방대한 규모의 소비자 설문을 면대면(face to face) 인터뷰 형태로 실시했다. 수집된 데이터를 분석하는 과정에 혹시 오류가 없었는지 검토해 달라는 의뢰였다.

통상적으로 이와 같은 대면 소비자 설문은 단순 서면 설문에 비해 결측치(missing values)1 의 비중이 낮고 정확도가 높다는 장점이 있는 반면 시간과 비용이 많이 든다는 단점이 있다. 따라서 소요되는 시간과 비용을 최소화하기 위해 군락추출(cluster sampling)2 통해서 샘플을 구성한 후 조사를 진행하는 경우가 대부분이다. 군락추출이란 쉽게 말하자면 선택된 샘플(설문조사의 대상이 되는 개별 소비자)이 명백한 기준에 의해 그룹의 형태로 묶일 수 있는 경우를 말한다. 대표적인 사례로, 가전제품 회사에서 자주 실시하는 가정방문 조사의 경우 세대주와 배우자, 세대 구성원 등을 모두 조사하는 것이 통상적이다. 한 번의 방문으로 표본수를 쉽게 늘릴 수 있기 때문이다. 이들은 모두 특정 가구의 구성원이라는 점에서 하나의 그룹으로 묶일 수 있다. 특정 학교를 방문해 소속 학생들을 조사할 수도 있고, 특정 지역을 방문해 지역 주민을 대상으로 조사를 할 수도 있다.

43


하지만 ‘세상에 공짜는 없다’는 동서고금의 이치는 계량 분석의 세계에서도 유감없이 발휘된다. 군락추출을 통해서 샘플을 구성한 경우 앞서 말한 바와 같이 조사에 소요되는 시간과 비용은 줄일 수 있지만 분석과정에서 이를 적절한 방법으로 감안하지 않은 경우, 분석 결과물에 심각한 오류가 수반된다. 이는 계량분석 전공자조차도 자주 간과하는 부분이다. 독자의 쉬운 이해를 위해 다음과 같이 생각해보자.

우리가 자주 이용하는 통상적인 계량분석 기법들은 표본이 서로 독립(independent)인 주체(subject)들로 구성돼 있다는 가정에 기반하고 있다. 이때 ‘독립’이란 서로 영향을 미치지 않음 혹은 상관(correlation)이 없음을 의미한다. 통계학 개론에서 애용되는 고전적인 독립의 예는 바로 동전 던지기다. 잠시 고등학교 수학시간으로 돌아가 보자. 평평한 동전을 두 번 연속으로 던진다고 했을 때, 첫 번째 던졌을 때의 결과(앞면 혹은 뒷면)와 두 번째 던졌을 때의 결과는 서로 영향을 미치지 않는 것으로 간주된다. 첫 번째 던졌을 때 앞면이 나왔다고 해서 두 번째 던졌을 때 다시 앞면이 나올 확률이 줄어들거나 늘어나지 않기 때문이다. 우리는 이를 ‘독립 사건’이라고 부른다. 동전이 아닌 기업 실무에서는 다음 두 가지 측면에서의 독립을 모두 확인해야 한다. 첫째, 종속변수(y, 가령 제품 만족도)3 관점에서의 독립이다. 특정 제품 A를 소비하고 있는 가구가 세대주와 그 배우자로 구성돼 있다고 생각해보자. 하나의 가구를 구성해 함께 생활하고 있는 상황에서 제품 A에 대한 세대주의 만족도와 그 사람의 배우자의 만족도는 동전 던지기의 사례와 달리 서로 영향을 미치거나 또는 상호 상관이 있을 확률이 다분하다. 이 경우 종속변수 측면에서 독립이 아니라고 본다. 둘째, 독립변수(x, 가령 생활수준):CN::4::/CN:: 관점에서의 독립이다. 일반적으로 하나의 가구는 구성원 간 소득을 공유한다. 따라서 세대주와 배우자의 생활수준은 아예 같은 값으로 관측되거나5 혹은 적어도 매우 높은 상관을 지닐 확률이 다분하다. 이 경우 독립변수(x) 측면에서 독립이 아니라고 봐야 한다.

사실상 독립이 아닌데 데이터 애널리스트가 이를 독립으로 간주할 경우 어떤 문제가 발생할까. 다음과 같이 생각하면 아주 직관적인 이해가 가능하다. 표본을 구성하고 있는 개인들이 모두 각각 독립인 경우 개인 한 명이 분석 모델에 제공하는 정보의 양이 10이라고 해보자. 반면, 개인들이 그룹으로 묶일 수 있고 그 결과 독립에 대한 가정이 성립될 수 없는 경우, 독립이 아닌 개인이 모델에 제공하는 정보의 양은 앞서 말한 10보다 작아지게 된다. 더 쉬운 설명을 위해 다음의 다소 극단적인 경우를 생각해보자. 국내 굴지의 자동차 기업 J는 큰 예산을 들여 새로운 인사 평가 프로그램을 개발했고 이에 대한 임직원들의 반응을 조사하고 있다. 인사부서 과장 P씨는 세 부서에서 총 10명의 임직원을 뽑아 의견을 수렴했다. 다른 과장 L 씨는 각각 다른 부서에 근무하는 임직원 총 10명의 의견을 수렴했다. 이 둘 중 누구의 정보가 포괄적이라고 할 수 있겠는가, 당연히 L 씨의 경우다.6

사실 표본의 개수(The number of observations)를 세는 방법에는 개념적으로 두 가지가 있다. 단순히 물리적으로 총 표본의 개수를 세는 방법이 있고, ‘독립된 정보를 제공하는 표본’의 개수를 세는 방법이 있다.7 전자에 의하면 두 과장들은 모두 10의 표본을 갖고 있지만 후자에 의하면 과장 P 씨는 3, 과장 L 씨는 10의 표본을 가지고 있는 셈이다. 작다고 할 수 없는 차이다.

필자에게 자문을 의뢰한 소비재 업체는 표본의 독립 여부에 대해서 세심한 주의를 기울이지 않았고 따라서 필자는 분석을 처음부터 다시 실시할 것을 권유할 수밖에 없었다. 그렇다면 표본이 상호 독립이 아닌 경우 어떤 조치를 취해야 하는가. 계량분석 이론에 의하면 두 가지 보정이 필요하다. 첫째는 표본들이 명백한 기준에 의해서 그룹으로 묶이는 경우 (가구, 학교, 지역 등) 각각의 독립적인 그룹들이 지니는 특수성을 또 하나의 독립변수(x)로 간주해 모델에 포함하는 것이다. 계량경제학에서는 이를 고정효과(fixed effects)라고 부른다. 이런 고정효과는 눈에 보이지 않고 따라서 객관적으로 관측되기 힘든 경우가 대부분이다. 말하자면 가구 고정효과의 경우 ‘우리 집 구성원들만이 공통적으로 공유하는 그 무언가’인 것이고 지역 고정효과는 ‘특정 지역 거주민들만이 공통적으로 공유하는 그 무언가’인 것이다. 이런 고정효과가 분석의 대상이 되는 독립변수와 상관이 없을 경우 고정효과가 무시되더라도 누락편의(omitted variable bias)는 발생하지 않는다.8

고정효과 모델은 충분한 이론적 이해가 필요한 고급 기법이기 때문에 기업 실무에서는 전문가의 도움을 받아야 할 부분이라고 생각해 이번 기고에서 자세한 설명은 생략하기로 한다. 위 내용은 짧은 글을 통해서는 이해가 힘든 것이 사실이니 용어의 의미 정도만 기억하고 넘어가도 무방하다.

두 번째 보정이 더욱 중요한데 이는 바로 표준오차(standard error)를 조정하는 것이다. 표준오차란 우리가 분석모델을 통해서 알아내고자 하는 독립변수의 효과(가령, 개별 소비자의 소득과 자사 제품 만족도의 상관관계)가 분석 모델을 통해 얼마나 정확하게 추정됐는지를 보여주는 값이다. 표준오차가 작을수록 추정치의 정확도가 높다. 표본(조사 대상)이 독립인 경우의 표준오차 계산공식과 표본이 독립이 아닌 경우의 표준오차 계산공식은 전혀 다르다. 표본이 독립이 아닌 상태에서 표준오차를 보정하지 않은 경우, 영향력이 없는 요소를 마치 영향력이 높은 요소인 것처럼 잘못 분석하는 오류를 범하게 된다.9

표준오차 보정은 통상적인 통계 분석 프로그램, 심지어 엑셀을 통해서도 간단하게 실시할 수 있다. 기업의 실무진이 반드시 숙지하고 있어야 할, 쉬우면서도 중요한 과정이다.10

표본의 독립을 가정한 통상적인 표준오차 A와 표본이 독립이 아닐 경우를 감안한 보정된 표준오차 B는 다음과 같은 수학적인 관계를 지닌다.

여기에서는 상관계수, X는 독립변수(마케팅 설문조사의 경우 흔히 연령, 소득, 교육수준 등의 소비자 특성), u는 독립이 아닌 표본들을 개별 단위로 묶었을 때 (가구, 학교, 지역 등) 개별 단위 내에서 추정된 오차항의 상관계수, M은 묶인 개별 단위들 내에 존재하는 관측치의 평균개수를 의미한다. 결코 이해가 쉽지 않으리라 생각된다. 그리고 위의 공식을 반드시 정확하게 이해해야 할 필요도 없다. 이를 통해서 필자가 강조하고자 하는 것은 딱 한 가지다. 바로, 데이터가 독립이 아니고 그들이 지닌 특성(X)이 그룹 내에서 서로 강하게 연관돼 있는 경우 위 공식에서 독립변수들 사이의 상관계수(ρχ)가 높아지게 되고 따라서 결과적으로 통상적인 표준오차 A와 보정된 표준오차 B는 매우 큰 차이가 나게 된다는 것이다. 그리고 보정된 표준오차 B를 사용하지 않을 경우 앞서 말한 바와 같이 영향력이 없는 요소를 마치 영향력이 높은 요소인 것처럼 잘못 분석하는 큰 오류를 범하게 된다. 실제로는 소비자의 제품 만족도에 전혀 영향을 미치지 않는 요소를 위해 적지 않은 예산을 낭비하게 되는 일이 벌어질 수 있는 것이다. 적절한 보정이 이뤄지지 않은 결과물을 기반으로 의사결정이 이뤄질 경우 신제품 기획의 방향이 완전히 잘못 설정될 수도 있고 심혈을 기울인 광고의 메시지가 도리어 역효과를 불러일으킬 수도 있다.

구체적인 수치를 통해 이러한 표준오차 보정의 효과에 대해서 살펴보자. 젊은 층을 대상으로 하는 패션 제품을 생산하는 기업 Y는 트렌드 조사를 위해 서울 시내의 고등학교, 대학교 몇 곳을 선정해 시장조사를 실시했다. 이와 같이 몇몇 학교를 군락추출의 형태로 선택한 이유는 조사에 소요되는 시간과 비용을 절약하기 위해서다. 즉, 표본들은 독립이 아니다. 개별 고등학교, 대학교가 명백한 기준에 의해 표본들을 묶는 그룹의 역할을 한다. 그리고 중요한 변수(x) 중 하나로 연령을 모델에 포함했다. 당연히 같은 그룹 내의 표본들은 연령대가 비슷하게 마련이다. 고등학교의 경우 15∼19세, 대학교의 경우 학부생과 대학원생을 모두 포함해 20∼35세가 주된 연령층일 것이다. 그렇다면 개별 그룹 내에서 연령(X)의 상관계수(ρχ)가 높은 것이 당연하다.

예를 들어, 이들 개별 그룹 내의 연령 상관계수가 0.8의 높은 값으로 관측됐다고 해보자. 그리고 계산의 편의를 위해 위의 식에서 다른 항목들은 임의의 주어진 값으로 고정하자(ρμ=1, M=101). 그렇다면 독립이 아닐 경우를 감안한 보정된 표준오차 B는 보정을 하지 않은 통상의 표준오차보다 무려 3배나 큰 값을 갖게 된다.

표준오차가 커진다는 것은 무엇을 의미하는가. 위에서 이미 설명했듯이 연령의 영향에 대한 추정치의 정확도가 3배 떨어졌다는 의미다. 다시 한번 말하지만 세상에 공짜는 없다. 계량 분석의 세계에서는 더더욱 그러하다. 조사에 소요되는 시간과 비용을 절약하기 위해서 군락추출을 실시했고 그 결과 추정의 정확도는 크게 떨어졌다. 기업의 입장에서 위험한 것은 보정된 표준오차가 아닌 통상적인 표준오차를 사용해 추정 결과의 정확도를 3배로 과대평가하는 것이다.

필자가 지금까지의 기고문에서 이미 강조했듯이 계량분석은 그 과정을 수행하는 사람은 물론이고 그 결과물을 받아보는 사람까지도 철저하게 의심하고 질문하는 습관을 지녔을 때 비로소 데이터 시대의 기업 생존을 위한 강력한 무기가 돼줄 수 있다. 이 글을 통해서 독자들이 ‘나의 데이터는 독립인가? 아니라면 적절한 보정을 통해 오류 가능성을 최소화했는가?’에 대한 날카로운 질문을 던질 수 있게 됐기를 바란다.

신선호 롤랜드버거 시니어 컨설턴트 seonho.shin@rolandberger.com

필자는 서울예술고등학교를 졸업(피아노 전공)하고, 서울대 경제학과를 졸업했으며 독일 연방정부의 국비장학생으로 독일 프랑크푸르트대 경영경제학 석사 학위를 받았다. 독일 함부르크의 에어버스와 모니터그룹을 거쳐 독일 뮌헨에 본사를 둔 유럽 최대 컨설팅 기업 롤랜드버거에서 시니어 컨설턴트로 재직 중이다. 프랑크푸르트대 계량경제학 연구실에서 강의와 연구를 병행하고 있다. 그동안 정책효과 분석, 수요 예측, 시장 세분화 등 퀀트 기반의 다양한 프로젝트를 수행해
왔다.
동아비즈니스리뷰 348호 The New Chapter, Web 3.0 2022년 07월 Issue 1 목차보기