MBA 통신

'데이터가 서 말이라도 꿰어야 보배', 분위 회귀분석으로 솔루션을 찾아라

231호 (2017년 8월 Issue 2)

Article at a Glance

경영학 전공자라면 회귀분석(Regression analysis)에 대해 공부한 적이 있을 것이다. 그러나 실무에서는 지금까지 선형 회귀분석(Linear regression) 방법이 주로 활용됐고 이보다 훨씬 정교한 분석기법인 분위 회귀분석(Quantile regression)은 잘 활용되지 못했다. 이유는 분위 회귀분석을 활용할 수 있을 만큼의 충분한 데이터가 확보되지 못했기 때문. 그러나 ICT 기술의 발달로 확보할 수 있는 데이터의 절대 양이 크게 늘어나면서 최근 실무에서도 분위 회귀분석을 활용할 수 있는 분야들이 많아지고 있다.


바야흐로 ‘데이터의 시대’다. 과학과 기술의 발전이 인류의 프로메테우스가 돼 오늘날의 우리에게 쥐어준 또 하나의 ‘프로메테우스의 불(Prometheus′ fire)’, 그것이 바로 데이터다. 하지만 데이터의 축적 및 획득과 이를 제대로 활용하는 것은 엄연히 별개의 문제다. 과학과 기술의 발전이 전자를 용이하게 해 준 것은 분명한 사실이지만 ‘구슬이 서 말이라도 꿰어야 보배’라고 넘쳐나는 데이터를 제대로 분석해 불확실성의 시대를 헤쳐 나가기 위한 의사결정의 도구로 삼기 위해서는 흔히 ‘데이터 독해력(Data literacy)’이라고 불리는 이용 주체의 데이터 해석 역량이 필수다.

기업에서 전략 및 마케팅 관련 업무를 담당해 왔거나 학부에서 경영학 혹은 경제학을 전공한 독자들의 경우 이미 회귀분석(Regression analysis)에 대해서 공부한 경험이 있으리라 생각된다. 회귀분석이란 쉽게 말해 y로 표현되는 종속변수(영향을 받는 변수)와 x로 표현되는 독립변수(영향을 주는 변수) 사이의 관계를 통계적 기법으로 추정하는 것인데 이는 보다 근본적으로 우리가 잘 알고 있는 상관(Correlation)이라는 개념에 기반을 두고 있다. 간단한 예를 통해 이를 다시금 상기시켜보자.



데이터 분석의 기본기, 회귀분석

세계적인 보험회사 A는 최근 수익성이 크게 악화돼 이를 개선하고자 외부 컨설팅 업체에 자문을 의뢰했다. 그 결과, ‘전반적인 가격정책의 재수립이 불가피하다’는 제안을 받았다. 가격정책의 재수립을 위해서는 우선 고객의 의료비 지출 수준을 분석하고 이를 기반으로 합리적 예측(Prediction)을 하는 작업이 필요하다. 이를 위해 보험회사 A는 자사 내에 축적된 방대한 데이터를 이용해 고객들의 의료비 지출 수준에 영향을 미치는 요소들에 대해 살펴보고자 아래와 같이 계량 모델링을 실시했다. 물론 실무에서는 이보다 훨씬 복잡한 모델을 다루는 경우가 일반적이다.



의료비지출수준=ß0+ß1추가적 보험 가입 여부+ß2확진된 만성질환의 수+ß3나이+ß4나이2+ß5성별+ß6소득+ε



모델링을 통해 알아보고자 하는 종속변수는 고객들의 의료비 지출수준(y)이며 경쟁사를 통한 추가적인 보험가입 여부, 확진된 만성질환의 수, 나이와 나이의 제곱, 성별, 그리고 소득이 의료비 지출수준에 영향을 미칠 것으로 생각됐기에 독립변수(x)로서 포함됐다.1   이때 각 독립변수들의 계수(Coefficient)인 ß1∼ß6가 바로 분석을 실시하는 보험회사 A의 주된 관심 사항인데, 이 계수의 의미는 각각의 독립변수들이 의료비 지출 수준에 미치는 ‘효과(혹은 영향)의 크기(Size of effects)’라고 생각하면 쉽고 정확하게 이해할 수 있다.2  또한 위와 같은 모델은 기본적으로 선형적 관계(Linear in coefficients)를 상정하고 있기 때문에 통상적으로 선형 회귀분석(Linear regression)이라고 불리며 한 개 이상의 독립변수를 고려하고 있다는 점에서 다중 회귀분석(Multiple regression)의 한 예라고 할 수 있겠다.

‘데이터라는 구슬을 꿰는 방법’을 다루는 계량과학적 의사결정 방법론의 중요성이 여느 때보다 커진 오늘날 회귀분석은 데이터 기반 사고(Data-based thinking)를 위한 ‘기본기’로서 중요한 의미를 지닌다. 그래서 경영학, 경제학 전공의 대학원 과정은 물론 사회과학 전반의 석·박사 과정까지도 첫 학기에 회귀분석 강의를 필수과목으로 지정하는 것이 최근의 통상적인 모습이다. 특히 필자가 공부하고 있는 이곳 독일은 경제학과 경영학 사이에 뚜렷한 경계를 두지 않을 뿐 아니라 응용학문 전반에서 수학, 철학, 논리학 등 순수학문의 중요성을 크게 강조하는 보수적 학풍을 타협 불가능한 오랜 자랑으로 삼고 있기에 매해 대학원 여름학기의 회귀분석 강의는 다양한 전공의 학생들로 초만원을 이룬다. 또한 최근에는 계량과학적 방법론의 비약적 발전에 힘입어 다양한 유형의 변수와 데이터 유형을 다루는 고급 계량분석 강의도 다수 개설되고 있다. 필자는 본고를 통해 지난 학기 고급 미시계량분석 강의에서 다뤘던, 그동안 기업 실무에서는 거의 사용되지 않았던 ‘분위 회귀분석(Quantile regression, 통상 QR이라고 부른다)’이라는 추정방법을 소개하고자 한다. QR은 여타의 복잡한 추정기법과 달리 목적함수(Objective function)의 의미만 파악한다면 직관적으로 이해하기 쉬우면서도 활용도가 높은 테크닉이라는 점에서 기업 실무에서 유용하게 쓰일 수 있을 것이라고 생각한다.



일반 회귀분석 vs. 분위 회귀분석

QR은 기본적 구조 측면에서는 일반 회귀분석과 큰 차이가 없다. ‘Quantile’이라는 개념이 낯선 독자들도 있을 텐데 이는 결코 어려운 개념이 아니며 매우 쉽게 표현하자면 ‘등수대로 줄을 세워 구간별로 자르다’라는 개념이다. 우리가 흔히 ‘퍼센트(Percentage, %)’라고 부르는 백분위가 바로 Quantile의 대표적인 예다. 보험회사 A 케이스의 경우 의료비 지출 수준이 가장 높은 고객을 1등으로 삼아 그 뒤로 의료비 지출수준이 가장 낮은 고객까지 일렬로 줄을 세우고, 이 줄을 N등분(1/N)했다고 생각하면 직관적 이해가 가능할 것이다.

그렇다면 QR은 통상적인 일반 회귀분석과 어떤 측면에서 다른 것일까. 소위 ‘계량적인 센스’가 있는 독자라면 ‘N등분’이라는 표현에서 이미 감을 잡았으리라 본다. QR은 위와 같이 종속변수를 기준으로 분석대상을 줄 세우고 이를 N등분 했을 때, 나뉜 각각의 구간에서 독립변수들이 지니는 효과의 크기가 모두 다를 수 있음을 상정한다는 측면에서 일반적인 회귀분석과 두드러진 차이점을 지닌다. 다시 보험회사 A의 케이스를 예로 들어 생각하자면 QR은 전체 고객을 의료비 지출수준이 높은 고객군과 중간 수준의 고객군, 낮은 수준의 고객군 등으로 세분화해 각각의 고객군에서 경쟁사를 통한 추가적인 보험가입 여부, 확진된 만성질환의 수, 나이와 나이의 제곱, 성별, 소득이 의료비 지출수준에 미치는 영향을 개별적으로 (즉, 구간별로) 추정해내는 방법인 것이다. 물론 고객을 몇 개의 구간으로 세분화할지는 분석자가 상황에 맞게 임의대로 설정할 수 있다. 독자들의 쉬운 이해를 위해 이를 그림으로 표현해 봤다. (그림 1)

<그림 1>에서 파란색으로 표시된 선이 바로 보험회사 A의 고객들을 의료비 지출수준 기준으로 1등(우측 위쪽의 그래프 종료점)부터 마지막 등수(좌측 아래쪽의 그래프 시작점)까지 줄을 세운 것이다. 그리고 필자는 이를 총 다섯 개의 구간으로 구분해봤다. 즉, A 보험회사의 고객을 총 5등분 한 것이다. 위의 그래프에서 볼 수 있듯이 보험회사 A의 고객들은 의료비 지출수준 측면에서 매우 이질적(Heterogeneous)이다. 이런 경우 정교한 분석을 위해서 일반 회귀분석이 아닌 QR을 사용하는 것이 훨씬 효과적이라 할 수 있다.

130



이질성에 대한 접근:
“그들은 모두 체계적으로 다르다(They are all systematically different)”


쉬운 이해를 위해 다음의 예를 생각해보자. (많은 사람들이 우려하는 바와 같이) 사교육이 학업성적에 통계적으로 유의미한 긍정적 영향(Statistically significant positive effect)을 미친다는 사실은 이미 여러 연구를 통해 입증됐다. 하지만 사교육이 전교 1등과 전교 꼴찌에게 미치는 영향의 정도(‘사교육’이라는 독립변수가 지니는 효과의 크기 ß)가 과연 같을까. 일반적인 회귀분석은 ‘모두에게 같은 정도의 영향’을 상정하는 반면, QR은 ‘등수별(수준별)로 다른 정도의 영향’을 상정한다. 사교육이 전교 1등과 꼴찌에게 동일한 정도의 영향을 끼칠 리는 만무하지 않은가. 또 다른 예를 들어보자. 국내 유명 백화점 브랜드 B는 자사 고객을 대상으로 세일 기간 중의 할인율 상승이 구매금액에 미치는 영향을 분석하고 있다. 할인율 상승이 연간 1억 원 이상을 지출하는 VIP와 연간 100만 원 정도를 지출하는 일반 고객에게 미치는 영향의 크기가 같을 것이라 생각하는 독자는 없으리라 본다. 이 경우에도 마찬가지로 일반 회귀분석은 ‘모든 고객에 대한 같은 정도의 영향’을 상정하는 반면 QR은 ‘지출금액 수준별로 다른 정도의 영향’을 상정한다. 이러한 측면에서 QR은 통상의 회귀분석보다 훨씬 정교한 계량과학적 분석기법이라고 할 수 있겠다.3  분석의 대상이 되는 그들은 모두 체계적으로 다르기 때문이다(“They are all systematically different”).

이 시점에서 날카로운 독자라면 필연적으로 가지게 될 의문이 한 가지 있다. ‘QR이 일반적인 회귀분석보다 훨씬 정교한 분석기법이라는데 왜 그동안 기업실무에서 활용되지 못했을까’라는 의문이 바로 그것이다. 그 주된 이유는 바로 요구되는 데이터의 크기에 있다. QR은 일반적인 회귀분석보다 큰 규모의 데이터를 요구하기 때문이다. 즉, 보험회사 A가 QR을 활용하기 위해서는 그동안 일반 회귀분석을 위해 통상적으로 요구됐던 것 이상으로 상당한 수준의 고객 데이터가 확보돼야 한다. 하지만 데이터의 시대를 살아가고 있는 우리에게 다행히도 데이터의 크기는 더 이상 큰 이슈가 되지 않는다. 다시 말해 ‘구슬의 개수’는 이미 충분하다. 또한, QR의 경우 상술한 예에서 말했던 ß1∼ß6(영향 및 효과의 크기)를 도출하기 위한 계산과정(Computation process) 역시 일반 회귀분석에 비해 매우 복잡하다. 하지만 Stata, R 등 상용되고 있는 많은 통계 프로그램 패키지는 부트스트래핑(Bootstrapping)4 을 비롯해 QR을 위한 일련의 계산 기능을 포괄적으로 제공한다. 즉, 데이터의 규모와 계산의 복잡성 문제가 해결된 오늘날은 바야흐로 QR이 그 유용성을 인정받고 기업의 의사결정 과정에서 진가를 발휘해야 하는 시기인 것이다.

실질적인 데이터 분석사례를 통해서 QR의 유용성을 음미해보자. 보험회사 A는 고객들의 의료비 지출수준에 영향을 미치는 요인들에 대해 살펴보고자 위에서 이미 언급한 바와 같은 계량 모델링을 실시했으나 보다 정교한 분석을 위해 이번에는 일반 회귀분석 대신 QR을 적용했다.



의료비 지출수준θ=ß0(θ)+ß1(θ)추가적 보험 가입 여부+ß2(θ)확진된 만성질환의 수+ß3(θ)나이+ß4(θ)나이2+ß5(θ)성별+ß6(θ)소득+ε



위의 식에서 볼 수 있듯이 QR을 적용할 경우 일반적인 회귀방정식에서는 없었던 θ[theta]가 아래 첨자로 추가되는데 이는 앞서 말한 바와 같이 각각의 수준(θ), 즉 개별 구간에서 모든 ß0∼ß6가 따로 계산되기 때문이다. 통계 프로그램 패키지를 통해 결과 값을 계산했고5  설명을 위해 모델에 포함된 여섯 가지 독립변수 중 ‘확진된 만성질환의 수’에 대한 결과 값을 소개하고자 한다. <그림 2>는 확진된 만성질환의 수가 의료비 지출에 미치는 영향의 크기(Size of effects)를 각 구간별(θ)로 나타낸 것이다. 확진된 만성질환의 수가 의료비 지출에 미치는 영향의 크기는 보험회사 A의 고객이 의료비 지출수준 측면에서 어느 구간에 속하는지에 따라서 크게 달라짐을 알 수 있다. (가장 낮은 수준의 구간에서는 .6을 넘어섰던 ß2의 값이 점차 감소해 가장 높은 수준의 구간에서는 .3 정도로 줄어든 것이 확인된다.) 그림에서 굵은 점선으로 표시된 값은 QR이 아닌 일반 회귀분석을 통해 계산된 결과 값이며 6  가는 점선은 이를 중심으로 한 95% 신뢰구간(Confidence interval)을 표현한 것이며, 회색 음영으로 표시된 부분은 QR을 통해 계산된 각각의 수준별θ) 95% 신뢰구간이다. 이 그래프가 우리에게 말해주는 바는 무엇인가. 바로 일반 회귀분석을 통해 계산된 결과 값을 기반으로 의사결정을 내릴 경우 일부 구간에서는 상당한 오차가 생길 수 있다는 것이다. 단적인 예로, 제시된 그림에서 0.9∼1.0 Quantile을 보면 일반 회귀분석을 통해 계산된 신뢰구간과 QR을 통해 계산된 신뢰구간이 전혀 다른 것을 관찰할 수 있다.

131


“넘쳐나는 데이터도 꿰어야 보배”

지금까지 QR의 기본적인 개념 및 일반 회귀분석과의 차이점, 유용성 등에 대해서 알아봤다. 물론 보다 깊은 이해를 위해서는 수학적인 설명이 수반돼야겠지만 이 글을 읽는 주된 독자층의 유형을 고려해 이는 과감히 생략했다.7   데이터 기반의 의사결정은 이제 기업들이 결코 피해갈 수 없는 핵심 트렌드(Disruptive trend) 중 하나다. 그리고 데이터 분석을 위한 기본 중의 기본이 바로 회귀분석이다. 그러나 일반 회귀분석의 가장 큰 단점 중 하나로 지적돼 왔던 것이 바로 ‘특정 독립변수의 영향이 모든 구간에서 동일함을 상정한다는 것’이었다. 하지만 데이터 축적량의 증가와 계량과학적 이론의 발전, 그리고 계산 기술의 발달로 인해 오늘날에는 QR을 쉽게 활용할 수 있게 됨으로써 기업들은 보다 정교한 데이터 분석을 통해 각각의 구간별로 최적화된 의사결정을 내릴 수 있게 됐다.

필자는 얼마 전 국내 대기업의 유럽지역본부에서 마케팅 전략을 담당하는 실무진으로부터 간단한 자문을 의뢰받아 대화를 나눌 일이 있었는데 굴지의 대기업에서 수년간 마케팅 데이터 분석을 담당해 왔음에도 QR과 같은 발전된 계량분석 기법이 존재한다는 사실 자체를 모르고 있었다는 사실에 적잖은 안타까움을 느껴 QR을 주제로 한 기고를 결정하게 됐다. 계량분석에 익숙지 않은 독자들에게는 다소 어려운 글이었으리라 생각된다. 하지만 상세한 내용은 차치하고서라도 아래와 같은 경우에는 일반 회귀분석이 아닌 QR을 사용해 데이터를 분석하는 것이 바람직하다는 점 정도만이라도 확실하게 기억해 주기를 당부하는 바이다.

첫째, 데이터의 크기(The number of observations)가 충분히 큰 경우,

둘째, 종속변수의 기술통계량(Descriptive statistics)을 살펴봤을 때 분포에 상당한 이질성이 관찰된 경우,

셋째, 독립변수(x)가 종속변수(y)에 미치는 효과를 구간별로 상세히 알아내야 할 필요가 있을 경우

최근 필자는 유럽에서 큰 이슈가 되고 있는 난민문제와 관련해 2000년대 초반 미국의 데이터를 분석할 일이 있었다. 처음 계량모델링을 실시했을 때에는 데이터의 수가 충분하지 않아 일반 회귀분석을 사용했고, 그 결과 난민의 초기 정착에 있어서 출신지 효과(Country-of-origin effect)가 없다는 결론을 내렸다. 하지만 이후 추가로 데이터를 더 얻게 돼 QR을 이용해 분석을 시도해봤더니 중·상위 소득 구간에 속하는 난민의 경우 초기 정착에 매우 강한 출신지 효과가 존재함을 알게 됐다. 데이터를 추가로 얻게 된 덕도 있었지만 데이터를 추가로 획득했더라도 QR이 아닌 일반 회귀분석을 사용했더라면 사실과 다른 정반대의 결론에 대한 그릇된 확신만을 갖게 됐을 것이다. ‘구슬이 서 말이라도 꿰어야 보배’라는 선조들의 말씀을 되새기게 되는 순간이었다. 기업들 역시 마찬가지다. 많은 기업들이 데이터의 중요성은 이미 충분히 인식하고 있다. 따라서 데이터 축적 및 획득에 방대한 비용을 지출하고 있는 것이 사실이다. 하지만 그런 ‘서 말의 구슬’을 잘 꿰기 위한 역량은 과연 얼마나 갖추고 있는지에 대해서는 조심스러운 자문(自問)이 필요한 때이다. 소중히 모은 구슬들을 잘 꿰어보자. 불확실성의 시대를 살아가는 우리에게 분명 훌륭한 무기가 돼줄 것이다. 

132



신선호 프랑크푸르트대 경영학 석사 seonho.shin@rolandberger.com

필자는 서울예술고등학교를 차석으로 졸업(피아노 전공)하고 한국고등교육재단의 대학특별장학생으로 서울대를 우등 졸업(경제학 전공)했다. 독일 함부르크의 에어버스(Airbus)와 모니터그룹을 거쳐 독일 뮌헨에 본사를 둔 유럽 최대의 전략 컨설팅 업체인 롤랜드버거에 재직 중이며 현재 독일 연방정부의 국비 장학생으로 프랑크푸르트대에서 강의와 연구를 병행하고 있다. 세부 전공 분야는 계량분석(Quantitative analysis)으로 그동안 정책 효과 분석, 수요 예측, 시장 세분화 등 퀀트 기반의 다양한 프로젝트를 수행해왔다.


동아비즈니스리뷰 319호 New Wave of Logistics 2021년 04월 Issue 2 목차보기