Article at a Glance경영학 전공자라면 회귀분석(Regression analysis)에 대해 공부한 적이 있을 것이다. 그러나 실무에서는 지금까지 선형 회귀분석(Linear regression) 방법이 주로 활용됐고 이보다 훨씬 정교한 분석기법인 분위 회귀분석(Quantile regression)은 잘 활용되지 못했다. 이유는 분위 회귀분석을 활용할 수 있을 만큼의 충분한 데이터가 확보되지 못했기 때문. 그러나 ICT 기술의 발달로 확보할 수 있는 데이터의 절대 양이 크게 늘어나면서 최근 실무에서도 분위 회귀분석을 활용할 수 있는 분야들이 많아지고 있다.
바야흐로 ‘데이터의 시대’다. 과학과 기술의 발전이 인류의 프로메테우스가 돼 오늘날의 우리에게 쥐어준 또 하나의 ‘프로메테우스의 불(Prometheus′ fire)’, 그것이 바로 데이터다. 하지만 데이터의 축적 및 획득과 이를 제대로 활용하는 것은 엄연히 별개의 문제다. 과학과 기술의 발전이 전자를 용이하게 해 준 것은 분명한 사실이지만 ‘구슬이 서 말이라도 꿰어야 보배’라고 넘쳐나는 데이터를 제대로 분석해 불확실성의 시대를 헤쳐 나가기 위한 의사결정의 도구로 삼기 위해서는 흔히 ‘데이터 독해력(Data literacy)’이라고 불리는 이용 주체의 데이터 해석 역량이 필수다.
기업에서 전략 및 마케팅 관련 업무를 담당해 왔거나 학부에서 경영학 혹은 경제학을 전공한 독자들의 경우 이미 회귀분석(Regression analysis)에 대해서 공부한 경험이 있으리라 생각된다. 회귀분석이란 쉽게 말해 y로 표현되는 종속변수(영향을 받는 변수)와 x로 표현되는 독립변수(영향을 주는 변수) 사이의 관계를 통계적 기법으로 추정하는 것인데 이는 보다 근본적으로 우리가 잘 알고 있는 상관(Correlation)이라는 개념에 기반을 두고 있다. 간단한 예를 통해 이를 다시금 상기시켜보자.
데이터 분석의 기본기, 회귀분석세계적인 보험회사 A는 최근 수익성이 크게 악화돼 이를 개선하고자 외부 컨설팅 업체에 자문을 의뢰했다. 그 결과, ‘전반적인 가격정책의 재수립이 불가피하다’는 제안을 받았다. 가격정책의 재수립을 위해서는 우선 고객의 의료비 지출 수준을 분석하고 이를 기반으로 합리적 예측(Prediction)을 하는 작업이 필요하다. 이를 위해 보험회사 A는 자사 내에 축적된 방대한 데이터를 이용해 고객들의 의료비 지출 수준에 영향을 미치는 요소들에 대해 살펴보고자 아래와 같이 계량 모델링을 실시했다. 물론 실무에서는 이보다 훨씬 복잡한 모델을 다루는 경우가 일반적이다.
의료비지출수준=ß0+ß1추가적 보험 가입 여부+ß2확진된 만성질환의 수+ß3나이+ß4나이2+ß5성별+ß6소득+ε모델링을 통해 알아보고자 하는 종속변수는 고객들의 의료비 지출수준(y)이며 경쟁사를 통한 추가적인 보험가입 여부, 확진된 만성질환의 수, 나이와 나이의 제곱, 성별, 그리고 소득이 의료비 지출수준에 영향을 미칠 것으로 생각됐기에 독립변수(x)로서 포함됐다.
1
이때 각 독립변수들의 계수(Coefficient)인 ß1∼ß6가 바로 분석을 실시하는 보험회사 A의 주된 관심 사항인데, 이 계수의 의미는 각각의 독립변수들이 의료비 지출 수준에 미치는 ‘효과(혹은 영향)의 크기(Size of effects)’라고 생각하면 쉽고 정확하게 이해할 수 있다.
2
또한 위와 같은 모델은 기본적으로 선형적 관계(Linear in coefficients)를 상정하고 있기 때문에 통상적으로 선형 회귀분석(Linear regression)이라고 불리며 한 개 이상의 독립변수를 고려하고 있다는 점에서 다중 회귀분석(Multiple regression)의 한 예라고 할 수 있겠다.
‘데이터라는 구슬을 꿰는 방법’을 다루는 계량과학적 의사결정 방법론의 중요성이 여느 때보다 커진 오늘날 회귀분석은 데이터 기반 사고(Data-based thinking)를 위한 ‘기본기’로서 중요한 의미를 지닌다. 그래서 경영학, 경제학 전공의 대학원 과정은 물론 사회과학 전반의 석·박사 과정까지도 첫 학기에 회귀분석 강의를 필수과목으로 지정하는 것이 최근의 통상적인 모습이다. 특히 필자가 공부하고 있는 이곳 독일은 경제학과 경영학 사이에 뚜렷한 경계를 두지 않을 뿐 아니라 응용학문 전반에서 수학, 철학, 논리학 등 순수학문의 중요성을 크게 강조하는 보수적 학풍을 타협 불가능한 오랜 자랑으로 삼고 있기에 매해 대학원 여름학기의 회귀분석 강의는 다양한 전공의 학생들로 초만원을 이룬다. 또한 최근에는 계량과학적 방법론의 비약적 발전에 힘입어 다양한 유형의 변수와 데이터 유형을 다루는 고급 계량분석 강의도 다수 개설되고 있다. 필자는 본고를 통해 지난 학기 고급 미시계량분석 강의에서 다뤘던, 그동안 기업 실무에서는 거의 사용되지 않았던 ‘분위 회귀분석(Quantile regression, 통상 QR이라고 부른다)’이라는 추정방법을 소개하고자 한다. QR은 여타의 복잡한 추정기법과 달리 목적함수(Objective function)의 의미만 파악한다면 직관적으로 이해하기 쉬우면서도 활용도가 높은 테크닉이라는 점에서 기업 실무에서 유용하게 쓰일 수 있을 것이라고 생각한다.
일반 회귀분석 vs. 분위 회귀분석QR은 기본적 구조 측면에서는 일반 회귀분석과 큰 차이가 없다. ‘Quantile’이라는 개념이 낯선 독자들도 있을 텐데 이는 결코 어려운 개념이 아니며 매우 쉽게 표현하자면 ‘등수대로 줄을 세워 구간별로 자르다’라는 개념이다. 우리가 흔히 ‘퍼센트(Percentage, %)’라고 부르는 백분위가 바로 Quantile의 대표적인 예다. 보험회사 A 케이스의 경우 의료비 지출 수준이 가장 높은 고객을 1등으로 삼아 그 뒤로 의료비 지출수준이 가장 낮은 고객까지 일렬로 줄을 세우고, 이 줄을 N등분(1/N)했다고 생각하면 직관적 이해가 가능할 것이다.
그렇다면 QR은 통상적인 일반 회귀분석과 어떤 측면에서 다른 것일까. 소위 ‘계량적인 센스’가 있는 독자라면 ‘N등분’이라는 표현에서 이미 감을 잡았으리라 본다.
QR은 위와 같이 종속변수를 기준으로 분석대상을 줄 세우고 이를 N등분 했을 때, 나뉜 각각의 구간에서 독립변수들이 지니는 효과의 크기가 모두 다를 수 있음을 상정한다는 측면에서 일반적인 회귀분석과 두드러진 차이점을 지닌다. 다시 보험회사 A의 케이스를 예로 들어 생각하자면 QR은 전체 고객을 의료비 지출수준이 높은 고객군과 중간 수준의 고객군, 낮은 수준의 고객군 등으로 세분화해 각각의 고객군에서 경쟁사를 통한 추가적인 보험가입 여부, 확진된 만성질환의 수, 나이와 나이의 제곱, 성별, 소득이 의료비 지출수준에 미치는 영향을 개별적으로 (즉, 구간별로) 추정해내는 방법인 것이다. 물론 고객을 몇 개의 구간으로 세분화할지는 분석자가 상황에 맞게 임의대로 설정할 수 있다. 독자들의 쉬운 이해를 위해 이를 그림으로 표현해 봤다. (그림 1)
<그림 1>에서 파란색으로 표시된 선이 바로 보험회사 A의 고객들을 의료비 지출수준 기준으로 1등(우측 위쪽의 그래프 종료점)부터 마지막 등수(좌측 아래쪽의 그래프 시작점)까지 줄을 세운 것이다. 그리고 필자는 이를 총 다섯 개의 구간으로 구분해봤다. 즉, A 보험회사의 고객을 총 5등분 한 것이다. 위의 그래프에서 볼 수 있듯이 보험회사 A의 고객들은 의료비 지출수준 측면에서 매우 이질적(Heterogeneous)이다. 이런 경우 정교한 분석을 위해서 일반 회귀분석이 아닌 QR을 사용하는 것이 훨씬 효과적이라 할 수 있다.