Top
검색버튼 메뉴버튼

계량분석 A to Z

데이터의 이상치, 객관적으로 솎아내려면

신선호 | 261호 (2018년 11월 Issue 2)
Article at a Glance
계량분석에서 ‘이상치(Outlier)’는 통계 분석 결과에 영향을 미쳐 연구의 목적을 훼손시킬 수 있기 때문에 걸러낼 필요가 있다. 이때 분석의 대상이 되는 변수가 단 하나일 경우 ‘표준화 점수(Standardized score)’라는 개념을 활용해 간단하게 이상치를 걸러낼 수 있다. 하지만 변수가 여러 개라면 이야기가 달라진다. 이때는 ‘마할라노비스 거리(Mahalanobis distance)’가 해결책이 될 수 있다.

필자가 거주하고 있는 독일은 ‘다양성(Die Mannigfaltigkeit)’을 사회가 추구해야 할 가장 중요한 가치 중 하나로 여기는 나라다. 그래서인지 필자가 독일인들과 대화할 때 그들이 유독 자주 쓴다고 생각하게 되는 표현이 바로 ‘그럴 수도 있지(Es könnte sein)’라는 말이다. 다양성을 포용하려 노력해 온 일련의 과정이 결코 녹록지는 않았으리라 생각된다. 그리고 그러한 과정에서 자연스레 수반됐을 사회적 마찰을 마주하고 해결하며 치열하게 쌓아온 교훈이 법체계에 고스란히 녹아들어 많은 법학자가 그토록 감탄하는 현재의 독일연방기본법(Grundgesetz für die Bundesrepublik Deutschland)을 이루게 됐을 것이라고 짐작할 수 있다.

이와 같이 다양성을 강조하는 독일 사회지만 때때로 다양성이 문제가 되는 경우도 있는데 가장 흔한 사례는 누군가 다양성을 구실로 규칙을 어겼을 때다. 독일은 다양성에 대한 관대함뿐 아니라 법과 규칙에 대한 엄격함으로도 타의 추종을 불허하는 나라다.

계량분석을 담당하는 필자는 다양성이 문제가 되는 또 다른 경우를 자주 접하는데 그것은 바로 분석의 대상이 되는 데이터에서 이상치(혹은 극단치, Outlier)를 발견했을 때다. 통계학에서는 이상치를 ‘변수의 분포상 비정상적으로 극단적인 값을 가져 일반적으로 생각할 수 있는 범위를 벗어난 관측치’라고 규정한다. 그야말로 지나치게 다양해서 문제가 되는 값들인 것이다. 이러한 이상치들은 통계적 자료 분석의 결과를 왜곡시킬 수 있다는 점에서 특별한 주의를 필요로 한다. 데이터 애널리스트는 ‘그럴 수도 있지(Es könnte sein)’라는 말을 함부로 해서는 안 된다.

독자들의 이해를 위해 매우 간단한, 따라서 다소 극단적인 예를 들어보려 한다. 근무시간과 근로소득의 상관관계를 알아보고자 표본을 추출(Sampling)했는데 빌 게이츠 혹은 워런 버핏과 같은 ‘특이한’ 표본들이 섞여 있다고 생각해보라. 두 변수 사이의 보편적인 상관관계를 따져보고자 했던 연구의 목적이 훼손될 수 있을 것이다. 물론 표본의 구성 측면에서 특이하지 않은 관측들이 압도적인 다수를 차지하고(가령, 9998명), 특이한 그들은 단 두 명에 불과하다면 이상치에 의한 영향이 크지 않으리라 생각할 수도 있다. 하지만 많은 계량분석 기법의 토대가 되는 선형 회귀분석(Linear regression)은 결국 모든 표본에 가장 근접하게 가까운 기댓값(Expectation) 1 을 찾아내는 작업이기 때문에 이상치의 영향에 민감하다는 사실을 분명히 인지하고 있어야 한다. 아주 단순하게 생각하자면 우리 회사의 평균, 우리 부서의 평균 등을 구하는 과정을 예시로 삼아 생각해도 된다.

문제는 이상치에 대한 통계학의 위와 같은 정의가 너무 모호하다는 것이다. ‘비정상적으로 극단적인 값을 가져 일반적으로 생각할 수 있는 범위를 벗어난 관측치’라면 도대체 어느 정도로 특이해야 한다는 것일까. 마치 독일 법이 다양성을 최대로 존중하면서도 사회의 질서를 찾기 위한 공정한 잣대의 역할을 하듯이 계량분석에도 독일법과 같이 판단의 기준을 제시하는 과학적인 기법들이 존재한다. 훌륭한 선배 계량분석가들이 비정상적이고 일반적이지 않음을 규정하기 위해 보편적으로 사용 가능한 수학적 잣대를 이미 만들어놓았기 때문이다. 다양한 기법이 존재하고 있지만 필자는 이 글을 통해 기업 실무에서 가장 쉽고 유용하게 활용할 수 있는 기법을 소개하려 한다.

분석의 대상이 되는 변수(Variable)가 단 하나(단일 변량, Univariate)인 경우 이상치 문제는 아주 쉽게 해결된다. 2 관측치들을 크기 순서대로 일렬로 줄 세운 후 양쪽 끝에서 눈에 띄게 크거나 작은 값들을 솎아내면 되기 때문이다. 이 경우 ‘눈에 띄게 크거나 작음’의 기준이 되는 것으로 표준화 점수(Standardized score)라는 개념이 있다. ‘표준화’라는 이름을 붙인 이유는 이를 통해 변수들의 측정 단위(Measurement unit)와 분포 형태가 서로 다른 경우에도 각 변수 내에서의 상대적인 위치가 쉽게 비교 가능하기 때문이다. 대표적인 예시로 대학수학능력시험의 성적표에 기재되는 표준점수를 생각하면 된다. 표준화 점수는 아래와 같이 아주 간단하게 계산된다. 3

115-1


이와 같이 계산된 표준화 점수가 ±3.29를 넘어서는 관측치들은 통상적으로 이상치로 간주된다. 4 +3.29를 초과하는 경우는 관측치의 값이 평균에 비해서 지나치게 큰 경우이고 -3.29에 미달하는 경우는 관측치의 값이 평균에 비해서 지나치게 작은 경우다. [그림 1]은 한 패션 브랜드의 가을 신상품 J 구매자를 추적해 무작위(random) 추출한 후 그들의 신장을 조사한 것이다. 17번 소비자의 표준화 점수가 3.43으로 관측돼 이상치로 처리된 것을 볼 수 있다. 단, 이상치를 제거했을 경우 데이터 애널리스트는 반드시 보고서 등 최종 결과물에 이를 명시해줘야 한다. 어떤 기준에 의해서 이상치를 규정했고, 총 몇 개의 이상치를 발견해서, 어떻게 처리했는지를 모두 최대한 구체적으로 명시해야 한다. 또한 보고서를 받아보는 입장에서도 이상치를 어떻게 처리했는지에 대해서 항상 날카롭게 질문하고 면밀하게 검토해야 할 필요가 있다.



보다 복잡한 문제는 우리가 기업 실무에서 실시하는 계량분석이 여러 개의 변수(Multivariate)를 지닌 경우가 대부분이라는 점에서 비롯된다. 특정 제품 혹은 브랜드에 대한 통상적인 마케팅 설문조사(Survey)를 구성하는 항목이 최소 수십 가지는 된다는 점을 생각하면 수많은 변수의 이상치를 동시에, 적절하게, 객관적으로 솎아내는 일은 결코 쉬운 것이 아니다. 하지만 방법은 있다. 우리가 수학시간에 배웠던 ‘거리(Distance)’의 개념을 차용하면 의외로 쉽게 문제를 해결할 수 있기 때문이다. 독자들의 쉬운 이해를 위해 일단 변수가 두 개인 경우를 통해서 논의를 진전시켜 보자.

116-1


[그림 2]는 광고 노출 횟수(X)와 소비자의 지불 의향(Y, Willingness to pay)에 관한 데이터를 2차원의 그래프로 나타낸 것이다. 각각의 +는 조사의 대상이 된 개별 소비자를 의미한다. 왼쪽의 그래프는 이상치를 아직 배제하지 않은 상황인데 이때 붉은색으로 표시된 점 A는 전반적인 평균을, 점 B는 이상치 중 하나를 의미한다.

점 B가 전반적인 평균을 나타내는 점 A로부터 지나치게 멀고, 따라서 이상치로 분류돼야 한다는 것을 보이기 위해 우리는 두 점 사이의 거리를 계산하면 된다. 이때 통상적으로 유클리디안 거리(Euclidean distance)라는 개념을 사용하는데 이는 마치 자로 잰 물리적인 거리와 매우 흡사한 개념이다. 학창 시절에 배웠던 ‘피타고라스의 정리’가 떠오른다면 수학적인 감각이 아직 살아 있는 것이다. [그림 2]의 왼쪽 그래프에서 어두운 점선으로 표시된 직각 삼각형을 그려봄으로써 두 점 A와 B 사이의 거리를 간단히 구할 수 있다. 한편, 광고 노출 횟수(X)와 소비자의 지불 의향(Y) 사이의 관계를 나타내는 직선이 왼쪽과 오른쪽에 각각 표시돼 있는데 이상치를 제거하지 않고 분석을 했을 경우의 직선(왼쪽 그래프의 가파른 녹색 점선)과 이상치를 제거하고 분석을 했을 경우의 직선(오른쪽 그래프의 완만한 파란색 점선)이 매우 다른 기울기를 보이는 것이 쉽게 관찰된다. 이상치가 분석 결과에 미치는 영향이 매우 클 수 있음을 보여주는 단적인 사례라고 할 수 있겠다.

하지만 유클리디안 거리는 다음과 같은 한계점을 지니기 때문에 기업 실무에서 통상적으로 사용되지 않는다. 첫째, 유클리디안 거리는 그야말로 ‘단순한 물리적 거리’를 의미하기 때문에 변수의 측정 단위에 매우 민감하게 반응한다. 즉, 관찰된 값 자체에는 아무런 변화가 없더라도 단위를 (즉, X축의 폭을) 조정하는 경우 거리가 크게 늘어나거나 줄어들 수 있다는 얘기다. 둘째, 유클리디안 거리는 변수들 간의 관계 및 확률분포를 고려하지 않는다. 우리가 이상치를 솎아내고자 하는 이유는 이상치로 인해서 변수들 사이의 보편적인 관계가 왜곡될 수 있기 때문이다. 그리고 우리가 계량분석을 통해서 알아내고자 하는 것은 변수들 그 자체가 아니라 변수들 사이의 관계다. [그림 2]에서의 기울기가 우리의 관심 대상인 것을 생각하면 쉽게 이해가 될 것이다. 그렇다면 우리는 이상치를 골라낼 때 단순히 물리적인 거리가 아닌 변수들 간의 관계 및 확률분포를 그 기준으로 고려해야 한다는 얘기다. 매우 어렵고 생소하게 느껴질 수 있는 내용이므로 [그림 3]을 통해서 독자들의 쉬운 이해를 돕고자 한다.

117-1


[그림 3]은 국내 대기업 H의 한 부서 구성원들을 대상으로 신장(X)과 체중(Y)의 관계를 조사한 것이다. 당연히 두 변수는 양의 상관관계(Positive correlation)를 지니는 것으로 관찰됐고 붉은색의 회귀직선(Regression line)이 두 변수 간의 관계를 잘 보여주고 있다. 그래프 중앙의 M이 두 변수의 전반적인 평균치를 의미하는 지점이라고 했을 때, 왼쪽 그래프의 점 C와 오른쪽 그래프의 점 D 중 어떤 것이 M으로부터 더 멀다고 생각되는가. 이 질문에 대해 적절한 대답을 하는 과정이 곧 이상치를 객관적으로 찾아내는 작업이다.

위에서 설명한 유클리디안 거리, 즉 물리적인 거리만을 감안한다면 점 C가 M으로부터 더 멀리 떨어져 있는 것으로 보인다. 하지만 앞서 말했듯이 이는 단순히 물리적인 거리일 뿐 두 변수 간의 관계 및 확률적인 분포를 전혀 감안하지 않은 것이다. 이번에는 두 변수 간의 관계를 나타내는 붉은색의 회귀직선을 감안한 후 이에 견주어 특이한 관측치를 찾아보자. 그래프에 나타난 패턴을 고려했을 때 점 C는 충분히 ‘그럴 수도 있는’ 관측치이지만 점 D는 확률적으로 ‘그렇게 되기는 매우 힘든’ 관측치다. 따라서 점 D를 이상치로 걸러내는 것이 훨씬 적절한 판단이다. 다시 말해, 물리적인 거리는 C가 더 멀지만 확률적인 거리는 D가 훨씬 멀다고 볼 수 있다.

점 D와 같이 물리적인 거리가 아닌 확률적인 거리를 감안해 분석에 포함하기에는 ‘너무나 특이하고 다양한 그들’을 객관적으로 솎아내려면 어떤 방법을 써야 할까. 이를 위해서 인도의 유명한 수학자 마할라노비스(Prasanta Chandra Mahalanobis)가 고안한 마할라노비스 거리(Mahalanobis distance)를 사용하면 문제는 쉽게 해결된다. (19단 곱셈법을 자연스레 외우는 인도 초등학생들을 보며 경악을 금치 못했던 필자의 옛 경험이 떠오른다. 인도는 수많은 위대한 수학자들을 배출했고 필자가 근무하고 있는 유럽에서도 인도 출신 계량분석가들이 크게 활약하고 있다.) 마할라노비스 거리는 유클리디안 거리에 공분산 행렬(Covariance matrix)의 역행렬(Inverse matrix)을 곱해 구할 수 있는데, 이 글을 읽는 독자층의 주된 유형을 감안해 수학적인 설명은 과감하게 생략하고 [그림 4]와 설명을 통해 근본 개념에 대한 직관적인 이해를 돕고자 한다. 확률공간에서 마할라노비스 거리는 마치 우리가 중·고등학교 지리 시간에 배웠던 등고선(等高線)과도 같은 역할을 한다고 생각하면 이해에 큰 도움이 된다. [그림 4]를 살펴보자.

118-1


[그림 4]에서 마치 등고선과 같은 형태로 표현된 타원형의 선들은 신장 X와 체중 Y의 관계를 고려했을 때 확률분포가 같은 지점을 서로 연결한 것이다. 등고선이 해발고도가 같은 지점을 연결한 곡선이라면 [그림 4]에서의 선은 확률분포, 즉 데이터 분포상 ‘그럴듯함의 정도’가 같은 지점을 연결한 곡선이라고 보면 된다. M이 확률분포상 ‘꼭대기’와 같은 지점인데 이 지점에 모집단(Population)의 관측치들이 몰려 있을 공산이 가장 크다. 다시 말해, 이 지점이 ‘가장 그럴듯한(Most probable)’ 지점이다. 그리고 이 지점에서 점점 멀어질수록, 즉 바깥쪽의 선들로 점차 이동할수록 확률분포가 낮아지고 따라서 점점 ‘덜 그럴듯한(Less probable)’ 관측치들이 위치하게 되는 것이라고 이해하면 되는 것이다. 이것이 바로 마할라노비스 거리가 의미하는 바다. 우리가 [그림 3]에서 이상치로 분류했던 D는 아예 타원형의 선 안에 들어가지도 못한 것을 볼 수 있다. 즉, D는 우리가 관측한 데이터들이 이루고 있는 ‘신장과 체중의 관계에 관한 산(山)’의 한 등성이로 인정받기에는 너무나 특이하며, 따라서 정확한 분석을 위해 이상치로 분류해 적절하게 배제해야 한다.

마할라노비스 거리는 변수가 몇 개든 상관없이 이상치 분류에 일반적으로 사용할 수 있다. 유용하며 객관적인 수학적 잣대다. 계산을 위해서는 우선 유클리디안 거리를 구한 후 여기에 공분산 행렬의 역행렬을 곱해야 한다는 점에서 막연히 복잡하고 어렵게 느껴질 수 있겠지만 원리만 제대로 이해하고 있다면 힘든 계산은 컴퓨터의 몫으로 넘길 수 있다. R을 비롯한 통상적인 통계 패키지들을 통해 단 몇 번의 클릭만으로 마할라노비스를 쉽게 구한 후 이상치를 골라낼 수 있다. 심지어 엑셀로도 가능하다. 그렇다면 마할라노비스 거리는 이상치 제거를 위해 어떤 경우에라도 사용할 수 있는 만능 잣대와도 같은 것일까. 계량분석의 세계에 그런 것은 없다. 마할라노비스 거리를 사용함에 있어 당연히 주의해야 할 사항이 있다는 얘기다.

119-1


마할라노비스 거리는 변수들 간의 관계와 위에서 제시한 ‘신장과 체중의 관계’ 예와 같이 변수들 간의 관계가 선형적(Linear)일 때 사용할 수 있다. 바꾸어 말하자면, 변수들 간의 관계가 비선형적(Non-linear)일 때는 마할라노비스 거리를 사용하면 안 된다는 뜻이다. 계량분석에서 ‘선형적’이라는 용어의 의미는 [그림 2], [그림 3]에서와 같이 관심의 대상이 되는 변수들 간의 관계가 곧은 선의 형태로 표현될 수 있다는 것을 말한다. 반대로 비선형적인 관계의 대표적인 형태로 [그림 5]를 들 수 있다. 예를 들어, 광고 노출횟수(X)와 브랜드 선호도(Y)의 관계를 조사해 봤더니 [그림 5]와 같은 패턴이 나타났다면 이는 적정 수준의 광고가 브랜드 선호도에 긍정적인 영향을 주지만 그래프에서 변곡점(Inflection point)으로 표시되는 적정 수준을 넘어 지나치게 많이 노출되는 경우에는 되레 브랜드 선호도를 떨어뜨릴 수 있다는 의미로 해석될 수 있다. 이와 같이 변수들이 비선형적인 관계를 보이는 경우에는 마할라노비스 거리를 통해 이상치를 제거하면 안 된다.

바야흐로 빅데이터의 시대를 마주하고 있는 오늘날 기업들에 이제 데이터의 획득 여부나 크기는 더 이상 주된 이슈가 아니다. 마치 거대한 원석(原石)과 같은 데이터를 어떻게 잘 가공하고 연마해 과학적 의사결정을 위한 소중한 도구로 사용할 것인가가 주된 이슈다. 그렇다면 어떻게 가공하는 것이 원석을 가장 잘 빛나게 할 수 있을까. 필자는 계량분석 프로젝트를 수행할 때에 항상 “데이터로 하여금 결정하도록 하라(Let the data decide)”고 조언한다. 사실 대부분의 답은 가공되지 않은 원석 그 자체로서의 데이터들이 이미 품고 있게 마련이기 때문이다. 대표적인 사례가 바로 데이터 자체에서 관찰된 확률적 거리인 마할라노비스 거리를 감안해 이상치를 골라내는 방법이다. 원리만 이해한다면 결코 어렵거나 복잡한 방법은 아니지만 이를 알고 있는 것과 모르고 있는 것의 차이는 매우 클 것이라 생각한다. 이 글을 통해 독자들이 빅데이터에서 수없이 관찰되는 ‘너무나도 특이한 그들’을 객관적으로 파악할 수 있는 방법을 익힐 수 있게 됐기를 바란다.

필자소개 신선호 롤랜드버거 시니어 컨설턴트 seonho.shin@rolandberger.com
필자는 서울예술고등학교를 졸업(피아노 전공)하고 서울대 경제학과를 졸업했으며 독일 연방정부의 국비장학생으로 독일 프랑크푸르트대 경영경제학 석사 학위를 받았다. 독일 함부르크의 에어버스와 모니터그룹을 거쳐 독일 뮌헨에 본사를 둔 유럽 최대 컨설팅 기업 롤랜드버거에서 시니어 컨설턴트로 재직 중이다. 프랑크푸르트대 계량경제학 연구실에서 강의와 연구를 병행하고 있다. 그동안 정책효과 분석, 수요 예측, 시장 세분화 등 퀀트 기반의 다양한 프로젝트를 수행해 왔다.
  • 신선호 | - 독일 전략 컨설팅 '롤랜드버거' 재직 중
    - 독일 함부르크 에어버스(Airbus), 모니터그룹

    seonho.shin@rolandberger.com
    이 필자의 다른 기사 보기
관련기사