Power of Analysis
Article at a Glance- 자기계발
‘평균’은 흔하게 사용되는 통계적 개념이라 많은 사람들에게 익숙하지만 사실 평균에는 산술평균, 중앙값, 최빈수 등 다양한 종류가 존재하기 때문에 맥락과 용도에 맞게 구별해 사용하지 않으면 큰 오해를 낳기 쉽다. 평균을 선택할 때 가장 먼저 고려해야 할 것은 데이터의 특성이다. 명명척도로 수집된 데이터인지, 서열척도로 수집된 데이터인지에 따라 적합한 평균이 달라진다. 데이터의 분포도 고려해야 한다. 종모양분포를 이룬 데이터가 아니라면 일반적으로 사용되는 산술평균이 적합하지 않을 수 있다. 마지막으로 평균을 사용하는 목적을 생각해야 한다. 선택한 평균에서 유도되는 결론이 무엇인지, 그 결론이 데이터를 곡해하지는 않는지를 주의 깊게 살펴야 한다. |
평균은 통계 용어 중에 현실에서 가장 많이 쓰이기 때문에 아마 대부분의 사람에게 익숙한 개념일 것이다. 평균이 사용된 최근 기사를 살펴보자. 2014년도 연말정산이 세금폭탄이라는 강한 반발을 일으키자 정부는 서둘러 소급입법으로 환불해주기로 하며 여론 진압에 나섰지만 구체적인 안이 확정되지 않아 불씨가 여전히 살아 있다. 한 주간지 기사에 따르면 이 사태를 지켜본 정부의 한 관료가 “이번 사태는 평균의 함정을 설명하는 유명한 우화를 닮았다”며 “세금을 내는 사람들은 개개인인데 기재부가 ‘평균치’로 뭉뚱그려 설명한 것이 무리였다”고 말했다.1 여기서 말하는 우화는 다음과 같다. “100명의 군인들이 강을 건넌다. 군인들의 평균 키는 180㎝, 강의 평균 깊이는 150㎝다. 보고를 받은 장군은 도강을 명령했다. 강 언저리를 지나면서 물이 갑자기 깊어졌고 병사들이 한 명, 두 명 빠져죽기 시작했다. 겁이 난 병사들은 뒤를 흘깃흘깃 쳐다봤지만 장군은 ‘돌격 앞으로’만 외쳤다. 물에 빠져죽는 병사가 속출하자 장군은 당황했다. 그제야 장군은 회군을 명령했다. 하지만 이미 많은 군사를 잃은 뒤였다. 알고 보니 이 강의 최대 수심은 2m였고, 군사 중 2m가 넘는 사람은 30명이 채 안 됐다.”이번 연말정산 사태는 연봉 5500만 원 이상부터 세금이 오르는 것으로 바뀌었다는 정부의 주장과는 달리 연봉 5500만 원 이하 소득자 중에 세금을 많이 토해내는 사례가 잇따랐기 때문이다. 전문가들은 이런 원인을 평균의 함정 뒤에 숨은 개인별 편차 때문으로 지적하고 있다. 즉 부양가족 공제, 자녀 교육비·의료비 공제를 적용받지 못해 세 부담이 증가하는 부분과 소득공제를 세액공제로 바꾸면서 개인별 편차가 커진 것을 간과했다는 것이다. 이 사례에서 볼 수 있는 것같이 사람들이 익숙하다고 여기는 평균은 실제로는 다양한 의미를 내포하고 있어서 다른 보조적인 수치와 함께 해석해야만 혼돈하지 않을 수 있다. 이번 글에서는 평균이 갖는 여러 의미를 다양한 사례와 함께 살펴본다.2
평균의 종류
어느 고등학교 3학년 학생들의 영어성적을 예로 들어보자. 가장 먼저 관심을 갖는 것은 학생들의 영어성적이 어떤 점수를 중심으로 모여 있느냐는 것이다. 평균은 자료의 모여 있는 특성을 나타내는 대푯값이다. 평균 소득, 평균 기온, 평균 키, 평균 강수량, 평균 가격 등 대부분의 데이터는 우선 평균화해서 제시된다. 그래서인지 사람들은 많은 숫자를 대할 때 우선 ‘평균이 얼마냐’라고 자연스럽게 묻는다. 이처럼 사람들이 평균에 익숙하기는 하지만 문제는 평균에 여러 가지 종류가 있고 경우에 따라서는 각 종류의 평균값이 다를 수 있다는 사실을 모르는 경우가 많다는 점이다. 따라서 평균이 다를 때는 누구나 자기에게 유리한 평균값을 선택해서 얼마든지 자기주장을 그럴듯하게 왜곡시킬 수 있다. 우선 여러 가지 평균의 종류 중에서 가장 흔히 쓰이는 것을 보자.
여러 종류의 평균 중에서 우리가 주로 사용하는 것은 산술평균, 중앙값, 최빈수의 3가지다. 산술평균은 가장 많이 쓰이는 개념으로 그냥 ‘평균’이라고 불리기도 한다. 모든 자료의 값을 다 더해서 전체 수로 나눈 것이다.
예 A: 1 1 2 3 1 3 4
7개의 숫자들을 모두 더해서(15) 전체 수(7)로 나눈 (산술)평균은 2.1이며 이 값은 이 숫자들의 중심을 잘 나타내는 대푯값이라고 할 수 있다. 그러나 다음의 예에서는 (산술)평균의 의미가 약해진다.
예 B: 1 1 2 3 1 3 17
예 B에는 다른 숫자에 비해 비정상적으로 큰 숫자인 17이 포함돼 있다. (산술)평균은 4이며 이 값은 다른 숫자에 비해 상대적으로 큰 17의 영향을 받은 것이다. 이럴 때는 (산술)평균이 전체 숫자의 중심을 나타내는 대푯값으로서의 역할을 하지 못한다. 상대적으로 큰 값에 영향을 받지 않는 중심의 측정치는 다음의 두 가지 방법으로 구할 수 있다. 첫 번째 방법은 숫자들을 작은 수부터 큰 수까지 순서대로 세운 뒤 가운데 위치하는 수, 즉 중앙값(혹은 중위수, median)을 중심으로 하는 방법이다. 두 번째는 가장 빈번하게 나타나는 값, 즉 최빈수(mode)를 중심으로 보는 것이다.
중앙값은 문자 그대로 가운데에 위치한 수로서 숫자들을 크기의 순서로 배열했을 때 정 가운데 위치하는 값을 말한다. 따라서 숫자의 반은 중앙값보다 작은 값을 갖고 다른 반은 큰 값을 갖게 된다. 위의 예 A, B에서 중앙값을 사용한 평균은 모두 2이며 숫자들의 중심을 나타내는 대푯값으로 충분하다.
질문, 답변, 연관 아티클 확인까지 한번에! 경제·경영 관련 질문은 AskBiz에게 물어보세요. 오늘은 무엇을 도와드릴까요?
Click!
회원 가입만 해도, DBR 월정액 서비스 첫 달 무료!
15,000여 건의 DBR 콘텐츠를 무제한으로 이용하세요.