로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Power of Analysis

강 평균 깊이 150cm, 우리 군사들 건너라? ‘평균의 함정’에 빠지면 목숨도 위험하다

김진호 | 174호 (2015년 4월 Issue 1)

 

 

Article at a Glance- 자기계발

 

‘평균’은 흔하게 사용되는 통계적 개념이라 많은 사람들에게 익숙하지만 사실 평균에는 산술평균, 중앙값, 최빈수 등 다양한 종류가 존재하기 때문에 맥락과 용도에 맞게 구별해 사용하지 않으면 큰 오해를 낳기 쉽다. 평균을 선택할 때 가장 먼저 고려해야 할 것은 데이터의 특성이다. 명명척도로 수집된 데이터인지, 서열척도로 수집된 데이터인지에 따라 적합한 평균이 달라진다. 데이터의 분포도 고려해야 한다. 종모양분포를 이룬 데이터가 아니라면 일반적으로 사용되는 산술평균이 적합하지 않을 수 있다. 마지막으로 평균을 사용하는 목적을 생각해야 한다. 선택한 평균에서 유도되는 결론이 무엇인지, 그 결론이 데이터를 곡해하지는 않는지를 주의 깊게 살펴야 한다.

 

 

평균은 통계 용어 중에 현실에서 가장 많이 쓰이기 때문에 아마 대부분의 사람에게 익숙한 개념일 것이다. 평균이 사용된 최근 기사를 살펴보자. 2014년도 연말정산이 세금폭탄이라는 강한 반발을 일으키자 정부는 서둘러 소급입법으로 환불해주기로 하며 여론 진압에 나섰지만 구체적인 안이 확정되지 않아 불씨가 여전히 살아 있다. 한 주간지 기사에 따르면 이 사태를 지켜본 정부의 한 관료가이번 사태는 평균의 함정을 설명하는 유명한 우화를 닮았다세금을 내는 사람들은 개개인인데 기재부가평균치로 뭉뚱그려 설명한 것이 무리였다고 말했다.1 여기서 말하는 우화는 다음과 같다. “100명의 군인들이 강을 건넌다. 군인들의 평균 키는 180, 강의 평균 깊이는 150㎝다. 보고를 받은 장군은 도강을 명령했다. 강 언저리를 지나면서 물이 갑자기 깊어졌고 병사들이 한 명, 두 명 빠져죽기 시작했다. 겁이 난 병사들은 뒤를 흘깃흘깃 쳐다봤지만 장군은돌격 앞으로만 외쳤다. 물에 빠져죽는 병사가 속출하자 장군은 당황했다. 그제야 장군은 회군을 명령했다. 하지만 이미 많은 군사를 잃은 뒤였다. 알고 보니 이 강의 최대 수심은 2m였고, 군사 중 2m가 넘는 사람은 30명이 채 안 됐다.”이번 연말정산 사태는 연봉 5500만 원 이상부터 세금이 오르는 것으로 바뀌었다는 정부의 주장과는 달리 연봉 5500만 원 이하 소득자 중에 세금을 많이 토해내는 사례가 잇따랐기 때문이다. 전문가들은 이런 원인을 평균의 함정 뒤에 숨은 개인별 편차 때문으로 지적하고 있다. 즉 부양가족 공제, 자녀 교육비·의료비 공제를 적용받지 못해 세 부담이 증가하는 부분과 소득공제를 세액공제로 바꾸면서 개인별 편차가 커진 것을 간과했다는 것이다. 이 사례에서 볼 수 있는 것같이 사람들이 익숙하다고 여기는 평균은 실제로는 다양한 의미를 내포하고 있어서 다른 보조적인 수치와 함께 해석해야만 혼돈하지 않을 수 있다. 이번 글에서는 평균이 갖는 여러 의미를 다양한 사례와 함께 살펴본다.2

 

평균의 종류

어느 고등학교 3학년 학생들의 영어성적을 예로 들어보자. 가장 먼저 관심을 갖는 것은 학생들의 영어성적이 어떤 점수를 중심으로 모여 있느냐는 것이다. 평균은 자료의 모여 있는 특성을 나타내는 대푯값이다. 평균 소득, 평균 기온, 평균 키, 평균 강수량, 평균 가격 등 대부분의 데이터는 우선 평균화해서 제시된다. 그래서인지 사람들은 많은 숫자를 대할 때 우선평균이 얼마냐라고 자연스럽게 묻는다. 이처럼 사람들이 평균에 익숙하기는 하지만 문제는 평균에 여러 가지 종류가 있고 경우에 따라서는 각 종류의 평균값이 다를 수 있다는 사실을 모르는 경우가 많다는 점이다. 따라서 평균이 다를 때는 누구나 자기에게 유리한 평균값을 선택해서 얼마든지 자기주장을 그럴듯하게 왜곡시킬 수 있다. 우선 여러 가지 평균의 종류 중에서 가장 흔히 쓰이는 것을 보자.

 

여러 종류의 평균 중에서 우리가 주로 사용하는 것은 산술평균, 중앙값, 최빈수의 3가지다. 산술평균은 가장 많이 쓰이는 개념으로 그냥평균이라고 불리기도 한다. 모든 자료의 값을 다 더해서 전체 수로 나눈 것이다.

 

 

 

A: 1 1 2 3 1 3 4

 

7개의 숫자들을 모두 더해서(15) 전체 수(7)로 나눈 (산술)평균은 2.1이며 이 값은 이 숫자들의 중심을 잘 나타내는 대푯값이라고 할 수 있다. 그러나 다음의 예에서는 (산술)평균의 의미가 약해진다.

 

B: 1 1 2 3 1 3 17

 

B에는 다른 숫자에 비해 비정상적으로 큰 숫자인 17이 포함돼 있다. (산술)평균은 4이며 이 값은 다른 숫자에 비해 상대적으로 큰 17의 영향을 받은 것이다. 이럴 때는 (산술)평균이 전체 숫자의 중심을 나타내는 대푯값으로서의 역할을 하지 못한다. 상대적으로 큰 값에 영향을 받지 않는 중심의 측정치는 다음의 두 가지 방법으로 구할 수 있다. 첫 번째 방법은 숫자들을 작은 수부터 큰 수까지 순서대로 세운 뒤 가운데 위치하는 수, 즉 중앙값(혹은 중위수, median)을 중심으로 하는 방법이다. 두 번째는 가장 빈번하게 나타나는 값, 즉 최빈수(mode)를 중심으로 보는 것이다.

 

 

 

중앙값은 문자 그대로 가운데에 위치한 수로서 숫자들을 크기의 순서로 배열했을 때 정 가운데 위치하는 값을 말한다. 따라서 숫자의 반은 중앙값보다 작은 값을 갖고 다른 반은 큰 값을 갖게 된다. 위의 예 A, B에서 중앙값을 사용한 평균은 모두 2이며 숫자들의 중심을 나타내는 대푯값으로 충분하다.

 

 

 

A: 1 1 1 2 3 3 4

B: 1 1 1 2 3 3 17

 

최빈수는 가장 흔하게 나타나는 수로서 위의 예에서 1이 가장 자주 나타나므로 최빈수를 사용한 평균은 1이 된다. 최빈수 1은 숫자들 중 대다수는 아니라도 가장 많이 일어나므로 중심의 대푯값 역할을 하게 된다. 비유를 들면 3명의 대통령 후보 중에서 후보가 34%, 후보가 33%, 후보가 33%를 득표했다고 한다면 모두 과반수에는 미달하지만 34%를 얻은 후보가 당선되는 것은 최빈수가 대푯값으로서 충분하기 때문일 것이다.

 

어느 평균을 사용할 것인지 고민할 필요가 없는 경우도 많다. 영어 성적, 몸무게, 키 등과 같은 수치는 대부분 <그림 1>처럼 좌우 대칭의 종 모양 분포(정상분포 혹은 정규분포)를 이룬다. 이럴 때는 (산술)평균, 중앙값, 최빈수가 일치한다.

 

그러나 모든 분포가 종 모양을 이루지는 않으므로 평균의 종류에 따라 값이 다른 경우가 얼마든지 있을 수 있다. 평균에 따라 값이 다르면 자기에게 유리한 평균값을 선택해서 자기 의도를 받아들이라고 강요할 수 있고 수맹인 사람들은 그 주장에 속기 쉽다. 종 모양 분포가 아닐 때는 어떤 종류의 평균인지 알기 전에는 의미가 없다. 종 모양 분포가 아닌 것 중 대표적인 예가 소득이다. 소득은 오른쪽으로 꼬리가 긴 분포, 즉 소수의 인원이 엄청나게 소득을 올리는 분포를 이룬다.

 

가상의 예를 들어보자. 강원도 소양호 주변의 어느 후미진 곳에 50가구가 사는 작은 마을이 있다. 이 마을의 이장과 복덕방 영감은 각기 상반된 주장을 하고 다닌다.

 

마을 이장: 우리 마을의 가구당 평균 소득은 500만 원이다.

 

복덕방 영감: 우리 마을의 가구당 평균 소득은 1억여 원이다.

 

이장은 우리 마을이 가난하다고 하고 복덕방 영감은 부자마을이라고 하는, 전혀 상반된 주장을 펴고 있다. 양쪽 모두 동일한 가구 수와 가구별 소득을 기초로 계산해서 얻은 결과다. 내용을 알아보면 50가구 중에 25가구는 가난한 농가로 연 소득이 500만 원이고 다른 24가구는 500만 원에서 2000만 원 사이의 소득을 올리고 있다. 나머지 한 가구는 서울의 한 사업가가 물 좋고 공기 좋은 곳에 내려와 사는 집으로 이 가구의 연 소득은 50억 원에 달한다. 저소득농민 지원정책에 따른 각종 정부지원을 기대하는 마을 이장은 최빈수를 사용해서 평균이 500만 원밖에 안 되는 마을이라고 주장한다. 복덕방 영감은 은퇴 후 시골에서 살려는 서울 사람들을 유인하기 위해 산술평균을 사용해 평균 소득이 약 1억여 원인 부자마을 휴양지라고 선전하는 것이다.

 

이처럼 똑같은 자료로부터 계산된 평균이 크게 다를 수 있기 때문에 평균이면 그저 평균인 것으로 이해하는 많은 사람들이 혼동하기 쉽다. 위의 예는 다소 과장된 면이 있지만 실제로도 얼마든지 발생할 수 있는 일이다. 노사문제를 겪고 있는 회사에서 사장이 주장하는 직원들의 평균 임금은 매우 높고 노조 측에서 주장하는 평균 임금은 낮을 때가 있다. 사장은 보수가 높은 경영층을 포함한 산술평균을 사용하고 노조는 가장 많은 근로자들이 받는 봉급인 최빈수를 사용한 결과다. 재미있는 실례를 하나 들어보자.

 

돈을 더 원하면 내 용돈을 가져가라

1994년 미국 프로야구는 선수들의 파업으로 월드시리즈가 취소되는 등 미 프로야구 사상 가장 긴(8개월) 싸움에 휩싸여 있었다. 구단주와 선수노조 사이의 힘겨루기였다. 그 원인이 밥그릇 싸움에 있었기 때문에 양쪽 모두 야구팬들의 비난을 받았다. 그래도 구단주와 노조는 파업기간 중에 팬들의 감정과 여론을 서로에게 유리한 방향으로 이끌기 위해서 각자의 입장에 대해 열띤 홍보전을 벌였다. 여론을 등에 업고자 하는 이 싸움에서 구단주들이 완승을 거뒀는데 구단주들의 주장은 간단했다. “평균 연봉이 120만 달러(13억 원)나 되는 선수들이 파업을 하다니라고 떠벌린 것이다. 엄청난 소득을 올리는 선수들이 돈 욕심을 부린다는 식으로 홍보해 팬들의 비난을 자연스럽게 유도했다. 이런 의도는 큰 성공을 거뒀고, 심지어는 10살짜리 어린 야구팬이돈을 더 원하면 내 용돈을 가져가라(Want more money? Take my allowance)”라고 쓴 피켓을 들고 야구장에서 항의시위를 벌이는 것이 신문에 사진과 함께 크게 실리기도 했다. 당시 파업에 대한 미국 CBS 방송의 여론조사에 따르면 응답자의 43%가 구단주를, 22%가 선수들을 지지하는 것으로 나타나 노조 측에 주로 비난의 화살이 쏠리고 있었다. 이때 노조는 어떻게 대응해야 했을까? 그 해답은 평균에 대한 간단한 지식, 즉 평균에 여러 가지가 있고 그중에서 노조에 유리한 평균을 이용하는 데 있다.

 

 

 

 

 

 

“고액의 연봉을 받는 일부 소수의 스타선수들이 있기는 하지만 선수들의 평균 연봉은 30만 달러 정도며 월 1000달러 정도의(그것도 야구시즌인 8개월 동안만 지불되는) 저임금에 혹사당하고 있는 마이너리그 선수들까지 합하면 선수들의 평균 연봉은 약 1만 달러 정도밖에 되지 않는다. 부상이나 성적부진 등으로 선수의 평균 수명이 짧은 것을 감안하고 선수들이 영화나 TV 속 스타들만큼 팬들에게 볼거리를 제공한다는 사실을 고려하면 구단주들이 선수들에게 돌아가는 몫을 줄이려는 것은 부당한 처사다.”

 

 

 

당시 메이저리그 선수들의 평균 연봉(산술평균)은 구단주들이 주장하는 대로 120만 달러였다. 그러나 그 내용을 살펴보면 500만 달러 이상을 받는 소수의 고액연봉 선수들부터 10만 달러 정도의 최저임금을 받는 선수까지 다양한 분포를 보이고 있었다. 산술평균이 120만 달러지만 중앙값은 그보다 훨씬 낮은 40만 달러였고 최빈수는 30만 달러 정도였다. 선수들의 연봉분포를 그림으로 그리면 <그림 2>와 같이 오른쪽으로 꼬리가 긴 분포가 된다.

 

구단주들이 산술평균을 사용한 의도는 짐작이 가지만 이런 분포에서 산술평균인 120만 달러는 중심을 나타내는 대푯값으로 적합하지 않다. 중앙값(40만 달러)을 사용하는 것이 좀 더 적절하다. 노조의 입장에서는 최빈수인 30만 달러가 유리할 것이다.

 

아무튼 노조는 산술평균을 이용한 구단주들의 작전에 말려들었는데 만약 노조 지도자들이 평균에 대해 조금만 알았다면 반격할 수 있는 방법을 생각해낼 수 있었을 것이다.

 

참고로 우리나라 프로야구 선수들의 연봉을 보면 2015년에 등록한 프로야구 선수는 총 628명인데 15억 원의 최고 연봉을 받는 한화이글스의 김태균 선수를 비롯해 모두 140명의 선수가 억대 연봉을 받는다. 선수들의 (산술)평균 연봉은 거의 2억 원(정확히는 19325만 원)에 육박하지만 가장 많은 선수들이 받는 평균연봉(최빈수)은 프로야구 최저 연봉인 2700만 원이다. 특히 각 구단이 편법으로 (등록선수가 아닌) 육성선수로 묶어놓은 51명의 최저 연봉 선수를 포함하면 더욱 그렇다.

 

 

 

 

 

 

어떤 평균을 쓰지?

여러 평균값이 서로 다를 때는 어떤 것을 선택해서 사용할 것인가? 목수가 여러 가지 연장을 용도에 맞게 쓰듯 평균도 각각의 특징에 어울리게 사용해야 한다. 각 평균은 중심의 개념부터 서로 다르므로 개념에 맞는 차원에서만 유용하다. 산술평균은 자료 속에 있는 모든 값을 다 더해서 계산하므로 그 값들이 어떤 범위 내에서 유사한 경우 효과적인 대푯값이 된다. 고양이와 호랑이가 같은 고양이과의 동물이라며 둘을 합쳐 고양이과 동물의 평균을 낸다면 무의미하다. 고양이와 호랑이끼리 따로 계산하는 것이 낫다. 중앙값이나 최빈수는 자료 속에 있는 특정한 값을 선택하는 것이므로 그런 내용을 알고 사용해야 한다. 일반적으로 꼬리가 한쪽으로 치우친 분포에서는 중앙값이 적절한 대푯값이 된다.

 

평균을 선택할 때 고려해야 할 것은 우선 갖고 있는 데이터의 특성에 맞은 것을 골라야 한다는 점이다. 데이터의 특성 중에서도 데이터가 어떤 척도로 측정됐는지가 중요하다. 예를 들어 사람들이 좋아하는 음식에 대해 1)한식, 2)중국식, 3)일식, 4)양식으로 조사했다면 대푯값은 가장 많은 수의 사람들이 선택한 번호, 즉 최빈수가 중심의 대푯값이 된다. 이때 응답을 산술평균해서 2.31이라는 값을 얻었다고 해도 이 숫자는 그다지 의미가 없다. 통계학에서 사용하는 용어로 표현하면 위의 예와 같이 명명척도로 측정한 경우에는 최빈수만, 서열척도인 경우에는 중앙값만 사용하고, 그 밖의 경우 세 가지 평균을 모두 사용할 수 있다. 다음으로는 데이터의 분포를 고려해야 한다. 종모양분포가 아닐 때는 산술평균이 대푯값으로 의미가 약하다. 또한 표본에 따라 평균값이 크게 변하지 않는 것(안정성)을 선택해야 한다. 일반적으로는 산술평균의 안정성이 가장 높고 최빈수가 그 반대다. 마지막으로 평균을 선택할 때는 평균을 사용하려는 목적에 맞춰 결정해야 한다. 사용목적이 다르면 사용해야 할 평균이 다를 수도 있다. 또한 선택한 평균으로부터 어떤 결론을 유도할 수 있는지, 유도된 결론이 데이터에 대한 잘못된 인상을 심어주지는 않는지를 고려해야 한다.

 

종모양의 대칭적인 분포가 아닐 때 가장 좋은 평균 해석 방법은 세 가지 평균을 서로 밀접하게 연관해서 해석하는 것이다. 비유적으로 표현하면 방안을 조사하는 데 평균은 문의 열쇠구멍과 같다고 할 수 있다. 한쪽 문의 열쇠구멍으로 방에 대해 알 수 있는 것은 일부분이므로 여러 방문의 열쇠구멍으로 들여다본 결과를 종합할 때 방에 대해 잘 알 수 있다. 마찬가지로 평균도 각 평균의 장점을 연관해서 함께 해석하면 무리가 없다. 평균을 해석할 때 또 한 가지 중요한 점은 자료들이 어느 정도 흩어져 있는지도 알아야 한다는 것이다. 흩어진 정도를 모르거나 무시할 때는 잘못된 판단을 내릴 수도 있다. 여기서 흩어진 정도란 무엇일까?

 

흩어져 있는 정도

“내가 젊은 변호사였을 때는 이겨야 했을 많은 사건에서 졌고, 나이가 들면서 져야 했을 많은 사건에서 이겼다. 따라서 평균적으로는 법의 정의가 실현됐다.” 이 말은 영국의 유명한 판사인 매듀스 경이 은퇴하면서 한 말이다.

 

평균은 숫자들의 모여 있는 정도를 나타내는 유용한 정보지만 분포 전체의 모양을 보여주지는 못한다. 때로는 모여 있는 정도보다 흩어져 있는 정도를 나타내는 대푯값이 더 중요한 경우가 많다. 흩어져 있는 정도란 데이터가 얼마나 퍼져 있느냐, 즉 각각의 숫자들이 얼마나 서로 다른가를 나타낸다. 간단한 예로 2, 2, 2, 2, 2는 전혀 흩어져 있지 않은 숫자들이고 1, 5, 10, 15, 30은 많이 흩어져 있다.

<그림 3>은 평균(산술평균, 중앙값, 최빈수)은 같지만 흩어진 정도가 다른 두 학급의 성적분포를 나타낸 것이다. 이 그림은 두 학급의 성적에 대해 어떤 비교나 결론을 끄집어내기 위해서는 흩어진 정도를 반드시 알아야 한다는 것을 시각적으로 보여주고 있다.

 

흩어진 정도를 나타내는 가장 간단한 측정치는 범위(range)로 최솟값과 최댓값의 차이를 말한다. 이 차이가 크면 클수록 많이 흩어진 것이지만 극단적인 값이 있다면 정확하지 않다. 흩어진 정도의 측정치로 가장 널리 쓰이는 것은 표준편차인데 그 값이 클수록 산술평균을 중심으로 많이 흩어져 있다는 의미다. 표준편차 대신 분산을 사용하기도 하는데 표준편차는 분산에 제곱근(root)을 취한 값이다. 평균값과 표준편차를 함께 고려하면 중심의 대푯값으로서 평균의 역할을 판단할 수 있다. 예를 들어 평균값에 비해 표준편차가 크다면 자료들이 평균 주위에 넓게 흩어져 있는 것이다. 따라서 이런 경우 평균은 중심의 대푯값으로서의 의미가 약하다.

 

훈련 중 강을 걸어서 건너야 하는 병사들이 지도에 표시된 대로 평균 수심이 1.3m라는 사실만 믿고 도강한다면 어떻게 될까? 운 나쁘게도 평균 주위에 흩어진 정도가 크다면(얕은 곳과 깊은 곳이 많다면) 많은 병사가 위험에 처하게 될 것이다. 마찬가지로 어떤 강의 평균 수심이 3m라는 정보는 그 강에서 다이빙을 하려는 선수를 안심시킬 수 없다. 뛰어내리기 전에 최소한 흩어진 정도에 대한 정보를 알아야 한다. 다른 나라로 몇 년간 일하러 가는 사람이 그 나라의 평균 기온이 16도라는 사실을 알고 봄가을 옷만 준비하면 어려움에 처할 수 있다. 기온이 영하 20도에서 영상 30도까지 변하는 지역이라도 평균 기온은 16도일 수가 있기 때문이다.

 

 

다른 나라로

몇 년간 일하러 가는 사람이

그 나라의 평균 기온이 16도라는 사실을 알고

봄가을 옷만 준비하면 어려움에 처할 수 있다.

 

 

 

 

어느 대학에서 같은 과목을 두 교수가 가르친다고 하자. 두 교수 모두 평균 C학점을 학생들에게 준다면 그 과목을 선택하는 학생들은 어떤 교수를 선택해도 마찬가지일 것 같다. 그러나 한 교수는 대부분의 학생이 평범하다고 생각해서 주로 C만 주고, 다른 교수는 학생들의 절반은 우수하고 절반은 공부를 안 한다고 생각해서 A를 주거나 D-만 준다면 상황은 완전히 달라진다. 이렇게 흩어짐에 대한 정보 없이 평균 성적이 C라는 사실만으로 교수를 선택한다면 학점 때문에 곤란해질 수도 있다.

 

어떤 병에 걸린 환자에게 의사가 이 병에 걸린 사람은 평균 5년밖에 못 산다고 말한다면 의사는 환자에게 충분한 정보를 제공하는 것이 아니다. 평균 생존기간만 알고 생존기간의 분포에 대해서 모른다면 환자는 그에 맞는 투병계획을 세울 수 없다. 평균 생존기간이 5년이라도 4년 반에서 5년 반 사이에 분포하는 경우(대개 5년 내외에 사망함) 1년에서 20년 사이에 분포하는 경우(일찍 사망할 수도 있고 꽤 오래 생존하기도 함), 환자의 투병계획은 다를 것이다. 단지 평균만 갖고는 합리적인 의사결정을 내릴 수 없으며 올바른 판단을 내리기 위해서는 평균 주위의 흩어진 정도를 함께 고려해야 한다.

 

결혼 상대자를 고를 때도 평균 외에 흩어진 정도가 중요한 기준이 될 수 있다. 평균은 같더라도 여러 기준에서 신붓감(혹은 신랑감)들은 다양하게 차이가 날 수 있다. 이런 차이가 개인적인 장점으로 작용하거나 선택의 이유로 작용할 수 있음을 다음의 인용문이 잘 보여준다.

 

그러나 일생을 함께 할 배우자로서는 평범이란 특징이 아무래도 마음에 들지 않는다. 평균으로 셈하면 결국 보통이 되고 말더라도 좀 들쭉날쭉하기를 바라는 게 솔직한 내 심정이다. 다시 말해 어떤 점에서는 평균에서 좀 뒤지더라도 어떤 점에서는 뛰어난 편이 낫다.3

 

평균적인 사람?

고대 그리스 신화에 나오는 프로크루스테스(Procrustes)는 거대한 산도적이다. 프로크루스테스는 그의 집 옆을 지나가는 행인을 유인해 침대에 눕히고 키가 침대보다 작으면 발을 잡아 뽑고 키가 크면 발을 잘라 죽였다는 끔찍한 이야기의 주인공이다. 프로크루스테스만큼 끔찍하지는 않지만 현대를 사는 우리들에게도 어떤 기준을 정해놓고 그 기준과 다르면비정상으로 느끼도록 강요되는 일이 적지 않다. 그 기준의 대표적인 것이평균적인 사람이다. 특히 제품을 만드는 사람이나 판매원들은평균적인 사람에 매혹적인 충동을 느끼기 쉽다. 대량 생산의 필요성은 그 충동을 더욱 부채질한다. 물론 수요자의 중심을 이루는 사람들이 상대적으로 큰 목표시장이므로 그들에게 맞는 제품을 만들고 판매하려는 의도는 이해가 된다. 그러나평균적인 사람에 대한 집착이 심하면 더 큰 시장을 놓칠 수도 있다. 주택, , 가구는평균적인 사람을 기준으로 만들어지는 대표적인 제품이다. 키 큰 사람은 승용차를 탈 때 자주 머리를 부딪치고 키 작은 사람은 운전할 때 어려움을 겪는다. 부엌에서 여자들이 사용하는 싱크대도 마찬가지다. 키가 작은 여자는 팔이 아프고 큰 여자는 구부린 채 일해야 한다. 평균에서 다르면 비정상으로 느낄 수밖에 없다. 일부 제품을 이른바비정상적인 사람들을 위해 만든다고 해서 현재의 대량 생산 공정이 크게 위협받는 것은 아닐 것이다. 예를 들어 의자는 단지 높이가 다른 다리를 사용하면 간단하게 평균이 아닌 사람들에게도 맞는 것을 만들 수 있다. 미국 우주비행사의 키가 커서 미국과 소련의 공동 우주개발이 차질을 빚었던 실제 사례도 있었다. 문제가 된 미국 비행사의 키는 182. 현재 우리나라 청소년 수준에서도 그리 큰 키가 아니다. 우주선 안의 제한된 공간 때문이었겠지만 그렇다고 해도 180㎝ 이하에만 맞는 의자를 만들었다니 차질을 빚어도 싸다.

 

주택, 그중에서도 아파트는 평균 가정을 대상으로 만들어진다. 가족 수에 따라 크기가 다르기는 하지만 각 크기에 포함되는 아파트는 거의 비슷하게 만들어진다. 물론 수백만 가구를 한꺼번에 건설하려면 똑같은 형태의 대량 생산이 불가피한 측면이 있을 것이다. 하지만 입주한 가정은 평균적인 가정과 다른 만큼의 불편을 감수해야 한다.

 

집합주택이나 주택단지처럼 불특정 다수를 대상으로 하는 건축물 내지 환경의 계획이나 설계에서는 통계학적으로 추출된 추상적인 인간상을 발주자 또는 이용자로 착각한다. 그런 잘못을 자각 없이 저지른다. 같은 대지 위에 김 아무개의 집을 설계할 때와 강 아무개의 집을 설계할 때의 결과는 상당히 달라야 마땅하다. 그런데도 집주인이 많아질수록, 그리고 집주인이 확정되지 않을수록 집주인 개인의 구체적인 이질성이나 다양성보다는 추상적인 동질성과 공통성이 중시된다. 이질성과 다양성도 평균치라는 편리한 대표치로 통계 처리해 버린다. 그 결과 실재할 리도 없고 실재할 수도 없는 평균치적 인간이라는 것을 과학적이라는 조작에 의해 탄생시킨다.4

 

“사람사람이 본시 모두 제가끔 저 생겨먹고 싶은 대로 생겨먹어 그 쌍통 생김새가 하나도 똑같은 놈 없고….” 김지하 소설대설(大設)’ 첫머리에 나오는 말이다.5 우리는 어릴 때부터 사람들이 서로 다르다는 것을 자연스럽게 받아들이며 성장한다. 인종, 나이, 성별, 몸무게, 키가 같더라도 취향이나 행동은 전혀 다른 경우가 대부분이다. 나와 거의 모든 면에서(성격이나 식성까지도) 흡사한 한 친구는 나보다 술이 몇 배나 세다. 그래서 같이 술 마시는 경우 그 친구는 내게 술 한 잔을 잡아주곤 하지만(내가 한 잔 마실 때 친구는 두 잔 마시는 등) 그래도 내가 먼저 취할 때가 대부분이다.

 

 

 

‘평균적인 사람’, 즉 모든 면을 고려할 때 중심이 되는 사람은 존재하지 않는다. 그러나 사회는평균적인 사람을 표준으로 놓고 획일적으로 그것에 맞추도록 강요할 때가 많다. 사회는 다양한 사람이 함께 어울려 살아가는 곳이므로 획일적인 기준들은 사라져야 한다. 평균에 맞추는 것이 아니라 평균으로부터 떨어져 있음이 인정되고 고려되는 분위기, 다양성이 존중되는 사회를 만드는 것이야말로 사회 속에서 모두가 행복하기 위한 필요조건이다. 적합한 평균을 골라 사용하는 일 못지않게 중요한 것은 평균을 남용하지 않는 일이다.

 

 

김진호서울과학종합대학원 빅데이터 MBA 주임교수 jhkim6@assist.ac.kr

필자는 서울대 경영대학을 졸업하고 펜실베이니아대(Wharton School)에서 경영학 석사와 박사 학위를 받았다(통계학 부전공). 사회와 기업의 다양한 문제들을 계량 분석적으로 접근하는 연구를 주로 했다. 개인의 분석능력을 키워주는 교육프로그램을 개발해 여러 기업에서 운영하기도 했다. 최근 저서는 <말로만 말고 숫자를 대 봐(엠지엠티북스)> 등이 있으며 역서에는 <빅데이터@워크>가 있다.

 

인기기사