로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Power of Analysis

숫자는 정직하다 올바르게 쓸 때만…

김진호 | 189호 (2015년 11월 Issue 2)

Article at a Glance

흔히 현대를 정보화시대라고 하지만 대부분의 정보는 결국 숫자로 요약되므로 현대는 숫자정보사회 혹은 숫자화사회라는 표현이 더 적절할 것 같다. 문제는 많은 사람들이 숫자를 이해하고 활용하는 필수적인 능력을 갖추기는커녕 수만 나오면 자신 없어 하는 경우가 많다는 것이다. 그러다보니 상대가 수치를 제시하면서 주장을 펼치면 그 수치가 정말 타당성이 있는지 따져보지도 않고 주눅이 든다. 사람들이 자꾸 자신의 주장을 그럴 듯하게 포장하기 위해 숫자를 이용해 거짓말을 하거나 자신의 의도에 맞춰서 해석하기 때문에 함부로 숫자를 믿어서는 안 된다. 숫자에 대한 의심은 반드시 다음 세 가지 원칙에 따라 이뤄져야 한다. 각각의 질문에 대한 답을 면밀히 검토한 후에야 그 숫자는 의미를 갖는다.

 

1) 관련성: 문제와 직접적으로 관련돼 있나?

2) 정확성: 누가, 언제, 어떻게 그 수치를 만들어냈나?

3) 올바른 해석: 같은 수치를 두고 전혀 다른 해석이 가능한가?

 

 

 

언젠가는 숫자를 올바로 이해하는 능력이 쓰기나 읽기처럼 유능한 시민이 되기 위해서 꼭 필요할 것이라고 영국의 비평가 H. G. 웰스(Wells)는 예언했다. 그때가 과연 언제일까? 언젠가가 바로 오늘이라고 해도 틀림이 없을 것이다. 오늘을 살고 있는 우리는 숫자를 만들어 내느라 하루 종일 분주히 일하고 이렇게 생산된 수많은 숫자 속에 묻혀 그것들을 올바르게 이해하려고 애를 쓰고 있다. 우리 삶의 많은 부분이 바야흐로 숫자를 위한, 숫자에 의한 행위들로 가득 차 있다고 할 수 있다. 이런 숫자화의 경향 때문에 사회현상이나 추상적인 개념도 숫자로 표현돼 우리에게 주어진다. 예를 들면 사람의 지능은 IQ, 경제현상은 GNP, 물가지수, 주가지수 등으로, 날씨의 변화에 따른 우리의 느낌은 불쾌지수로, 빨래가 마르기에 적당한 날씨인가는 빨래지수로 표현한다. 심지어 감상적으로 표현돼야 할 노래가사나 제목까지그대를 만나는 곳 100미터 전’ ‘99.9’ 등이 등장하고 책 제목도 <99%의 사랑> <120% Coool> 등으로 붙인 것이 있고 가장 시적(詩的)이어야 할 시()에도 다음과 같이 구체적인 숫자가 등장하기도 한다.1

 

오늘 아침 버스를 타는데, 뒤에서 두 번째 오른쪽 좌석에 누군가 한 상 걸게 게워낸 자국이 질펀하게 깔려 있었다. 사람들은 거기에 서로 먼저 앉으려다 소스라치면서 달아났다. 거기에는, 밥알 55%, 김치찌꺼기 15%, 콩나물 대가리 10%, 두부 알갱이 7%, 달걀 후라이 노란자위 흰자위 5%, 고춧가루 5%, 기타 3% 으로.2

 

사람들 간의 대화는 또 어떤가? ‘아파트는 몇 평짜리냐’ ‘자동차는 몇 cc’ ‘월급이 몇 퍼센트가 올랐는지등등 모든 것을 숫자화해서 주고받고 있다. 생텍쥐페리가 <어린 왕자>에서 다음과 같이 한 말처럼 우리들은 이미 숫자에 길들여진 것이다.

 

어른들은 숫자를 좋아한다. 네가 어른들에게 새로 사귄 친구들을 이야기하면 그들은 네게 진짜 알갱이가 되는 것을 묻는 일이 없다. 어른들은 네게그 애 목소리가 어떻든? 그 애는 어떤 놀이를 좋아하지? 그 애는 나비를 수집하고 있니?”라고 묻는 적이 한 번도 없다. 그들은그 애가 몇 살이지? 형제는 몇이냐? 몸무게는 얼마지? 그 애 아버지는 돈을 얼마나 버니?”라고 묻는다. 그리고 나서야 비로소 그들은 그 애를 안다고 믿는다. 만일 네가 어른들에게난 지붕 위에 비둘기들이 놀고 창틀에는 장미꽃이 피어 있는 붉은 벽돌의 예쁜 집을 보았어라고 말하면 그들은 그 집을 머릿속에 그려 보지 못한다. 어른들에게는, 10만 프랑짜리 집을 보았어라고 말하는 편이 좋다. 그제야 그들은, 근사한 집이구나라고 외친다.

 

가정도 예외가 되지 않아서 살림을 꾸려 가는 주부들은 실제로는 꽁치를 한 마리 사는 데부터 자동차를 사는 데 이르기까지 끊임없이 숫자로 꿰맞춰 간다고 할 수 있다. 직장에서도 마찬가지다. 회사원이 야근까지 하면서 일한 결과는 종종 몇 개의 숫자로 요약돼 사장에게 보고되고 숫자로 회사를 경영할 수 있다고 생각하는 사장은 보고받은 숫자에 대한 판단을 바탕으로 새로운 숫자로 지시를 내린다. 따라서 회사원의 능력 평가와 승진은 개인이 달성한 숫자에 의해 크게 좌우된다.

 

흔히 현대를 정보화시대라고 하지만 대부분의 정보는 결국 숫자로 요약되므로 현대는 숫자정보사회 혹은 숫자화사회라는 표현이 더 적절할 것 같다. 더욱이 모바일 디바이스, 센서, 소셜미디어에서 데이터가 폭증하고 있는 지금, 웰스가 말한 대로 숫자를 올바르게 이해할 수 있는 능력은 읽고 쓰는 능력 못지않게 빅데이터 시대에 효과적으로 적응하며 살아가는 데 있어서 이미 기본적이고 필수적인 능력이 됐다. 그러나 문제는 많은 사람들이 이러한 필수적인 능력을 갖추기는커녕 숫자를 대하는 데 자신 없어 하는 경우가 많다는 것이다. 초등학교에 입학한 이후 가장 많은 시간을 들여서 공부한 것이 바로 수에 관한 것인데 사람들과의 대화나 신문, 방송 등에서 매일매일 마주하게 되는 숫자에 대해서 자신 없어 한다는 사실은 상당한 아이러니다.

 

 

사람들이 숫자에 주눅이 드는 예는 화술에 관한 책을 보면 금방 알 수 있다. 대부분의 화술에 관한 책 속에는숫자를 써서 공격하라’ ‘숫자의 권위를 이용하라라는 내용의 장()이 있는데 상대방의 공박을 잠재우고 좀 더 설득력 있어 보이게 하는 테크닉으로써 숫자를 필요할 때마다 인용하라는 것이다. 심지어는 그 숫자가 정확하지 않을지라도 상대방은 대개의 경우 그것이 정확한 것인지도 모르거나 약간 의심이 가더라도 자신이 없어 반박하지 못한다고 설명을 덧붙이기도 한다. 다음의 인용문은 이런 경향을 잘 설명해 주고 있다.3

 

인간현상도 양적인 언어로 풀이하면 뭔가 더 설득력 있게 다가온다. 그런 효과를 노려서인지 모르겠으나 유난히 숫자를 잘 암기하고 다니는 사람들이 있다. 그들은 공식적인 담론에서는 물론 일상적인 대화를 나눌 때에도 그 수치들을 즐겨 인용한다. 그의 이야기는 늘 어떤 객관적인 사실을 말하는 듯이 여겨지고 그래서 항상 힘을 지닌다. 그의 주장을 반박하기는 쉽지 않다. 왜냐하면 그 정도로 다양한 자료를 자유자재로 인용할 수 없기 때문이다. 똑같은 사실을 말하면서도 통계수치를 동원하면 더 과학적이고 정확한 것처럼 들린다.

 

사실 대화를 할 때 약간의 수치를 곁들이면 그 내용을 더욱 잘 알고 하는 말처럼 들린다. 두서없는 주장이라도 그 속에 몇 개의 수치를 인용하면 사람들은 쉽게 수긍을 한다. 이처럼 숫자는 과학적이라는 이미지와 설득력 있는 힘을 갖기 때문에 노련한 말꾼들은 필요한 경우에 숫자를 갖다 붙인다. 그러나 그런 숫자들은 대부분 어떤 근거도 없는 어림수인 경우가 많다. 자기의 주장을 인상적으로 보이게 하거나 순전히 논쟁에 이기기 위해서 억지로 꾸며댄 숫자일 수가 있는 것이다. 문제는 숫자에 주눅인 들어 있는 수문맹 혹은 수맹(數盲)들에게는 하늘에서 떨어진 것처럼 전혀 근거가 없는 어림수일지라도 언제나 효과를 발휘한다는 사실이다. 갑자기 상대방에게 몇 개의 통계수치를 갖다 대면 상대방은 어리벙벙해져서 반박도 하지 못하는 것이다. 재미있는 예를 들어보자.4

 

영국 수상을 지낸 디즈레일리(Disraeli)는 항상 통계수치를 인용하는 것으로 유명한 사람이었다. 국회에서 의원들의 날카로운 질문에 각종 통계수치를 조목조목 인용해 대답함으로써 의원들의 예봉을 잘 피해나갔다고 한다. 그리고 대답을 할 때마다 항상 메모지를 보면서 각종 통계수치들을 인용했다고 한다. 디즈레일리 수상이 국회에서 답변을 하던 어느 날에 일어난 일이었다. 수상은 그날도 그의 특기를 살려서 숫자가 포함된 조리 있는 대답으로 의원들의 말문을 막았다. 그런데 수상이 자기 자리로 돌아올 때 실수를 해 그의 메모지를 바닥에 떨어트렸다. 그러자 수상의 통계수치 인용에 대해서 평소에 감탄(?)을 하던 한 호기심 많은 국회의원이 그것을 집어 들었다. 그 의원은 도대체 메모지에 무엇이 쓰여 있었을까 매우 궁금했던 것이다. 메모지를 본 의원은 깜작 놀랐다. 수상이 열심히 들여다보며 참고를 했던 메모지는 숫자 하나 적혀 있지 않은 백지였던 것이다.

 

어림수를 사용하는 이유는 어떤 것에 관한 숫자를

여러 가지 한계 때문에 정확하게 계산할 수 없기 때문인 경우도 있다.

 

우리들에게 주어지는 숫자로 된 정보의 많은 부분이 어림수, 즉 대강 짐작으로 어림잡아서 추측된 값이다. 문제는 전혀 근거가 없는 어림수일지라도 숫자에 주눅이 들어 있는 대부분의 사람들에게는 대단한 효과를 발휘할 수도 있다는 사실이다. 하나의 숫자가 대단한 효과를 발휘했던 전형적이 사례가 매카시즘(Mccarthyism)이라는 용어까지 만들어 낸 미국의 매카시(Joseph Mccarthy) 상원의원 얘기다.5 매카시즘에 대한 옥스퍼드 영어사전의 정의를 보면 “1950 54년 사이에 일어난, 공산주의 혐의자들에 반대하는 떠들썩한 반대 캠페인으로, 대부분의 경우 공산주의자와 관련이 없었지만, 많은 사람들이 블랙리스트에 오르거나 직업을 잃었다라고 설명하고 있다. 지금은 주로 정치에서 정적의 성격이나 애국심에 대해 비난을 선동하거나 무분별하고 근거 없는 고발을 비판하는 말로 쓰이고 있는 이 말은 사실 297명이라는 근거가 없는 어림수에 의해서 촉발됐다. 1950년 초에 매카시 상원의원은 경력위조, 상대방에 대한 명예훼손, 로비스트로부터의 금품 수수, 음주 추태 등으로 정치적으로 사면초가에 몰린 상태였으며, 그의 정치 생명은 끝난 것으로 여겨졌다. 충격적인 이슈 없이는 회복할 수 없는 상황에서 매카시는 구체적인 어림수를 활용함으로써 반전을 유도했다. 즉 그는 그해의 공화당 당원대회에서미국에선 공산주의자들이 활동하고 있으며, 나는 297명의 공산주의자 명단을 갖고 있다라고 주장해 미국 사회에 엄청난 충격과 관심을 이끌어 냈다. 이전에도 그는 공산주의자들이 많다고 떠들고 다녔지만 별 반응이 없었는데 이번에는 구체적인 숫자 297을 제시하면서 그 명단을 갖고 있다고 하자 예상보다 폭발적인 반응을 불러일으킨 것이었다. 신문들은 매카시의 폭로를 사실 여부에 관계없이 헤드라인으로 삼았으며 매카시의 폭로를 다룬 신문은 불티나게 팔려나갔고 많은 사람들이 동조하기 시작했다. 297이라는 숫자는그 속에 반드시 포함될 사람혹은누구도 예상하지 못했겠지만 그 인원에 포함될 수도 있는 사람등의 제목하에 엄청난 기사들을 쏟아지게 만들었던 것이다. 이 덕에 매카시는 대중적인 인지도와 지지를 확고하게 늘려나갔으며 그때부터 매카시즘 시대라고 불리는 4년 동안 그는 미국 정가에서 가장 유력한 인사였다. 이 과정에서 공산주의와 일부 무관한 사람들이 조사를 받기도 했다. 가장 먼저 의심받은 사람들은 공무원, 연예 사업의 인물, 교육자, 노동조합 활동가였다. 무고한 경우도 있었고, 그러한 혐의는 종종 확정되지 않거나 의심스러운 증거로도 확실하다고 여겨졌으며, 그 사람이 실제로 공산주의 사상을 가지거나 관련돼 있어서 위협이 되는지에 대해서도 크게 부풀려지는 경우가 많았다. 많은 사람들이 직장을 잃고 경력을 망쳤으며 투옥되기도 했다. 처벌자 대부분의 평결은 나중에 번복됐으며 그에 의해서 기소된 인사들 중 아무도 유죄 판결을 받은 사람이 없었다. 1954 4월 상원은 매카시에 대한 청문회를 열었다. 청문회에서 지식인들인 변호사들의 집요한 비평과 질문에 매카시는 명확한 근거를 제시하지 못했으므로 더 이상 사람들의 믿음을 얻을 수 없었다. 그 후에 그는 알코올중독으로 사망했다.

 

그렇게 정확할 수가

 

우리의 생활이나 대화에서 어림수를 사용하는 경우는 무척 흔하다. 예를 들어 보자. 자동차로 여행을 하는 한 부부가 시골도로를 달리고 있었다. 길옆은 넓은 풀밭이 있는 목장지대였다. 수많은 양떼들이 풀을 뜯고 있는 한 목장 옆을 지나면서 운전을 하던 남편이 옆자리에 앉아 있는 부인에게 물었다. ‘저 목장의 양이 몇 마리나 되는 줄 알아?’ ‘그걸 어떻게 알아요, 저렇게 많은데하고 부인이 대답했다. 남편은내가 세어보니 1342마리야라고 말했다. 부인은 놀라서대단하네요, 그렇게 많은 양들을 언제 다 셌어요?’라고 물었다. 남편은 별로 대단한 것도 아니라는 표정으로 다음과 같이 대답했다. “양을 센 것이 아니라 다리를 세서 4로 나누었지.” 이 예는 물론 과장된 농담이다. 그러나 공식적인 발표에서도 믿기 어려울 정도로 정확하게 추정된 어림수의 예를 종종 볼 수 있다.

 

아주 오래 전이기는 하지만 1950년의 세계연감(World Almanac)에 실린 내용 중 하나다.6 그해에 전 세계에서 헝가리 언어를 사용하는 사람이 8001112명이라고 나와 있었다. 방금 말을 배운 어린아이까지 정확하게 포함된 숫자라는 인상을 주기보다는 하늘에서 떨어진 숫자라는 느낌을 준다. 미국의 권위 있는 일간지인 <뉴욕타임스(The New York Times)>에 뉴욕시에서 있었던 퍼레이드의 비용에 관한 기사가 실렸었다.7 이 기사에 따르면 성() 패트릭 축제일(St. Patrick’s Day) 퍼레이드에 시당국은 85559.61달러의 비용을 지출했고, 푸에르토리코의 날(Puerto Rican Day) 퍼레이드에는 74169.44달러의 비용을 지출했다고 발표했다. 상식적으로 생각할 때 퍼레이드에 든 비용을 몇 원까지 정확히 계산할 수 없을 것이다. 이처럼 정확한(?) 어림수를 발표하는 것은 이 신문사가 이 문제에 대해서 매우 관심이 높고 사소한 것에도 정통하다는 인상을 독자에게 심어주려는 의도였을 것이다. ‘이 신문은 매우 정확한 정보를 제공한다고 생각하는 독자가 많을까 아니면 어떻게 해서 그렇게 정확한 숫자가 나왔을까 하고 궁금해 하는 독자들이 많을까?

 

 

로치(Hal Roach)라는 코미디언이 자연사 박물관의 안내원에 관한 이야기를 소개한 적이 있다.8 어느 날 한 방문객이 선사시대의 공룡 뼈를 구경하다가 그 뼈가 얼마나 오래된 것인가를 안내원에게 물었다. 안내원은 머뭇거리지도 않고 30017년이 된 것이라고 대답했다. 그 수치의 정확함에 놀란 방문객이 그렇게 정확한 숫자의 근거를 다시 물었다. 안내원은내가 여기에서 처음 일을 시작했을 때, 그 뼈는 300만 년 된 것이라고 들었다. 그 후로 나는 여기에서 17년 동안 일을 했다라고 설명했다. 공룡의 나이 300만 년은 원래부터 추정치이다. 거기에다가 17년을 덧붙여서 말하는 것은 정확한 수치라는 인상을 주려는 것에 지나지 않는다.물론 이 예는 코미디 소재이기는 하지만 유사한 상황에서 사람들은 그저 허세를 부리거나 아니면 논쟁에서 이기기 위해 어림수를 정확성으로 종종 치장하는 것이다.

 

어림수를 사용하는 이유는 어떤 것에 관한 숫자를 여러 가지 한계 때문에 정확하게 계산할 수 없기 때문인 경우도 있다. 그렇다고 해서 땅에서 솟아난 듯이 근거가 전혀 없이 어림수를 만들어도 된다는 것은 아니다. 우리나라의 1994년도 경찰청 통계연보에 나타난 터무니없는 어림수의 예를 들어보자.9 그 연보에 따르면 각종 범죄로 인해 발생하는 재산피해가 1136000억여 원이라고 한다. 그 액수는 당시에 우리나라 한 해 예산의 대여섯 배나 되는 엄청난 규모다. 사람들이 엄청난 피해의 크기에 놀라자 경찰청에서는 피해규모가 45000억 원으로 수정을 했다. 이런 착오가 난 이유는 컴퓨터 입력과정의 착오라고 변명을 했다. 주먹구구식으로 어림수를 만들면 통계에 대한 사람들의 불신을 해소하기가 더욱 어려워진다.

 

다음은 한 스포츠 일간지의 성()에 관한 칼럼에서 인용한 글이다.10

 

… 섹스를 가능하게 하는 남성의 발기시간이 20세에는 43, 25세까지는 54, 30세까지는 47, 40세까지는 41, 45세까지는 31, 50세까지는 29, 55세까지는 27, 60세까지는 22, 65세까지는 19, 70세까지는 7분이라는 말도 있다.…

 

연령별 발기시간이 분()까지 자세히 나와 있지만 역시 이런 수치가 어떻게 해서 계산이 됐는지는 밝히지 않고 있다. ()까지 정확하게 제시하지 않은 양심(?)에 감사를 드려야 할 정도다.

 

가장 터무니없는 숫자를 조작해낸 사람은 독일인 바이루스(Weirus)라고 할 수 있다.11 바이루스는 16세기 후반에 살았던 의사였다. 13, 14세기의 중세 유럽에서 마술은 하나의 뛰어난 능력으로 대우를 받았다고 한다. 그것이 15세기로 내려오며 마술은 이단(異端)과 배교(背敎)란 이름 아래 재판받기에 이르렀으며마녀사냥이 시작됐다.12 바이루스가 살았던 16세기에는 마녀사냥이 한창인 때였다. 어떤 지방에서는 두 개 마을의 여성이 몽땅 처형되기도 했고, 하루에 133명을 처형한 마을도 있었으며, 1년에 5000명 이상을 화형에 처한 도시도 있었다고 한다.13 이런 상황에서 바이루스는 지구상에 살고 있는 악마(demons)의 숫자가 정확히 7405926이라고 계산했다. 더욱이 그는 한술 더 떠서 이 악마들은 72개의 대대(大隊)로 나누어져 있고, 각각의 대대는 왕자가 지휘를 한다고 주장했다. 우리나라의 도깨비, 몽달귀신, 달걀귀신, 빗자루귀신, 그리고 수많은 산신령들도 하나도 빼먹지 않고 세었는지는 알 수 없지만 하여튼 그 정확함에는 귀신도 기가 막힐 정도다.

 

다음은 지능지수(IQ)에 관한 신문 칼럼의 일부다.14

 

보통 사람이 못하는 일을 해내는 사람은 천재다. 모차르트의 지능지수는 150이었다. 프랑스의 여류 소설가 조르지 상드가 150이었고, 볼테르가 170, 괴테는 186로 돼 있다. … 그러나 꼭 150이 천재의 기준이 되는 것은 아닌 듯하다. 갈릴레오는 145였고 다윈, 베토벤, 레오나르도 다빈치 등은 135였다. 그런가 하면 렘브란트, 코페르니쿠스 등은 110밖에는 되지 않았다.

 

심리학자들이 인간의 지능에 관심을 가지기 시작해 지능검사(IQ 테스트)를 개발한 것은 20세기 초다. 코페르니쿠스나 레오나르도 다빈치가 살았던 시대에는 IQ 테스트가 없었음이 확실하다. 아마 죽은 사람들의 혼을 불러다 지능검사를 한 것은 아닐 터이니 어떻게 그들의 지능지수를 측정했는지 궁금하기만 하다.

 

누가 누가 계산 잘하나

 

사회적으로 큰 이슈가 되는 현안이 있을 때마다 시민들의 시위나 집회가 이어진다. 그러나 시위에 참가한 군중의 수에 대한 경찰과 주최 측의 추산은 대게 크게 다르다. 어느 숫자가 맞는지 판단할 방법이 없는 언론에서는 언제나 경찰이 추산한 숫자와 주최 측이 추산한 숫자를 함께 발표한다. 사실 시위에 참가한 사람들의 숫자를 놓고 벌이는 실랑이는 꼭 우리나라에만 한정된 일이 아니다. 예를 들어 1996년에 최근 미국 워싱턴에서 열렸던 “100만 흑인남성 대행진의 참가자 수를 놓고 흑인과 경찰당국의 설전이 뜨거웠다. 집회가 끝난 뒤 경찰은 참가자 수가 40만 명 정도라고 공식 발표했다. 그러자 참가자 수가 100만 명을 넘었다고 주장하는 흑인회교지도자인 패러칸(Louis Farrakhan)은 경찰에 재집계를 요구하고 신속한 답변이 없을 경우 법원에 재집계를 위한 소송까지 불사할 것이라고 경고를 했다. 그렇다면 왜 이렇게 참가자 수의 크기를 놓고 실랑이를 벌일까? 아마도 그들의 정치적인 영향력을 축소하거나 과시하려는 의도 때문일 것이다. 지난 1963년에 워싱턴의 같은 장소에서 흑인 민권운동가 마틴 루터 킹 목사가 주도한 집회에는 20만 명이 모였다. 그 집회에서 킹 목사는나에겐 꿈이 있다(I have a dream)"라는 유명한 연설을 함으로써 흑인민권운동을 한 단계 발전시킨 적이 있다. 흑인지도자를 꿈꾸는 패러칸은 그의 영향력을 과시하기 위해서 참가자 수를 늘렸던 것이고, 경찰 측에서는 과격한 노선으로 물의를 빚고 있는 패러칸의 영향력을 축소하기 위해서 숫자를 줄이려고 했던 것이다.

 

 

세계 인구는 급격히 늘어나고 있는데 반대로 인구가 줄어들고 있다고 주장하는 사람들도 있다. 그들 궤변의 논리는 이렇다. 사람마다 2명의 부모를 가지고 있고 부모는 또 각각 2명씩의 부모가 있다. , 한 사람에게는 4명의 조부모가 있다. 그런데 그 조부모들에게는 또 각각 2명의 부모가 있다. 이렇게 조상의 수는 한 세대를 올라갈수록 두 배씩 늘어난다. 이런 식으로 중세까지만 올라가도 한 사람의 조상의 수는 1백만 명이 넘으니까 중세시대의 인구는 오늘날의 1백만 배가 넘는다는 주장이다. 무엇이 잘못됐을까? 바로 조상이 이중 계산 된 것이다. 내 동생의 모든 조상들과 나의 모든 조상이 같은데 그들이 다른 사람으로 계산이 된 것이다.이런 이중 계산방식은 오늘날에도 여전히 존재하고 있다. 자동차, 조선, 중공업 회사들이 파업을 할 때면 그 파업으로 인한 손실이 하루에 수백억 원이나 된다고 언론에서 발표된다. 자동차 공장이 파업하는 경우 피해액은 공장에서 생산돼야 할 자동차 값이 대부분을 차지한다. 그런데 여기에다가 부품회사의 손실 등이 덧붙여진다. 하지만 자동차 값에 이미 부품 값과 부품회사의 마진이 다 포함돼 있다. 물론 파업으로 인한 국가의 손실을 막기 위해서 파업이 빨리 해결이 돼야 하겠지만 그렇다고 해서 파업으로 인한 손실을 이중계산으로 부풀릴 필요는 없다.

 

<자본론>으로 유명한 마르크스(Karl Marx) 역시 엉터리 계산으로 유명하다. 그는 <자본론>에서 많은 가정을 바탕으로 필요한 계산을 전개해 나간다. 예를 들어 방적공장에서의 잉여가치율을 계산할 때 이렇게 가정한다.

 

“쓰레기는 6% 가정한다.… 원료비는 어림수로 약 342파운드라 한다. 1만 개의 방추는 한 개의 원가가 1파운드라 가정하고…, 마모로 인한 손실률은 10%라 하자.… 공장건물의 임대료는 300파운드라 추정해둔다.…”

 

그의 이런 가정은 어디에 근거를 뒀을까? 마르크스는나는 이와 같은 믿을 만한 데이터를 맨체스터의 어떤 방적공장 주인으로부터 입수했다고 밝히고 있다. 그의 가정이 어떤 한 사람의 방적공장 주인의 말에 달려 있었다는 사실을 그가 잉여노동시간이라든지 잉여가치율 등에 대해 계산한 결과들이 얼마나 설득력이 낮은지를 입증한다.

 

쩨쩨하게 숫자 갖고 따져

 

그렇다면 왜 사람들은 상대방이 자신의 주장을 그럴듯하게 포장하려고 전혀 근거가 없는 어림수를 들이댈 때 이를 따지거나 반박도 하지 못하는 것일까? 여러 원인이 있겠지만 그 중에서도 숫자를 중요하게 생각하지 않는 우리의 관습, 숫자는 틀려도 괜찮다는 너그러움(?)이 큰 원인이라고 생각한다. 그리고 그 관습의 뿌리는 깊다. 예를 들면 연암(燕巖) 박지원(朴趾源) <양반전>에는 양반은손으로 돈을 만지지 말며 쌀값을 묻지 않는다라고 규정돼 있다. 상업을 천하게 여기는 사회 속에서 수리적인 지식은 양반이 갖춰야 할 교양에 들지 못했고 마을 서당에서도 수에 관한 지식은 일절 가르치지 않았다. 이렇게 숫자를 무시하는 관습은 현재까지 이어져 숫자를 따지는 사람은 쩨쩨한 사람이 되고 숫자를 다룰 때 실수를 하면 오히려 계산적이지 않은 사람이라는 것을 입증이나 한 듯이 떳떳해 하는 것은 아닐까. 아 다르고 어 다르다며 말의 미묘한 차이를 열을 내며 따지는 사람들이 간단한 숫자의 속뜻을 제대로 이해하지 못하고도 당황해하지 않고 오히려 드러내놓고 과시하기도 한다. 유명 인사들이 TV 방송에 나와서 종종 숫자에 대한 무지를 드러내곤 하지만 그것은 가십거리조차 되지 않는다. 이처럼 숫자에 대한 무지에 대해 자만심을 갖고 자랑하는 태도나 이를 관대하게 봐주는 사람들의 태도는 동서양의 공통적인 현상으로 숫자를 올바로 이해하는 것을 방해해 수문맹이 되게 하는 중요한 원인으로 작용하고 있다. <그림 1>야구경기는 (9회 말이) 끝날 때까지는 끝난 것이 아니다라는 말로 유명한 메이저리그의 강타자 요기 베라(Yogi Berra)라는 사람이 한 말인데 미국의 신문광고에서 사용한 것을 그대로 옮긴 것이다.

 

 

야구에 있어서 타격의 90%가 정신적인 것이라면 나머지는 반(50%)이 아니라 10%이고 따라서나머지 10%는 신체적인 것이다라고 해야 함에도 불구하고 거리낌 없이 숫자에 대한 무지를 드러내고 있다. 또한 사람들은 그 말을 역시 요기 베라 다운 말로써 받아들이고 있어 광고에 인용되기까지 한다. 만일 에디슨이천재의 99%는 땀이고 나머지 반은 영감이다라고 했다면 당황했을 사람들이 똑같은 잘못을 한 요기 베라의 말에 전혀 어색함이 없어 하는 것이다. 즉 많은 사람들이 갖는숫자는 틀려도 괜찮다는 너그러운 태도가 숫자에 대한 무지를 개선해야 된다는 생각을 가로 막고 있다.

 

 

또한 어림수는 그야말로 어림짐작으로 추정한 수이니까 그렇게 정확할 필요는 없다는 생각도숫자는 틀려도 괜찮다는 너그러운 태도를 더욱 부추긴다. 아무리 어림수 추정이라도 객관적인 근거에 입각하지 않은 추정이라면 정확한 사실의 파악과 의사소통에 큰 문제가 생긴다. 예를 들어 시위나 집회에 참가한 군중의 수에 대한 추산은 객관적인 추정의 방법을 적용한다면 그렇게 숫자에서 차이가 날 수는 없을 것이다. 예를 들어 서울시청 앞에서의 집회라면 우선 약 3.3제곱미터, 즉 평()당 인원을 추산해야 한다. 시민들이 빼곡히 앉아 있으면 평당 9명으로 추산하면 되고 다소 여유 있게 앉아 있으면 6명으로 계산하면 된다. 또 촘촘하게 서 있을 때는 15, 좀 여유 있게 서 있을 땐 10명으로 보면 된다. 이 평()당 인원에 모인 장소의 넓이(분수대 광장 혹은 소공로와 을지로 등 광장 주변)를 곱하면 객관적인 추정치가 나오므로 그 숫자가 크게 차이가 날 수 없다. 다른 예를 들어 보자. 연못 속에 사는 물고기 수나 들판에 사는 쥐의 수 등을 객관적으로 추정할 수 있을까? 물론이다. 생물학자들은 이런 추정에 대해서 실제로는 매우 신뢰할 만한 근거로 추정치를 계산한다. 연못 속의 물고기를 추정한다면 처음에 연못에서 100마리의 물고기를 표본으로 잡는다. 물고기 지느러미에 작은 인식표를 붙이고 다시 연못 속에 놓아준다. 한 달 후에 다시 100마리의 물고기를 표본으로 잡는다. 새로 잡은 100마리 중에서 지느러미에 인식표가 달려 있는 물고기가 몇 마리인지 센다. 예를 들어 인식표를 단 물고기가 3마리라고 하자. 그렇다면 전에 인식표를 달아준 100마리의 물고기가 호수 안의 전체 물고기의 3%라고 추정을 한다. 따라서 전체 물고기 수는 (100/3) × 100 로 계산해 약 3300마리가 된다.

 

추정치의 정확도가 매우 중요한 경우에 표본으로부터 얻은 자료로부터 더욱 정교한 방법으로 전체의 크기를 추정했던 놀라운 사례는 2차 대전 중에 있었다. 미국과 영국의 연합군은 독일의 군수장비 생산량을 알아내기 위해서 통계학자에게 독일군으로부터 노획한 장비에 적혀 있는 일련번호를 이용해 각 장비의 생산량을 추정하도록 했다. 그 과정은 1부터 일련번호가 적힌 구슬이 들어 있는 항아리에서 표본을 꺼내서 표본의 크기와 최고 높은 일련번호를 이용한 간단한 공식으로 전체 구슬의 수를 추정하는 것과 다름이 없었다. 전쟁이 끝난 후에 확인한 바에 따르면 이러한 추정치의 대부분은 독일이 생산한 장비들의 수와 거의 일치할 정도로 정확했다. 더욱이 연합군의 추정치는 독일의 수치보다 훨씬 신속하게 계산됐다. 왜냐하면 연합군은 표본조사의 방법을 적용했고 독일은 생산이 완전히 끝났을 때 수치를 집계했기 때문이다.예를 들어 전쟁이 끝날 때까지 계속 생산됐던 V-2 미사일의 경우 독일은 그 미사일의 전체 생산량을 몰랐지만 연합군은 미사일이 발사될 때마다 생산량을 추정할 수 있었다. 물론 추정된 미사일 숫자도 전후에 실시한 조사 결과 매우 정확한 것으로 입증됐다.

 

어림수 대응

 

상대방이 어림수를 들이 댈 때는 어떻게 해야 할까? 어림수로 남을 속이려는 사람들의 공통적인 특징은 그들이 사용하는 어림수가 어떻게 계산됐는지를 설명하는 법이 없다는 것이다. 어림수를 대하면 우선 상식적으로 생각하는 것이 좋다. 상대방이 사용하는 어림수가 상식적으로 판단해서 이상하다고 생각되면 그 어림수의 근거에 대해 질문을 해봐야 한다. 상대방이 근거를 대지 못하고 당황해 한다면 억지로 꾸며댄 숫자가 틀림없다. 믿을 만한 근거를 댄다고 해도 여전히 아전인수 격으로 꿰맞춘 것일 수도 있으므로 상대방의 주장을 입증하는 추가적인 증거(숫자)가 있느냐고 물어보는 것도 좋은 방법이다. 요약하면 숫자의 권위를 이용하는 어림수에 휘둘리지 않으려면 자신에게 제시되는 모든 숫자를 우선 의심하는 태도를 가져야 한다. 의심을 통해서만이 확신을 얻을 수 있기 때문이다. 영국 시인이자 비평가인 랭(Andrew Lang)사람들은 마치 비틀거리는 술주정꾼이 가로등을 이용하듯이 숫자를 이용한다고 말했다. 술 취한 사람들이 가로등을 비틀거리는 몸을 가누는 데 사용하듯이 사람들도 자신의 주장을 그럴듯하게 포장하기 위해서 숫자를 이용한다는 의미다. 이렇듯 사람들은 종종 숫자를 이용해서 거짓말을 하거나 숫자를 자신의 의도에 맞춰서 해석하기 때문에 숫자에 대한 경계심을 갖고 제시된 숫자에 대해 좀 더 알게 될 때까지는 숫자를 믿지 마라. 구체적으로 숫자에 대한 의심은 다음의 세 가지 차원에서 이뤄진다.

 

관련성:숫자가 중요한 의미를 가지려면 해당 주제나 문제와 직접적으로 관련돼야 한다. 우리가 토론하거나 해결하려는 문제와 직접적으로 관련된 숫자가 아니라면 그 숫자는 무의미한 것이다.

 

정확성:문제와 관련된 숫자라도 정확하지 않으면 없느니만 못하다. 숫자의 정확성은 누가, 어떻게 그 숫자를 만들어 냈고, 왜 그런 방법을 사용했는지, 혹시 어떤 의도가 개입돼 있지는 않은지를 생각함으로써 판단이 가능하다. 이런 의문을 설득력 있게 통과하지 못하는 숫자는 효용 가치가 없다.

 

올바른 해석:숫자는 그 자체로써 아무런 의미가 없고 그 숫자를 어떻게 해석하느냐가 중요하다. 문제와 직접적으로 관련된 정확한 숫자라도 잘못 해석되면 엉뚱한 결론을 낳을 수 있다. 특히 다른 의도를 가진 사람들은 숫자를 의도적으로 왜곡해서 해석하는 경향이 있다. 같은 숫자일지라도 해석에 따라 전혀 다른 결론을 내린 예를 들어 보자. 미국의 한 선거에서 22쌍의 부부의 투표성향을 분석했더니 22명의 아내 중에서 단지 한 명만이 남편과 다르게 투표를 했고 나머지는 모두 남편과 같이 (남편이 표를 던진 후보에게) 투표를 한 것으로 나타났다. 이 결과를 놓고 여성 운동가들은 불만스러운 것으로 해석했다. 여성이 자기의 의견에 따라 투표를 하는 여성이 22쌍 중에 단지 한 명뿐이라는 사실은 여성운동이 가야 할 길이 멀다는 해석이었다. 하지만 이런 해석과는 반대로 여성운동이 매우 큰 성공을 거두도 있다고 해석할 수도 있다. 왜냐하면 22명의 남편 중에서 부인과 다르게 투표를 할 용기를 가진 남편은 겨우 한 명뿐이었으니까.15 22명의 부부 중에서 한 쌍만이 서로 다르게 투표했다는 숫자는 누가 누구를 쫓아서 투표를 했는지를 말해주지는 않는다. 이처럼 숫자를 올바르게 해석하지 않는 이유는 별도의 숨은 의도가 있기 때문이다. 따라서 숫자에 대한 해석이 해결하려는 문제와 관련지어서 적절한지를 항상 의심해야 한다.

 

 

사실 일상에서의 대화나 토론 혹은 회사 업무에서의 보고 등에 들어 있는 숫자는 매우 중요하다. 왜냐 하면 그 숫자 속에는 상대방이 무엇에 대해서 어떤 과정을 거쳐서 어떻게 생각하고 있느냐가 함축돼 있기 때문이다. 하지만 사람들은 많은 경우에 숫자를 대하는 데 자신 없어 하는 경우가 많고, 심지어는 터무니없는 어림수에도 반박은커녕 주눅이 들기도 한다. 모바일 디바이스, 센서, 소셜미디어가 데이터의 폭증을 주도하고 있는 빅데이터 시대에 자신만의 경쟁력을 갖추려면 숫자로부터 올바른 판단을 끄집어내거나 이러한 숫자에 기초해서 다른 주장을 반박할 수 있는 능력을 키워야 할 것

이다.

 

김진호서울과학종합대학원 빅데이터 MBA 주임교수 jhkim6@assist.ac.kr

 

필자는 서울대 경영대학을 졸업하고 펜실베이니아대(Wharton School)에서 경영학 석사와 박사 학위를 받았다(통계학 부전공). 사회와 기업의 다양한 문제들을 계량 분석적으로 접근하는 연구를 주로 했다. 개인의 분석능력을 키워주는 교육프로그램을 개발해 여러 기업에서 운영하기도 했다. 최근 저서로 <말로만 말고 숫자를 대 봐(엠지엠티북스)> 등이 있으며 최근 역서에는 <빅데이터@워크>가 있다.

인기기사