로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Power of Analysis

평균으로의 회귀 vs. 도박사의 오류, 숫자로 가득한 세상, 확률을 이해하라

김진호 | 167호 (2014년 12월 Issue 2)

Article at a Glance – 혁신, 자기계발

 

주사위를 던졌는데 다섯 번 연속 홀수가 나왔다면 사람들은 이제 짝수가 나올 차례라고 생각한다. 최근에 안 나온 숫자일수록 이번에는 나올 확률이 높다고 판단하는도박사의 오류. 물론 주사위를 던졌을 때 짝수 또는 홀수가 나올 확률은 각각 2분의 1이다. 이는 수없이 많이 주사위를 던져 확인한 결과다. 10만 번, 20만 번쯤 던지면 짝수와 홀수가 나오는 비율이 비슷해지겠지만 그 많은 시도 중에 일부는 홀수 또는 짝수만 연속적으로 등장하는 일이 얼마든지 가능하다. 여섯 번째에도 홀수가 나올 확률이 여전히 2분의 1이라는 의미기도 하다. 이 밖에도 사람들이 오류를 범하는 확률적 개념에는평균으로의 회귀’ ‘유용성의 오류등이 있다.

 

 

확률의 함정

 

일기예보, 로또, 질병, 사고, 보험 등 일상생활에서 일어나는 많은 현상이 모두 확률과 관계가 있다. 신문과 방송에는 로또 1등 명당, 머피의 법칙, 위성 발사가 성공할 확률, 흡연자가 폐암에 걸릴 확률 등 확률과 관련된 숫자, 용어, 정보 등이 끊임없이 등장한다. 프랑스 수학자인 라플라스가 인생에서 가장 중요한 문제들은 대부분 확률적 선택의 문제라고 한 것처럼 확률은 우리 생활 깊숙이 자리 잡고 있다. 문제는 확률에 대한 사람들의 이해가 매우 낮다는 것이다. 확률이 낯설게 느껴지는 이유 중 하나는 확률이 사람들의 직관과 크게 다른 경우가 많기 때문일 것이다. 두 사람의 생일이 같을 경우를 예를 들어보자. 1년을 365일이라고 할 때 만약 366명의 사람들이 모여 있다면 그 집단에서 적어도 두 사람은 틀림없이 100%의 확률로 생일이 같다. 그런데 이 확률이 100%가 아니고 50%라면 어떨까? 즉 생일이 같은 사람이 적어도 두 사람일 확률이 50%가 되기 위해선 이 집단에 몇 명이 있어야 할까? 사람들은 직관적으로 366명의 2분의 1 183명이라고 생각하기 쉽다. 하지만 정답은 놀랍게도 단지 23명이다. 다시 말하면 아무렇게나 모인 23명 중에서 적어도 두 사람이 생일이 같을 확률이 50%인 것이다. 이를 쉽게 풀어 보면 다음과 같다.1

 

 

K 명에 따른 확률을 정리하면 아래의 표와 같다.

 

 

표에서 볼 수 있듯 생일이 같은 사람이 적어도 두 사람일 확률이 50%가 되기 위해서는 이 집단에 23명만 있으면 된다. 집단에 40명이 있다면 거의(90%) 생일이 같은 사람이 있다. 우리나라 초등학교의 학생 수가 25명 전후인 지역에서는 평균적으로 두 학급마다 생일이 같은 학생이 있는 것이며 학생 수가 40명 전후라면 거의(90%) 모든 반에 생일이 같은 학생이 있다는 의미다. 따라서 반에 생일이 같은 학생이 있다는 것은 놀랄 만한 인연이 아니라 자연스럽게 일어나는 현상이다.

 

우리나라의 로또는 1부터 45까지의 숫자 중에 6개의 숫자를 뽑는다. 로또를 사려는데 자칭 로또 전문가라고 하는 친구가과거 로또에서 15라는 숫자가 한 번도 1등 번호에 나온 적이 없으니 이번에는 꼭 15를 찍어라고 충고했다면 그의 충고를 들어야 할까? 심지어 인터넷에는 로또 1등에 당첨될 번호를 알려준다는 유료 사이트도 많다. 이 사이트들은 과학적 로또 당첨번호 시스템이니, 통계적 패턴 분석이니 하는 말들로 선전하며 사이트에 가입해서 1등 예상번호를 받으라고 유혹한다. 하지만 과거 로또에서 어떤 숫자가 많이 나왔든, 혹은 적게 나왔든 45개의 숫자 중에 어느 한 숫자가 뽑힐 확률은 동일하다. 유료 사이트들에서 광고하는 내용이야말로 확률에서 나타나는 대표적 오류다. 사람들은 최근에 안 나온 숫자가 이번에는 나올 확률이 높다고 판단하는데 이를도박사의 오류라고 한다.

 

도박사의 오류

얼마 전 TV에서 부산 딸부잣집 부부와 일곱 명의 딸이 출연한 프로그램을 본 적이 있다. 프로그램 중간에 사회자가어쩌다 딸만 일곱을 낳았습니까라고 묻자 어머니가 이렇게 답했다. “딸을 셋 낳으니 사람들이딸 셋을 잇달아 낳으면 다음 아이는 틀림없이 아들이라고 하기에 낳았더니 또 딸이더라.” 방청객들은 큰 웃음을 터뜨렸다. 이 말에는 간단히 웃어넘길 수 없는 확률적 오류가 있다. 어느 경우에나 아들을 낳을 확률은 2분의 1이다. 새로 태어날 아기는 그전에 언니들이 줄줄이 있었는지를 알지 못한다. 따라서 잇달아 딸 다섯을 낳았거나 아들을 다섯 낳았더라도 다음에 아들 또는 딸을 낳을 확률은 여전히 2분의 1이다. 하지만 사람들은 딸을 셋 잇달아 낳으면 다음에 아들을 낳을 확률이 2분의 1보다 높아진다고 생각한다. 이것 역시도박사의 오류에 해당한다.

 

카지노에는 룰렛(roulette)이라는 게임이 있다. 0에서 36까지 숫자가 적힌 원판을 돌리면서 그 위에 구슬을 떨어뜨린 뒤 구슬이 어떤 숫자에서 멈추는지를 맞추는 게임이다. 사람들은 다양한 방법으로 숫자에 돈을 건다. 만약 숫자를 맞추면 정해진 배당을 받는다. 대부분의 도박사들은, 예컨대 여섯 번 연속 홀수가 나왔으면 다음에는 틀림없이 짝수가 나올 것이라고 생각하면서 짝수에 상당한 돈을 건다. 이처럼 앞서서 홀수가 여러 번 나왔을 때 다음번에 짝수가 나올 확률이 2분의 1보다 높아질 것으로 생각하는 것이 바로 도박사의 오류다. 룰렛의 구슬은 앞에서 어떤 숫자가 나왔는지 전혀 기억하지 못하는데 도박사들은 구슬이 그 숫자들을 기억할 것이라고 기대하는 오류를 범한다. 도박사들의 기대와는 관계없이 어떤 경우에도 다음에 홀수가 나올 확률은 2분의 1이다. 그러나 사람들은 이런 판단이 잘못된 것이라고 생각하지 않고 여전히 자신의 생각을 고집할 때가 많다. 소설가로 유명한 에드가 포(Edgar Poe)는 주사위 게임에서 2가 연속 다섯 번 나왔다면 여섯 번째 시도에서 2가 나올 확률이 6분의 1보다 작을 것이라는 주장을 끝내 꺾지 않았다.

 

 

1차 세계대전 중에 실제로 있었던 일이다. 전쟁터에서 포탄이 떨어질 때 병사들은 새로 만들어진 포탄구덩이, 즉 방금 포탄이 떨어진 장소에 몸을 숨기라는 교육을 받았다. 아마도 같은 날 같은 장소에 두 번이나 포탄이 떨어질 가능성이 거의 없다고 생각한 교육이었을 것이다. 그러나 이것 역시 도박사의 오류와 유사한 오류다. 동전을 던져 앞면이 나왔다는 사실이 다시 동전을 던졌을 때 앞면이 나올 확률을 낮게 하지 않는다. 마찬가지로 어느 지점에 포탄이 떨어졌다는 사실이 다시 그 지점에 포탄이 떨어질 확률을 낮춰주지 않는다. 그래도 포탄자리에 몸을 숨기는 것이 안전하다고 생각하는 사람들을 위해 간단한 예를 들어보자. 항아리에 1에서 20까지 새겨진 스무 개의 공이 있다고 하자. 그 항아리에서 7이 적힌 공을 꺼낼 확률은 20분의 1이다. 항아리에서 공을 두 번 꺼낸다고 할 때(한 번 꺼낸 공은 다시 항아리에 넣음) 두 번 모두 7이 적힌 공을 꺼낼 확률은 1/20x1/20, 1/400이다. 같은 공을 두 번 연속해서 꺼낼 확률은 한 번 꺼낼 확률보다 매우 작다. 처음 꺼낸 공이 7이라는 것을 알더라도 그 다음에 7이 적힌 공을 꺼낼 확률은 여전히 20분의 1이다. 어느 한 지점에 포탄이 떨어진 것을 알더라도 그 자리에 포탄이 다시 떨어질 확률은 다른 곳에 포탄이 떨어질 확률과 여전히 같은 것도 이런 이치다.

 

 

야구경기는 확률의 경기라고들 한다. 그만큼 야구에서는 작전을 펼칠 때 확률적 분석이 많이 고려된다. 어느 경기의 7회 초, 한 선수가 4번째 타석에 등장했다고 하자. 이 선수는 3할대의 타자인데 이전의 세 타석에서는 모두 범타로 물러났다. 이때 해설자는 이렇게 말한다. “이 선수는 잘 치는 선수죠. 지금까지 세 번 모두 안타가 없었으니까 이제 한 방 나올 때가 됐어요. 투수는 이 선수를 조심해야죠.” 3할대 타자란 많은 타석 중에서 평균이 3할대라는 의미다. 이 타자가 3타석마다 안타를 때린다는 말은 아니다. 오랫동안 안타를 때리지 못하기도 하고 연속으로 안타를 때리기도 한다는 의미다. 딸 다섯을 낳았다고 다음 아이가 아들이 아니듯 그때까지 안타가 없었다고 이제 안타를 때릴 차례가 됐다는 의미는 아니다. 반대의 상황을 생각해보면 더 재미있다. 이번에는 이 타자가 이전의 세 타석에서 모두 안타를 때렸다고 가정해보자. 앞의 상황과 같은 논리라면 해설자는 이렇게 말해야 일관성 있는 해설을 하는 셈이 된다. “이 선수는 3할대 타자인데 지금까지 3번 모두 안타를 쳤으니 이제는 범타로 물러날 차례입니다. 투수는 이 선수를 조심할 필요가 없어요.” 그러나 이런 식으로 말하는 해설자는 없을 것이다. 대부분이 선수 오늘 잘 맞고 있어요. 투수는 이 선수를 정말 조심해야 합니다라고 할 것이다.

 

야구에서 타율을 해석하는 것과 유사한 농담이 있다. 심각한 병으로 수술을 받게 된 환자가 수술을 담당한 의사에게 수술이 성공해서 살아날 확률이 얼마냐고 물었다. 의사는 이 수술이 성공할 확률은 1%밖에 안 된다고 답했다. 크게 실망한 환자에게 의사는 의외로 밝은 표정을 지으며 말했다. “걱정 마세요, 당신은 틀림없이 살아날 테니. 수술이 성공할 확률은 1%밖에 안 되지만 지금까지 내가 수술한 99명의 환자가 죽었으니 100번째 환자인 당신은 틀림없이 살아날 거요.” 여기서 의사의 말이 왜 옳지 않은지 반복해서 설명할 필요는 없을 것이다. 여기서도 반대의 상황을 생각해보자. 만일 이 의사가 수술한 첫 번째 환자가 살아났다면 어떨까. 다음에 수술을 받을 환자들은 이 의사의 수술을 거부할지도 모른다. 하지만 실제로는 각 환자에게 제각기 1%의 성공 확률이 있다.

 

사람들은 왜 이렇게 잘못된 판단을 할까? 사람들은 동전을 던질 때, 앞면-뒷면-앞면-뒷면-앞면-뒷면이 나올 확률이 앞면-앞면-앞면-앞면-앞면-앞면이 나올 확률보다 훨씬 높다고 생각한다. 앞면이 나올 확률이 2분의 1이므로 몇 번의 시도에서도 앞면과 뒷면이 나오는 횟수가 비슷하게 균형을 이루기를 기대하는 것이다. 그러나 동전을 만 번 던질 때 앞면이 나올 확률은 2분의 1이지만 10번을 던질 때는 반드시 앞면 5, 뒷면 5번이 아니라 앞면만 10번 나올 수도 있다. 룰렛에서도 홀수가 나올 확률은 수없이 많이 시도했을 때 비로소 2분의 1이 된다. 도박사의 오류는 사람들이 판단할 때 일어나는 대표성 오류(representativeness bias)의 한 예이기도 하다.2 이를 같은 평균의 법칙(law of averages) 혹은 대수(大數)의 법칙(law of large numbers)라고 한다. 이 법칙은 시도(혹은 실험)를 반복하면 반복할수록 원래의 이론적 확률에 접근한다는 것을 의미한다. 즉 룰렛에서 홀수가 나올 확률은 수많은 시도(혹은 실험)를 했을 때 2분의 1이 된다는 의미다. 여기서의수많은 시도는 사람들이 흔히 생각하는 것보다 훨씬 많은 시도를 의미한다. 시간의 흐름 위에 대수의 법칙이 존재하는 셈이다.3 그 많은 시도 중에 부분적으로는 홀수만 연속적으로 나온다고 해도 결코 이상한 일이 아니다. 소설이기는 하지만 흥부전에 나오는 흥부처럼 아들만 18명을 낳을 수도 있다.

 

사람들은 독립적인 사건을 종속적인 것처럼 혼동하기도 한다. 내가 빨간 넥타이를 할 확률과 당신이 아침식사에서 굴비를 먹을 확률은 아무 관계가 없는, 서로 독립적 사건에서 비롯된다. 반대로 사건 A가 사건 B에 영향을 미칠 때는 사건 B가 사건 A에 종속적이라고 표현한다. 예를 들어 내일 우산을 들고 나갈 확률은 내일 비가 올 확률에 종속적이다. 비올 확률의 크기에 따라 우산을 들고 갈 확률이 영향을 받는다. 아들을 낳을 확률은 그전에 딸을 낳았다는 사실과 전혀 관계없이 독립적이다. 앞에서 홀수가 연달아 나왔다는 사실은 다음에 홀수가 나올 확률과 아무 관계가 없다. 이렇게 독립적인 사건들을 어떤 관계가 있는 종속적 사건으로 볼 때 도박사의 오류와 같은 판단의 잘못이 발생한다.

 

유용성의 오류

사람들은 어떤 사건의 확률을 평가할 때 쉽게 기억나는 사건일수록 확률을 높게 평가하는 경향이 있다. 이를 유용성의 오류(availability bias)라고 한다. 예를 들어보자. 살인사건으로 죽을 확률과 자살할 확률 중 사람들은 어떤 확률이 더 높다고 생각할까? 대부분의 사람들은 살인사건으로 죽을 확률이 훨씬 크다고 생각할 것이다. 살인사건은 대개 매스컴에 크고 자세히 다뤄지므로 사람들이 쉽게 떠올리는 반면 자살사건은 거의 보도가 되지 않아 기억에 남는 사건이 별로 없기 때문이다. 그러나 실제로는 자살로 죽는 사람 수가 더 많다. 심지어는 세계 50억 명 인구 가운데 어떤 사람이 당신을 죽일 확률을 모두 더한다고 해도 그 확률은 당신이 자살할 확률보다 여전히 작다.4 많은 사람들이 자동차여행보다 비행기여행이 훨씬 위험하다고 생각한다. TV 뉴스에서 본 비행기 사고의 장면에 대한 기억이 그렇게 판단하도록 만든 결과다. 하지만 실제로는 비행기 여행이 훨씬 안전하다.

 

사람들의 경험 중에서도 어떤 것들은 머리에 오래 남는다. 감동적인 장면이라든가 매우 슬펐던 기억 등은 상대적으로 쉽게 다시 떠올릴 수 있다. 그런 기억 중 하나가 일이 잘 풀리지 않고 꼬였던 경험일 것이다. 그런 기억은 쉽게 되살릴 수 있으므로 사람들은 그런 사건들의 확률이 매우 높은 것으로 착각하고 심지어는 그런 착각이 어떤 법칙인 것처럼 생각해머피의 법칙이라는 이름까지 붙였다. 그룹 DJ DOC머피의 법칙이라는 노래에서미팅에 나가저 애만 안 걸렸으면…’ 하는 애가 꼭 짝이 되고, 오랜만에 동네 목욕탕에 가면 정기휴일이 걸린다고 투덜댔다. 머피의 법칙이란잘못될 가능성이 있는 것은 반드시 잘못되고야 만다는 내용으로 일이 예상과 달리 자꾸 꼬일 때 사용되는 표현이다. 그러나 머피의 법칙의 원조(元祖)는 우리나라 속담에 있다. ‘(흔하게 널린) 개똥도 약에 쓰려면 없다는 속담이 그것이다.

 

TV 프로그램에서 조사한 몇 가지 머피의 법칙 사례를 보자.5  “급해서 택시를 기다리면 빈 택시가 건너편에 나타난다. 기다리다 못해 길을 건너가면 다시 반대편에 빈 택시가 자주 지나간다” “기다리던 전화는 기다리다 못해 신발끈까지 다 묶고 나가려는 순간에 따르릉 울린다” “운전하다 기름이 떨어져 주유소를 찾으면 주유소는 꼭 반대쪽에 나타난다”. 하지만 머피의 법칙이란 사람들이 자주 일으키는 판단의 착각일 뿐이다. 미팅에서 걸리지 않았으면 하는 여자가 실제로 걸리지 않는 경우가 더 많고, 목욕탕에 가서는 문제없이 목욕 잘하고 오는 경우가 더 많다. 다만 그런 경험은 너무나 평범해서 제대로 기억조차 나지 않을 뿐이다. 마찬가지로 급할 때 빈 택시를 못 잡아 애태웠던 순간이, 기다리다 막 나가는 순간에 온 전화가, 기름이 떨어졌는데 주유소는 건너편에 나타났던 경험 등은 뇌리 속에 오랫동안 새겨져 있는 것이다. 따라서잘못될 가능성이 있는 것은 반드시 잘못되고야 만다는 머피의 법칙은 잘못된 것이다. 이것을 다음과 같이 길게 바꿀 수 있을 것이다. “잘못될 가능성이 있는 것은 우연에 의해 잘못될 수 있다. 그러나 사람들은 잘못됐던 경우만 주로 기억하며 심지어는 잘못된 가능성이 있는 것은 반드시 잘못되고야 만다고 착각까지 하는 것이다.” 따라서머피의 법칙보다는머피의 오류가 더 적합하다고 할 수 있다.

 

2년생 징크스라는 말이 있는데 루키 시즌(rookie season), 즉 데뷔한 첫해에 센세이션을 일으키며 뛰어난 성적을 일으켰던 신인이 2년째에는 대개 저조한 성적을 내는 것을 말한다. 이 현상을 어떻게 설명할 수 있을까? 2년생 징크스는 자연스러운 현상이다. 스포츠에서 뛰어난 성적을 올린 선수는 특별히 실력이 뛰어났거나 아니면 운이 잘 따랐을 것이다. 운이 많이 작용한 선수는 다음 시즌에서는 그렇게 두각을 나타내기 힘들 것이다. 좋은 운이 계속 일어나기는 어렵다. 이 선수는 2년생 징크스라고 불린다. 실력이 작용한 선수들은 다음 해에도 좋은 성적을 낼 것이다. 하지만 그 성적이 지난 시즌만 못하면 역시 2년생 징크스라고 불릴 것이다. 대부분의 스포츠는 실력과 운이 따라야 두각을 나타낼 수 있다. 따라서 첫해에 스타로 떠오른 대부분의 선수들은 2년생 징크스를 자연스럽게 경험할 것이다. 그야말로 천부적 자질이 있는 선수라면 2년생 징크스에 해당되지 않을 수도 있다. 운이 전혀 작용하지 않는 스포츠에서도 2년생 징크스는 없을 것이다. 그러나 그런 선수는 극히 드물고 어느 스포츠에서나 정도의 차이는 있겠지만 운이 작용한다. 어떤 스포츠에서나 어떤 해에 상위 10위권에 들었던 선수들의 성적을 다음 해와 비교해보면 전년도 성적보다 좋지 않은 것이 대부분이다.

 

 

2년생 징크스는 반대로도 작용한다. 즉 운이 나빠서 성적을 제대로 내지 못했던 선수는 다음 해에는 더 나은 성적을 낸다. 실제로 하위 10위권의 선수들 중에 다음 시즌에서 전년도보다 좋은 성적을 보이는 경우가 많다. 고졸 연습생으로 프로구단에 겨우 들어와서 크게 두각을 나타내는, 소위 고졸 연습생의 신화라는 것도 2년생 징크스의 반대 현상으로 생각해 볼 수 있다. 사업에서도 어떤 해에 운 좋게 사업이 잘됐다면 다음 해에는 전년도만 못할 가능성이 크다. 이런 현상을 평균으로의 회귀(regression to the mean)라고 한다. 2년생 징크스는 평균으로의 회귀를 나타내는 것으로 볼 수 있다.

 

사람들은 평균으로의 회귀와 도박사의 오류를 자주 혼동한다. 도박사의 오류란 동전을 던질 때 앞면-뒷면-앞면-뒷면-앞면-뒷면이 나올 확률이 앞면-앞면-앞면-앞면-앞면-앞면이 나올 확률보다 높다고 판단하는 잘못이다. 평균으로의 회귀는 오류가 아니라 통계적으로 자연스러운 현상이다. 동전을 100번 던져서 앞면이 80번 나왔다면 다음에 다시 100번을 던졌을 때는 앞면이 80번 이하가 나올 확률이 그렇지 않을 확률보다 높다. 다시 던졌을 때 앞면이 나올 횟수는 80번이 아닌 평균(50) 쪽으로 되돌아간다(회귀: 回歸)는 의미다.

 

우연의 일치는 있다

사람들이 이해하는 것보다 더 흔하게 일어나는 것이 우연의 일치다. 사람들은 우연의 일치가 일어나기 힘든 일이라는 선입관에 사로잡혀 그것이 우연히 발생할 수도 있는 사건이라는 점을 망각한다. 심지어는 우연의 일치를 어떤 놀랍고 불가사의한 조화의 증거로 간주하기도 한다. 유명한 심리학자인 프로이드(Sigmund Freud)우연의 일치 같은 것은 없다고 단언했고, 심리학자인 융(Carl Jung)도 우연의 불가사의한 측면에 더 관심을 가졌다. 남녀 간의 관계에서 우연의 일치는 필연으로 받아들여진다. 같은 색을 좋아한다거나 취미의 일부분이 같기만 해도 우리의 만남은 우연이 아니라 천생연분의 계시라고 생각하고 싶어 한다. 그러나 아주 오래 전 소크라테스가 이미 말했듯 일어날 것 같지 않은 일들도 가끔 일어난다. 우연의 일치는 지극히 자연스러운 현상이며 실제로 우리의 일상사 속에서 매일 수많은 우연의 일치가 일어난다. 문제는 우연의 일치가 일어나면 사람들은 그것이 일어나기 힘든 일이라는 선입관에 사로잡힌 나머지 그것이 그야말로 우연히 일어날 수도 있는 사건이라는 생각을 미처 못하는 것이다. 그렇게도 많은 우연의 일치에 대해 세상은 직접적인 설명을 하지 않는다. 그렇다고 해서 우연 이외의 근거와 힘을 가정하는 것은 일종의 심리적 착각이다.

 

우연의 일치가 얼마나 흔하게 발생하는지는 다음과 같은 확률 문제로 설명할 수 있다. 만약 1000개의 주소가 적힌 봉투와 1000개의 주소가 적힌 편지를 완전히 섞고 아무렇게나 한 편지를 한 봉투에 넣는다고 하자. 적어도 하나의 편지가 동일한 주소가 적힌 봉투에 담길 확률은 얼마일까? 놀랍게도 그 확률은 63%나 된다.6 이런 실험을 서울 수도권의 사람들(1000만 명으로 가정)을 대상으로 하면 평균 6320명의 사람이 우연에 의해 제대로 된 편지를 받는 셈이다. 우연의 일치의 예는 π(파이)에서도 볼 수 있다. 파이, 즉 원주율은 원둘레를 원의 지름으로 나눈 비율을 말한다. 이 비율은 원의 크기와 상관없이 항상 일정한 상수(constant)로 흔히 3.141592의 근사치로 나타낸다. 그러나 π는 그 값을 정확하게 계산할 수 없는 무리수로서 소수점 이하의 값은 반복되거나 끝나지 않고 계속된다. 이처럼 반복되지 않고 계속되는 π의 소수점 이하 자리는 수학자들뿐만 아니라 일반인들까지 매혹시킨다. 소수점 이하를 계속 계산해보지 않으면 반복되지 않는다는 것을 확신할 수 없다는 생각을 부르는 것이다.7 그래서 어떤 숫자가 반복해서 나오면 혹시 반복이 여기서 시작되는 것은 아닌지 매우 흥분하게 된다. 예를 들어 소수점 71155자리에서는 5555555가 등장한다. 4444444, 8888888, 1212121, 1234567, 7654321 같은 숫자가 나오기도 한다. 그러나 많은 수들이 무작위로 반복되다 보면 위와 같은 숫자들도 우연히 등장할 수 있다고 해야 할 것이다.

 

점 보기

점을 보려는 사람들, 즉 역술에 대한 수요는 현대 문명사회 속에서도 좀처럼 줄어들지 않는다. 입시철이나 새해 등 성수기뿐 아니라 각종 선거로 인한 특수도 있고, 개인의 사회, 경제, 정치적 고민은 사철을 가리지 않고 일어나므로 점에 대한 수요에는 불경기가 없다. 점성술의 역사나 주역(周易)을 고려할 때 사람들은 꽤 오래 전부터 운명적인 것에 깊은 관심을 갖고 있었다는 것을 알 수 있다. 운명론적 사고, 즉 운명은 미리 정해져 있는 것이라는 생각은 사람들로 하여금 그 운명을 미리 엿보고 싶어 하는 욕망을 갖게 한다. 복잡화, 다원화한 현대사회 속에서도 여전한 사람들의 욕망에 무언가 기댈 곳을 제공해 준다는 측면에서 그 필요성이 줄어들지 않는다. 국내 어느 대기업의 회장이 공장 부지를 물색할 때 반드시 지관과 동행했다든지, 신입사원 면접에서 관상을 따졌다는 것은 이미 잘 알려진 이야기다. 이런 현상이 우리나라에만 특유한 것은 아니다. 미국에서도 많은 기업들이 사원을 뽑을 때 고용조건으로 골상검사를 받도록 요구했고, 결혼을 하려는 예비 부부들이 골상학자들에게 조언을 구했다고 한다.8 레이건 전() 대통령도 중요한 결정을 내릴 때 백악관에서 아내 낸시와 함께 점성가를 만난다고 해서 구설수에 오른 적이 있다. 미국 중앙정보국(CIA)에서도 지난 20년간 거액을 들여 심령술사를 고용했다는 사실도 최근에 밝혀진 바 있다. 파울로스(John A. Paulos) 교수는 이런 현상을 다음과 같이 빗대 표현했다.9

 

유명한 실험자인 반 둠훌츠(Van Domholtz)는 벼룩이 가득 들어 있는 병에서 조심스럽게 벼룩 한 마리를 꺼내 뒷다리를 살짝 잘라낸 뒤 큰소리로 벼룩에게 뛰라고 명했다. 그는 벼룩이 움직이지 않았다는 사실을 기록하고는 똑같은 실험을 다른 벼룩에게 했다. 모든 벼룩에게 실험을 마치고 그 결과를 통계적으로 분석한 뒤, 그는벼룩의 귀는 뒷다리에 있다는 결론을 자신만만하게 내렸다. 물론 어리석은 결론이다. 그러나 이보다는 분명하지 않은 맥락에서 내려진 유사한 결론들이 선입견으로 가득 찬 사람들에게는 상당한 영향력을 발휘한다. 이런 결론을 받아들이는 것과 3500년 전에 죽은 사람의 신()의 계시를 받아 예언을 한다고 주장하는 여인의 말을 믿는 것 중 어느 것이 더 어리석은가?

 

예언가나 점쟁이에 대한 평가는 매우 후하다. 평가방식에 문제가 있기 때문이다. 대개는 맞춘 사실만 뉴스거리가 되고 떠벌려진다. 세계적으로 유명한 예언가는 아무래도 16세기에 살았던 노스트라다무스일 것이다. 2차 세계대전, 케네디 암살 등 대형 사건들을 예언했다고 해서 유명한 사람이다. 그러나 그가 그의 예언서(Centuries)에서 3000개가 넘는 예언을 했다는 사실은 사람들이 염두에 두지 않는다. 예언의 정확성을 평가하려면 그의 모든 예언으로부터 무작위로 표본을 추출해 얼마나 맞췄는지를 평가해야 한다. 또한 노스트라다무스의 예언서는 운문(韻文)으로 작성돼 난해하다. 대부분 무슨 예언을 하는 것인지 이해가 쉽지 않다. 그런데도 사람들은 예를 들어히물러가 불을 일으킨다히틀러가 2차 세계대전을 일으킨다는 식으로 잘도 해석한다. 예언의 특징은 항상 애매모호하고 아리송하게 표현된다는데 있다. 그래야 막상 어떤 사건이 발생하면 애매모호한 예언을 아전인수로 해석해 예언이 맞았다고 주장할 수 있다. 어떤 역술인의 점이 몇 %나 맞는지 여부도 그가 본 모든 점에서 무작위 표본을 뽑아 검사해야 한다. 그러나 틀렸다고 항의하는 사람이 없으니 틀린 표본을 구하기 어렵고 그러니 점쟁이마다 맞춘 확률이 높다며 떠벌릴 수 있는 것이다.

 

이제 우리는 빅데이터 시대, 즉 신용카드, 인터넷, 스마트폰, UCC, SNS 등으로 규모를 상상할 수 없을 정도로 데이터가 넘쳐나는 시대를 살고 있다. 이런 환경에서 가장 중요한 것은 먼저 숫자에 대한 두려움을 극복하고 숫자 속에 숨어 있는진실가치를 간파해낼 수 있는 소양을 갖추는 것이다. 그중에서도 확률에 대한 올바른 이해와 판단은 현명한 의사결정을 위해 필수적이다. 지난 회와 이번 회, 두 차례에 걸친 필자의 확률에 대한 글을 읽고 독자들이 확률에 대한 자신감을 가질 수 있기를 바란다.

 

김진호서울과학종합대학원 빅데이터 MBA 주임교수 jhkim6@assist.ac.kr

필자는 서울대 경영대학을 졸업하고 펜실베이니아대(Wharton School)에서 경영학 석사와 박사 학위를 받았다(통계학 부전공). 사회와 기업의 다양한 문제를 계량 분석적으로 접근하는 연구를 주로 했다. 개인의 분석능력을 키워주는 교육 프로그램을 개발해 여러 기업에서 운영하기도 했다. 최근 저서에 <말로만 말고 숫자를 대 봐(엠지엠티북스)> 등이 있으며, 최근 역서에는 <빅데이터@워크>가 있다.

인기기사