로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Power of Analysis

눈을 현혹하는 그래프 기법들 대신 숫자를 정확히 해석할 줄 알아야 한다

김진호 | 196호 (2016년 3월 lssue 1)

Article at a Glance

아무리 좋은 데이터를 훌륭하게 분석했다 하더라도전달이 제대로 되지 않으면 소용이 없다.‘데이터는 스스로 말한다고 하는 건 오만이다. 경영진이 보고를 지루해 하거나 이해할 수 없다면 그들이 분석결과에 입각해 의사결정을 하거나 행동을 취할 가능성은 거의 없다. 그래서 우리는 데이터를 그림으로 만든그래프를 그린다. 그러나 그래프는 만드는 사람의 의도 혹은 실수에 따라 엄청난 왜곡을 만들어낼 수 있다. 따라서 그래프를 만드는 사람들은미적인 기술에만 치중하지 말고 데이터의 본질도 제대로 전달할 수 있도록 노력해야 한다. 그래프를 보는 사람들 역시 그림이 실제의 수치를 제대로 반영하는지 점검해볼 필요가 있다.

 

시각화의 함정

 

지금 우리는 모바일, 사물인터넷 센서, 소셜미디어가 데이터의 폭증을 주도하는 빅데이터 시대를 살아가고 있다. 어느 산업(금융, 마케팅, IT, 생산)에 있든지, 혹은 어떤 조직(대기업, 비영리조직, 소규모 스타트업)에서 일하든지 우리의 세계는 데이터로 넘쳐나고 있다. 이제 빅데이터는 거의 모든 산업과 경영의 기능을 변화시키고 있으며 이런 변화에 적응하지 못하면 살아남을 수 없기 때문에 많은 기업과 공공기관들이 빅데이터의 효율적 활용을 위해 고심하고 있다.

 

빅데이터를 활용한 분석의 첫 단계는 구체적으로 어떤 문제를 해결하기 위해 빅데이터 분석을 할 것인지를 명확히 하는 것이다. 그런 다음에 관련된 데이터를 수집·창출해 분류·저장하고 문제해결에 적합한 기법을 사용해 분석한 뒤 그 결과에서 인사이트를 추출해 의사결정자 혹은 경영층에 전달하는 것이다. 이런 과정은 마치 고리로 연결된 체인과 같아서 모든 고리가 제대로 연결돼야만 효과를 발휘한다. 하지만 이전의 모든 과정을 완벽하게 수행했더라도 마지막 단계인전달’이 잘되지 않으면 분석이 효과를 낼 수 없다. 많은 분석가들은 전통적으로 분석 기법 자체에만 너무 초점을 맞췄고 분석결과를 어떻게 효과적으로 전달할 것인가는 심각하게 고려하지 않았다. 심지어는 분석 결과는스스로 말한다라고 믿고 이 단계에 대해서 신경을 쓰지 않는 경우도 많았다.1

 

하지만 현명한 분석가는 분석결과를 흥미롭고 이해할 수 있는 형태로 제시함으로써 의사결정자(예를 들어 분석 프로젝트를 하도록 지시한 경영자)의 더 많은 주의를 끌고 영감을 줄 수 있다. 즉 전달을 받는 경영자로 하여금 분석결과에 따라 의사결정을 하고 행동을 취하도록 하기 위해서 전달 단계를 중요시하고 많은 시간과 노력을 투입한다. 사실 아무리 훌륭한 분석을 했더라도 그것을 제대로 전달하지 못해 분석결과를 듣는 경영진이 지루해 하거나 이해할 수 없다면 그들이 분석결과에 입각해서 의사결정을 하거나 행동을 취할 가능성은 거의 없다. 예를 들어 분석결과를 표의 형태로 제시하는 것은 분석 결과가 주의를 끌지 못하게 하는 아주 나쁜 방법이다. 거의 모든 경우에 다양한 차트나 그래프를 활용해야 효과적으로 분석내용을 제시할 수 있다. 색이나 움직임 등으로 전달을 생기 있게 할 수 있다면 효과는 더 좋아진다. 다시 말해서 숫자가 나타내는 정보를 시각화해 쉽게 이해할 수 있도록 해서 전달하면 그 효과는 확실하게 달라지는 것이다. 그렇기 때문에 최근에는 빅데이터 분석결과의 효과적인 전달을 위해서 다양한 시각화 솔루션과 툴을 사용하는 사람이 늘고 있다.

 

 

 

많은 숫자나 분석 결과들을 요약해서 잘 설명할 수 있는 가장 효과적인 방법이 그래프 등을 사용해 시각적으로 나타내는 것임은 두말할 필요가 없다. 그래프는 가로축, 세로축, , , 숫자, 글자, 심볼 등을 복합적으로 사용해 양적인 수치를 시각적으로 요약한 것이다. 따라서 그래프를 대하는 사람의 입장에서는 익숙하지도 않은 많은 숫자들을 머리를 써서 생각할 필요도 없이 단지 보는 것만으로도 숫자들 속에 포함된 사실을 파악할 수 있다. 하지만 문제는 그래프를 이용해 정보를 전달할 때 가장 많은 왜곡이 일어난다는 점이다. 왜 그럴까? 많은 숫자(데이터)를 그래프로 그릴 때에는 가능한 한 간단하게 데이터가 갖고 있는 정보를 생기 있는 그림으로 전달해야 한다. 이때 중요한 것은 데이터를 단순화(simplicity)하면서도 데이터가 갖고 있는 사실(fact)을 충실하게(loyalty) 전달해야 한다는 것이다. 하지만 이 두 가지 원칙은 자칫하면 서로 상충하기 쉽다. 그래서 그래프를 그리는 것이 언뜻 보기에 매우 쉬운듯하지만 상당한 기술(art)이 필요하다는 얘기다.실제로 통계 그래프에서 속임수가 가장 많다는 사실은 데이터의 단순화 과정에서 사실에 대한 정확성을 유지하기가 어렵다는 것을 말해준다. 다시 말하면 그래프의 미숙한 사용으로 데이터를 너무 단순화하면 그래프를 부정직하게 그리지는 않았더라도 실제와는 전혀 다른 인상을 주는 그래프가 될 수 있다. 더욱이 그래프를 그리는 사람이 논조를 흐리거나 사실을 의도적으로 왜곡해 그리게 되면 그래프는 사실에서 크게 동떨어지게 된다. 그러므로 그래프가 제시될 때 그것을 비판적으로 볼 수 있는 안목을 길러서 혹시 있을지 모르는, 의도적인 혹은 비의도적인왜곡의 함정에 빠지지 않는 능력을 키우는 것이 매우 중요하다. 이번 글에서는 먼저 그래프를 그릴 때 일어나는 잘못을 가상의 예로 설명한다. 이어서 사실 그대로를 전달하는 데 실패한 실제 그래프의 사례를 분석한 뒤, 끝으로 올바르게 그래프를 보고 그리는 방법에 대해서 설명한다.2

 

우선 숫자를 그래프로

 

그래프 중에서 가장 흔한 것은 선을 이용한 선 그래프다. 선 그래프는 그리기가 쉬울 뿐만 아니라 많은 숫자 속에 숨어 있는 경향을 잘 나타내기 때문에 데이터의 분석이나 예측에 가장 많이 쓰인다. 그러나 데이터의 왜곡이 가장 많이 일어나는 그래프도 선 그래프다. 먼저 가상 사례로 설명을 시작해보자. 고등학교 3학년에 올라가는 나과외 학생은 지난 2년 동안 조집게 과외선생으로부터 영어 과목 과외를 받았다. 조 선생은 그동안 매월 치른 나군의 학력고사의 영어성적을 갖고 나군의 부모님과 함께 3학년에 대비한 영어공부 계획을 논의하기로 돼 있다. 조 선생은 우선 그래프용지에 그동안의 시험성적을 그래프로 나타내봤다. 우선 가로축에는 24번의 시험순서를 표시하고 세로축에는 10점 단위로 점수를 표시했다. 다음에 나군의 월별 영어성적을 표시한 뒤 선을 그어 연결했더니 <그림 1>이 됐다.

 

 

 

<그림 1>은 지난 2년 동안에 영어성적이 매달 어떻게 변화했는가를 잘 나타내고 있다. 가끔씩 성적이 오르내리기는 했지만 지난 2년간 영어성적이 전체적으로는 75점에서 85점으로 10점 정도 상승하고 있다. 또한 그래프의 제일 아래쪽에 0점이 표시돼 있어 점수 간 상호비교도 쉽고 한 번만 봐도 성적변화를 전체적으로 쉽게 이해할 수 있으므로 무난한 그래프라고 할 수 있다. 성적 증가 10점도 그대로 10점 증가처럼 보이고 그 상승경향이 크기는 하지만 유별나게 큰 것도 아니라는 것을 보여주고 있다. 그러나

 

 

약간 인상적으로 만들어볼까?

 

나군의 영어성적이 약간 올라갔기는 했지만 지난 2년간 과외지도를 해온 조 선생의 입장에서는 나군의 부모들에게 성적 증가를 조금 인상적으로 보이게 하고 또 앞으로 계속 과외를 맡기도록 설득을 하려면 아무래도 이 그래프는 만족스럽지 못하다. 그래서 이 그래프에서 빈 공간으로 남아 있는 아랫부분을 잘라본다.

 

<그림 2>에서는 숫자는 같으므로 똑같은 그래프이지만 밑 부분이 잘려져 나갔으므로 성적곡선이 2년 동안 그래프 전체 높이의 3분의 1이나 상승하고 있다. 어떤 속임수를 쓴 것도 아닌데 그래프가 주는 인상은 크게 달라졌다. 잘라진 밑 부분은 보이지 않으므로 약간의 상승도 새 그래프에서는 시각적으로 크게 보이게 되는 것이다. 하지만 성적향상이 눈에 확 띄지는 않는데….

 

작은 차이를 눈에 확 띄게 하려면

 

지난 2년간 받은 고액 과외비를 생각할 때 조 선생은 새 그래프보다도 성적이 더욱 인상적으로 보이게 하는 방법이 없을까 하며 궁리하다가 방법은 단순하지만 대단히 효과가 있는 속임수를 쓰기로 했다. <그림 3>과 같이 그래프의 수직축 눈금을 변화시킴으로써 작은 차이도 눈에 확 띄는 변화로 보일 수 있도록 했다.

 

수직축의 눈금이 75점에서 85점만을 나타내도록 바꿨더니 성적 상승, 즉 조 선생의 과외효과가 매우 두드러지게 나타났다. 이 그래프를 보이면서과외 덕분에 성적이 10점이나 비약적으로 상승했습니다라고 말하면 나군의 부모는 매우 만족스러워서 보너스를 줄지도 모른다고 생각하니 조 선생은 절로 기분이 좋아졌다. 에라, 이왕 내친 김에 좀 더?

 

 

 

골라잡기

 

수평축의 선택 역시 그래프를 그리는 사람이 강조하고자 하는 의도에 맞게 변화시킬 수 있다. 우선 수평축의 시작과 끝의 선택에 있어서 그래프가 원하는 모양이 나오도록 자유롭게 선택을 한다. 조 선생이 나군의 최근 성적변화를 보여주는 그래프가 자기에게 유리하다고 생각되면 18회 이후의 시험성적만으로 <그림 4>와 같은 그래프를 그릴 수 있다. 그동안의 과외수업의 결과로 이제 성적이 안정적, 수직적으로 상승하고 있다고 말하려면 이 그래프가 더 적당하다고 생각해 선택할 수 있는 것이다.

 

또한 수평축에 있어서 눈금의 변화로 데이터의 변화의 정도를 원하는 의도대로 보이게 할 수도 있다. 눈금을 촘촘하게 한다면 변화가 상하로 심하다는 인상을 줄 수 있고 그 반대의 경우에는 변화가 완만하게 진행되고 있다는 느낌을 준다. 만일 조집게 선생이 나과외군의 성적이 오르고 있기는 하지만 기복이 매우 심해서 앞으로는 좀 더 집중적으로 공부할 필요가 있다고 (물론 과외시간과 과외비도 따라서 오르고) 나과외군의 부모님을 설득하고 싶다면 어떤 그래프가 필요할까? 그래프의 수직축이 아니라 수평축을 약간 좁히기만 하면 되는 것이다. 수평축이 축소된 <그림 5>는 나군의 성적기복이 심하다는 인상을 주는 데 충분할 것이다.

 

 

 

밑부분 생략하기

 

이제 가상적인 이야기가 아니라 우리 주위에 있는 실제 예들을 살펴보자. 가장 흔한 사례는 그래프의 밑부분을 잘라내는 것이다. 신문에 제시되는 많은 그래프가 지면절약 등의 이유 때문에 이런 식으로 흔히 그려진다. 이런 그래프는 원래의 차이를 부풀리기는 하지만 속임수가 아니면서도 독자에게 주는 인상은 크게 다르다.

 

화석연료란 태울 때 이산화탄소를 배출하는 석탄, 석유 등의 연료를 말하며 화석연료에서 배출된 이산화탄소는 온실효과에 따른 지구온난화의 주범으로 지목되고 있다. <그림 6>은 지구 환경보호를 위한 화석연료의 사용 억제에 관한 기사에서 각국의 화석연료 의존도를 나타낸 것이다. 프랑스는 의존도가 매우 낮은 52.5%이고 한국은 80.4%로써 프랑스에 비해 한국의 화석연료의존도가 높은 편이다. 하지만 밑이 잘린 그래프에서는 한국의 의존도가 프랑스에 비해 무려 7배 정도 높은 것 같은 인상을 주고 있다. 그래프의 밑부분(0%에서 50%까지)을 생략하면 이처럼 차이를 인상적으로 부풀릴 수 있다. 따라서 그래프는 우리나라가 지구온난화의 주범 같은 인상을 준다. 하지만 실제로 전체 화석연료의 사용량에 있어서 한국은 미국, 프랑스, 일본보다는 훨씬 적다.

 

<그림 7> 2013 2월에서 10월까지의 외환보유액을 나타낸 것이다.3 10월의 외환보유액은 2월에 비해 거의 3배나 되는 것처럼 보이지만 실제로는 증가율이 2.9%에 불과하다.

 

 

 

 

 

뻥튀기를 하듯이

 

<그림 8>은 대럴 허프(Darrel Huff)가 쓴 <통계로 거짓말 하는 방법(How To Lie With Statistics)>이란 책에 제시된 것으로 세로축의 눈금을 바꿈으로써 실제로는 안정된 공무원의 봉급이 수직 상승하고 있는 것처럼 그릴 수도 있음을 보여준다.

 

 

 

그해에 미국 공무원의 총 급여액이 1950만 달러에서 2000만 달러로 불과 4% 증가했는데(왼쪽 그래프) 눈금이 바뀐 오른쪽 그래프에선 무려 400%의 증가로 과장돼 공무원의 봉급이 급상승하고 있다는 잘못된 인상을 강요하고 있다. 똑같은 자료를 가지고도 오른쪽 그래프로는 공무원 봉급이 급상승 중이라고 주장할 수도 있는 것이다.

 

<그림 9>는 한 방송사가 2014 6·4 지방선거를 앞두고 공개한 여론조사 결과의 일부인데 후보별 지지도를 나타내는 막대그래프가 특정 정당에 유리하도록 왜곡돼 그려져서 논란에 휩싸였다. 막대그래프마다 눈금의 기준이 달라 특정 정당 후보가 실제 지지도보다 높은 지지도를 얻은 것처럼 비춰져 논란이 됐던 것이다. 위쪽 그래프는 방송에서 방영된 그래프이고 아래쪽 그래프는 제대로 그린 그래프다.4 서울시장과 충북도지사의 경우에는 위아래의 그래프가 큰 차이가 없다. 하지만 세종시와 경기지사의 경우에는 불과 1%포인트 정도의 차이가 나는 초접전 상황인데도 불구하고(오른쪽 아래의 두 개 그래프), 방영된 그래프에서는(오른쪽 위의 두 개 그래프) 여당 후보가 크게 앞서는 것처럼 보이는 그래프를 내보낸 것이었다. 방송사가 선거를 앞두고 특정 정당에 유리하도록 편향된 보도를 한다는 비난을 받자 뒤늦게 특정 정당에 유리한 모습을 보일 의도는 전혀 없었다고 해명하며 아래의 그래프로 수정해서 대체했다.

 

 

 

실수라고 하기엔

 

그래프를 그리는 사람이 우선 지켜야 할 사항은 그래프 눈금의 크기를 일관성 있게 유지하는 것이다. 그러나 매스컴에 등장하는 그래프에서조차 이런 기본적인 원칙이 지켜지지 않는 경우가 있다. <그림 10>의 예는 그래프를 그리는 사람이 기본적인 원칙조차 제대로 지키지 않고 있음을 보여준다.

 

미국의 주요 일간지 중 하나인 <필라델피아 인콰이어러(The Philadelphia Inquirer)>에 실린 그래프다. 이집트의 카이로에서 열린 세계인구회의에 관한 기사에서 빠르게 증가하는 세계 인구를 그래프로 나타냈다. 수직축은 10(billion) 명 단위로 눈금이 표시돼 있는데 모두 같아야 할 한 눈금(10억 명)의 높이가 제각각이다. 더욱이 그래프 위쪽의 6에서 8 사이의 두 눈금의 높이가(20억 명) 중간 부분 2에서 3의 한 눈금 높이의(10억 명) 3분의 1밖에 되지 않고 있다. 그야말로 똑같아야 할 한 눈금의 높이가 크게 들쑥날쑥하고 있다.

 

 

 

<그림 11>은 주요 국가별 공휴일 현황을 막대그래프로 그린 것이다.5 역시 수직 축의 눈금이 그래프마다 제각각이다. 예를 들어 빨간 사각형으로 나타낸 것과 같이 같은 15일이지만 한국과 일본의 높이가 다르다.

 

 

 

<그림 12>는 최저임금으로 10시간 일해서 벌 수 있는 돈을 그림 것인데 역시 수직축의 눈금이 제각각이다.6 중국에서는 22000원인 붉은 선 높이가 일본에서는 102970원과 같게 그려졌다.

 

 

 

물론 이런 왜곡 주장에 대해 정작 그래프를 작성한 당사자는 각 막대그래프의 위에 구체적인 숫자를 적어 놓았으니까 그 숫자를 참조해서 보면 되지 않느냐고 반박할 수도 있다. 하지만 그래프의 원래 목적이 양적인 숫자들을 시각적으로 요약해 보는 사람이 편하도록 하는 것인데 그래프를 보면서 숫자들의 크기를 다시 비교해야 한다면 그래프를 그리는 취지가 무색해진다. <그림 13>은 한 방송에서 특정 법안의 국회 통과에 대한 여론조사 결과를 파이 형태로 그린 것이다.7  64.0%잘했다응답의 크기가 7.3%잘못했다응답의 크기와 비슷하게 그려졌다. 심지어잘못했다’ 7.3%모르겠다’ 28.7%보다 더 크게 그려졌다. 이 법의 국회통과가 마음에 들지 않는다는 왜곡 의도가 쉽게 드러난다.

 

 

 

이처럼 퍼센티지의 크기를 상호비교가 가능하도록 그리지 않은 사례는 많다. <그림 14>는 한 사건에 대한 검찰 수사와 관련한 여론조사 결과를 그린 것이다.8 역시검찰 발표 신뢰 여부에 대한 응답에서 41.2%신뢰한다는 응답이 50.5%신뢰하지 않는다는 응답보다 더 크게 그려졌다. 그 아래 그래프에서는 31.5%의 크기가 56.4%의 크기보다 거의 두 배나 될 정도다. 역시 어떤 의도에서 이렇게 왜곡했는지를 쉽게 알 수 있는 그래프다.

 

 

 

 

 

엿장수 맘대로

 

<그림 15>는 미국의 클린턴 대통령 취임 이후의 주가지수 변동을 그린 것이다. 클린턴 취임 이후 4개월 동안에 주가지수가 3226에서 3442 6.7% 올랐다. 하지만 이 그래프는 밑 부분을 완전히 없앤 상태에서 그 변화를 화살표로 그렸다. 따라서 6.7%의 증가가 마치 67%의 증가처럼 보이고 있고 제목도주가가 지붕을 뚫고 치솟고 있다라고 붙여져 있다. 그래프의 시작을 화살표의 밑부분으로 그리기 시작하면 아무리 소폭 증가라도 엿장수 마음대로 화살표의 끝을 위치시킴으로써 원하는 만큼 과장해서 표현할 수 있음을 보여준다. 경제를 부흥시키겠다던 클린턴 대통령의 공약대로 경제상황이 나아지고 있다는 것을 보여주기 위한 그래프이지만 화살표와 제목에서 과장하려는 의도가 그대로 엿보인다.

 

 

 

그림도표의 함정

 

선 그래프와 마찬가지로 많이 사용되는 막대그래프는 가장 명확하다는 장점이 있기는 하지만 축의 변화나 눈금의 변화와 같은 왜곡이 여전히 가능하다. 또한 막대그래프는 느낌이 딱딱하고 보기에 재미가 없으므로 이를 생기를 불어넣기 위해 그림도표로 나타내는 경우가 많다. 그러나 그림을 흥미롭게 하는 과정에서 왜곡이 생기는데 다음의 가상적인 예로 설명해보자. <그림 16>의 막대그래프는 어느 지역의 스포츠카의 숫자가 5년 사이에 1000대에서 2000대로 두 배 증가했음을 보여준다.

 

 

 

막대그래프는 막대의 폭이 같으므로 서로 비교가 쉽고 (밑부분이 잘리지 않았다면) 명확하게 크기를 나타낸다. 단지 문제는 보기에 매우 재미가 없다는 것이며 따라서 막대 대신에 물체의 그림을 사용해 <그림 17>과 같이 보기에 재미있는 그림도표로 표현한다.

 

정확한 정보 제공이 목적이면 위쪽의 그림으로 충분하다. 그러나 이 그림은 보는 사람이 주의를 기울이지 않으면 잘못된 인상을 줄 수 있다. 1990년에 비해서 1995년에는 두 대의 스포츠카를 소유하고 있는 것처럼 이해를 할 수도 있는 것이다. 그래서 차를 한 대만 그리되 두 배가 증가된 것을 나타내기 위해서 높이를 2배로 그리면 아래의 그림이 된다.

 

높이만 두 배로 했더니 1995년의 스포츠카가 지프차와 같은 매우 어색한 모양이 됐다. 그래서 높이뿐만 아니라 폭도 2배로 해 어색하지 않은 모양이 되도록 하면 <그림 18>이 된다.

 

대부분의 그림도표에서 그림도 예쁘게 하고 특히 차이를 강조하고 싶을 때 위와 같은 식으로 그림을 그리기 때문에 왜곡이 생기게 되는 것이다. 높이와 폭을 모두 2배로 하면 면적은 2×2=4이므로 4배가 되는 것이다. 더욱이 모든 물체가 그렇듯이 스포츠카도 부피로, 3차원으로 인식되므로 안쪽 길이도 두 배가 돼 부피로는 2×2×2=8, 8배가 된다. 말로는 두 배라고 하지만 예쁜 그림도표는 8배라는 인상을 강요하고 있는 것이다.물론 대부분의 경우 그림 옆에 숫자가 주어지기는 하지만 보는 사람의 입장에서는 그 숫자로 골치 아프게 실제의 차이를 머릿속에서 다시 생각하는 과정을 거치기보다는 그림이 주는 차이를 쉽게 받아들이므로 여기에서 커다란 왜곡이 일어나는 것이다. 올바른 크기의 숫자를 그림 속에서 제시했기 때문에 그림 자체의 크기는 몇 배 씩이나 틀려도 된다는 생각은 매우 느슨한 기준이다(특히 매스컴에 발표되는 그림도표라면). 신문이나 잡지에 등장하는 그림도표는 무미건조한 그래프에 생기를 불어넣기는 하지만 그 과정에서 일어날 수 있는 과장이나 축소에 주의를 기울여야 한다. 실제 사례를 몇 개 들어보자.

 

<그림 19>는 한국, 일본, 중국도시들의 대기 오염도를 나타내는 지도인데 대기오염의 수치를 사각형의 면적으로 나타내고 있다. 오염수치가 0.1인 도시(太原, 石家莊)와 그 두 배가 되는 0.2인 도시(重慶)의 사각형 면적의 차이가 두 배가 아닌 네 배로 그려져 있다. 일차원적인 수치의 차이를 2차원적인 면적의 차이로 나타낼 때 주의를 하지 않으면 이런 그래프를 그리게 된다.

 

 

 

<그림 20>은 시속 10㎞로 달리는 차가 시속 50㎞로 달리는 차보다 탄화수소를 네 배나 더 배출하므로 교통체증이 대기오염을 악화시킨다는 내용의 기사에 곁들여진 멋진 그림도표다. 교통체증에 따른 시간적, 경제적 손실 이외에 교통체증으로 인한 대기오염의 악화를 막기 위해서도 교통 체계의 개선이 시급함을 강조하는 것은 이해가 간다. 그러나 위의 그림은 대기가스가 네 배나 배출된다고 그리고 있으나 실제 그림상에서 배기가스는 부피로 인식되므로 실제로는 4×4×4=64배의 차이로 과장돼 그려져 있다. 그린 사람의 의도가 이해는 되므로 이유 있는(?) 과장이라고 할 수 있지만 너무 과장을 한다면 왜곡된 정보와 인상을 독자에게 줄 수도 있는 것이다.

 

<그림 21>은 한 일간지의 그래픽 뉴스란의 그림도표인데 1994 11월의 일주일 동안 TV 3사를 통해 방송된 38개 드라마와 코미디 프로그램 65회분에 등장한 인물 1212명을 조사한 결과를 나타내고 있다. 막대그래프는 지역별 실제 인구비율을, 사람은 TV 출연 인물의 지역비율을 나타내고 있다. 서울 사람의 TV 출연 비율은 약 53%로 호남 사람의 TV 출연 비율 2.2%에 비해서 약 25배 높은 것으로 조사됐다. 그러나 이 차이를 나타내는 그림도표에서 서울, 전라 사람의 크기는 높이, , 그리고 안쪽 길이 모두 10배의 차이로 그려져 있다. , 25배의 차이가 그림도표에서는 25배가 아니라 10×10×10=1000배로 그려져 있다. 이런 과장을 마주치면예쁜 그림이 아니라 그냥 정확한 숫자를 제시하라고 요구하라던 통계학자 리차드 마골린의 말이 떠오른다.

 

 

 

 

결론

 

통계학자인 스테픈 켐벨은진실을 자세히 검사하지 않고는 결코 있는 그대로 받아들여서는 안 된다. 사물은 겉으로 보이는 것과는 전혀 다른 경우가 많다고 말했다. 필자는 여기에서 진실과 사물이란 단어를 그래프로 그대로 바꿔서그래프를 자세히 검사하지 않고는 결코 있는 그대로 받아들여서는 안 된다. 그래프는 겉으로 보이는 것과는 전혀 다른 경우가 많다고 조언하고 싶다. 사실 그래프(그림도표를 포함해서)를 그리는 목적은 열심히 읽으려 하지 않는 독자들이나 숫자를 다루는 데 익숙하지 않은 사람들에게 데이터가 갖고 있는 특징이나 본질을 간단 명료하게 보여주는 데 있다. 그러나 그래프를 그리는 과정에 있어 수직축과 수평축의 위치나 어떤 눈금을 선택할 것인가는 그래프로 무엇을 나타내려고 하는가 하는 의도에 달려 있다. 더욱이 이러한 선택이 전적으로 그래프를 그리는 사람에게 주어져 있으므로 항상 왜곡의 가능성이 있다.물론 그래프를 그리는 사람의 기술이 부족하거나 그래프에 좀 더 생기를 불어넣는 과정에서 과장이나 축소가 있을 수 있다. 하지만 자신만의 논조를 부각하기 위해서 의도적으로 과장하거나 왜곡하는 경우가 더 많다. 그렇다면 이러한 왜곡을 막기 위해서는 어떻게 해야 할까? 그래프를 보는 사람과 그리는 사람의 입장으로 구분해보자.

 

좋은 그래프는 간단하고 정확하게 데이터에 대한 진실을 말해야 한다. 그래프를 보는 사람의 입장에서 그래프의 공정성을 평가하기 위해서는 두 가지 질문을 던져야 한다. 첫째는 그래프가 전체 그림을 보여주고 있는가 하는 것이다. 그래프의 밑부분이 잘라져 있는지, 축을 변화시킨다면 전혀 다른 인상을 주는 그래프가 될 수 있는지, 만일 그렇다면 데이터를 왜곡하지 않고 바른 모양을 나타내는 그래프는 어떤 것인가를 반문해야 한다. 둘째는 눈금이 (특히 수직축의) 과장돼 있지 않은가 하는 물음이다. 과장된 눈금은 잘못된 인상을 독자들에게 강요하는 경우가 많다. 그러면 과장되지 않은 적절한 눈금이란 어떤 눈금일까? 그 답은 데이터에 포함된 중요한 차이나 흐름의 변화를 꼭 보여줘야 하는 동시에 별로 중요하지 않은 것들이 과장되지 않도록 눈금을 정하는 것이다. 더욱이 수직축이나 수평축의 눈금이 무엇을 나타내는지 표시조차 안 된 그래프는 의도적으로 과장하거나 속이기 위한 것이 대부분이다.

 

그래프를 만드는 사람이 유의할 점은 좋은 그래프를 만들기 위해서는 데이터의 본질에 대한 이해와 미적인(artistic) 기술이 필요하다는 것이다. 지금까지는 주로 미적인 기술에 중점을 둬 재미있고 눈에 잘 띄는 그래프를 그리려 했지만 더욱 중요한 것은 데이터의 본질을 파악하고 이를 그대로 전달할 수 있는 그래프를 그리는 것이다. 특히 눈금의 크기를 적절하게 정하기 위해서는 그래프를 만드는 사람의 데이터의 본질에 대한 이해와 경험이 필수적으로 요구된다. 구체적으로는 먼저 데이터의 변화를 보여줘야지 눈금이나 축의 변화에 따른 축소/과장을 강조해서는 안 된다. 또한 숫자를 나타낼 때에는 그 숫자의 크기와 직접적으로 비례가 되게 하고 특히 그림도표를 사용하는 경우에는 그 숫자의 차이가 면적이나 부피의 차이와 같도록 유의해야 한다. 또한 필요한 경우에는 정확하게 말을 덧붙이는(labeling) 것도 좋은 방법이다.

 

김진호 서울과학종합대학원 빅데이터 MBA 주임교수 jhkim6@assist.ac.kr

 

필자는 서울대 경영대학을 졸업하고 펜실베이니아대(Wharton School)에서 경영학 석사와 박사 학위를 받았다(통계학 부전공). 사회와 기업의 다양한 문제들을 계량 분석적으로 접근하는 연구를 주로 했다. 개인의 분석능력을 키워주는 교육프로그램을 개발해 여러 기업에서 운영하기도 했다. 최근 저서로 <말로만 말고 숫자를 대 봐(엠지엠티북스)> 등이 있으며 최근 역서에는 <빅데이터@워크>가 있다.

 

 

인기기사