Top
검색버튼 메뉴버튼

Power of Analysis

질문따라 달라지는 통계, 표본 대표성이 해법

김진호 | 159호 (2014년 8월 Issue 2)

Article at a Glance - 혁신,자기계발

 

간을 보기 위해 국을 한 숟가락 떠먹을 땐 먼저 국을 휘휘 저어야 한다. 국 일부에 아직 녹지 않은 소금이 남아 있다면 숟가락에 담긴 약간의 국물이 전체 국을 대표할 수 없기 때문이다. 마찬가지로 통계조사를 접할 때는 표본이 모집단을 대표할 수 있는지 꼼꼼히 따져봐야 한다. 표본이 어느 특정 그룹만 대표한다면 그 표본에서 비롯된 통계로 전체를 파악하는 데 한계가 있을 수밖에 없다. 아울러 질문이나 응답항목이 특정 방향으로 치우치지는 않았는지, 조사결과가 확대해석 되지는 않았는지도 살펴봐야 할 대상이다.

 

요즘 우리는 바야흐로 각종 여론조사의 홍수 속에 묻혀 살고 있다. 대부분의 사람들은 전화조사에 응답한 경험이 한 번쯤 있을 것이다. 사회의 민주화, 국민의 알 권리에 대한 충족, 반복되는 선거 경험을 통해 이제는최근 조사에 따르면이라는 문구에 익숙한 분위기다.

 

그런데 다양한 여론조사를 항상 올바로 이해하지는 못하는 것 같다. 조사를 하는 사람이나 조사 결과를 받아들이는 사람들 모두 왜곡된 정보를 주고받을 가능성이 높다. 이런 가능성을 풍자한 유머를 보자. 어떤 사람이 수학자에게 2+2는 얼마냐고 물었다. 수학자는 4라고 퉁명스럽게 답했다. 옆에 있던 통계학자에게 다시 물었다. 통계학자는 신뢰수준 100%에서 4이며 오차한계는 0이라고 답했다. 그 옆에 있던 여론조사자에게 2+2는 얼마냐고 다시 물었다. 질문을 받은 여론조사자는 심각한 표정을 짓더니 주위를 조심스럽게 둘러보면서 창문을 닫고 커튼을 내린 뒤, 질문한 사람의 귀를 당겨서 긴장된 목소리로 되물었다. “2 더하기 2가 몇이 되기를 원하십니까?” 원하는 답을 여론조사를 통해 만들어주겠다는 의미다. 미국 부통령이었던 휴버트 험프리는정치인들은 자기 후보에게 유리한 결과가 나온 여론조사는 훌륭하다고 하고 불리한 여론조사는 비과학적이라고 우긴다고 말했다. 이런 말은 요즘에도 정치하는 사람으로부터 종종 들을 수 있는 말이다.

 

여론조사에 대한 불신을 해소하기 위해서는 조사결과를 받아들이는 사람들이 우선 조사에 대한 안목을 길러야 한다. 조사에 대한 안목을 높인다는 것은 조사 과정에서 일어날 수 있는 잘못을 인식하고 그런 잘못이 일어났을 때는 그것을 피해가면서 결과를 올바르게 해석하는 것을 말한다. 조사결과를 대할 때 행간(行間)을 읽기 위해서는 조사과정에 대한 약간의 지식이 필요하다. 이 글에서는 그런 지식을 사례와 함께 제공할 것이다.

 

표본조사와 대표성

조사에는 학술조사, 시장조사, 여론조사, 선거 여론조사 등 다양한 종류가 있다. 조사의 내용이나 목적이 달라도 본질적으로 대부분의 조사는 같은 성격을 지닌다. 즉 전체를 다 조사하는 것이 아니라 전체의 일부인 표본만을 조사해 전체를 예측하는 구조다. 그러나 표본만 조사해 그 결과로 전체를 예측하는 과정에서 여러 가지 오류와 왜곡이 생길 수 있다. 표본조사 과정은 긴 연결고리로 이어진 매듭과 같아서 각각의 연결고리가 모두 튼튼해야 강한 매듭이 될 수 있다. 조사 과정 중 어느 한 단계라도 잘못이 있으면 전체 조사가 신뢰성을 잃는다.

 

전체가 아닌 일부 표본을 조사하는 방법은 최근에 개발된 기법이 아니다. 아마 인류의 역사만큼이나 오래된 방법일지도 모른다. 아주 오래전 인류가 짐승 가죽을 쌀과 바꾸는 물물교환을 할 때 받게 될 쌀이 오래되거나 변질된 것은 아니지 우선 한줌 쥐어 냄새도 맡아보고 몇 알 씹어보기도 했을 것이다. 국이나 찌개를 끓이는 어머니는 간이 맞는지 알아보려고 국 한 숟갈을 떠서 맛을 본다. 김치를 담글 때는 절인 배추를 양념에 버무린 뒤 배춧잎 조각을 한 점 떼서 간을 본다. 모두 표본조사다. 표본의 대표성에 대한 생활의 지혜다.

 

 

표본의 대표성이란 무엇일까? 이를 알기 위해서는 모집단을 먼저 이해해야 한다. 모집단이란 연구의 대상이 되는 집단이라고 간단히 정의할 수 있다.1 각종 조사의 목적은 특정 모집단의 특성(모여 있는 정도나 흩어진 정도, 혹은 지지율 등의 비율)에 대한 정보를 얻기 위한 것이라고 할 수 있다. 이 정보를 얻기 위해 모집단을 일일이 전부 조사하는 방법을 전수조사라고 한다. 우리나라 인구와 주택을 조사하기 위해 5년마다 한 번씩 하는 인구·주택조사가 대표적이다. 하지만 전수조사는 비용과 시간이 많이 들고 어떨 때는 모집단이 무한히 많아 모두 조사하기가 어렵다. 전구, 타이어, 가전제품 등의 성능을 조사할 때는 제품이 파괴될 수도 있다. 전수조사가 가능하더라도 결과가 정확하지 않을 때도 있다. 우리나라 국보 32호이자 유네스코 세계 문화유산인 팔만대장경의 경판에 대한 전수조사는 이제까지 두 번 있었다. 일제 때인 1915년에 셌을 때는 81348개였는데 1975년 문화재 관리국에서 다시 조사했을 때는 81240개였다.2

 

모든 여론조사는 표본을 뽑아서 조사한 뒤 이를 근거로 모집단의 특성을 추정하는 표본조사를 사용한다. 표본조사가 적절하게 수행되면 전수조사보다 더 정확할 수도 있다. 실제로 표본조사를 잘 활용해 시간과 비용을 많이 절약한 사례가 있다. 비행기표를 살 때는 한 곳에서 최종 목적지까지 가는 표를 사고 요금을 지불한다. 예를 들어 비행기로 서울에서 미국 마이애미까지 가는 표를 살 때 국적 항공사에 가면 서울에서 미국 애틀랜타까지는 해당 항공의 비행기표를, 애틀랜타에서 마이애미까지는 제휴 항공사의 연결 티켓을 줄 것이다. 승객은 제휴 항공사에 지불해야 하는 금액까지 국적 항공사에 지불한다. 그리고 나중에 국적 항공사가 제휴 항공사에 몫을 정산해준다. 미국에서 항공기는 우리나라 고속버스처럼 사람들의 이용이 흔하고 항공사 수도 많다. 항공 수요가 급증한 1950년대 중반 이후 미국 항공사들은 항공요금을 항공사별로 정확히 나누는 지루한 작업에 골머리를 앓고 있었다. 조사에 걸린 시간만 4개월, 당시로서는 상당히 큰 금액인 12만 달러의 비용도 소요됐다. 그래서 활용하기 시작한 것이 표본조사였다. 전체 티켓의 12%를 무작위로 뽑아서 항공사별 비율을 결정하고 이에 따라 전체 비행기표에 대한 각 항공사 몫을 나누기 시작했다. 이렇게 진행한 표본조사의 결과와 실제로 전수조사를 한 금액과의 차이는 100만 달러당 700달러 정도로 근소했다. 이후 계속 표본조사를 이용해서 항공요금을 분배하고 있는데 요즘은 티켓이 많아져서 어떤 경우 전체 티켓의 0.5% 정도만 표본으로 뽑아 계산한다고 한다.3

 

표본에 대표성이 결여되면 아무리 신뢰성 있는 자료를 얻는다고 해도 모집단의 특성을 추정하는 데는 근본적으로 문제가 있다고 봐야 한다.

 

표본의 대표성과 무작위 추출

국 간 맞추기와 같은 개인생활에서의 표본조사뿐 아니라 물가지수, 실업률 등 정부기관에서 발표하는 많은 수치들도 표본조사의 결과다. TV나 신문에서 발표되는 대부분의 조사결과들도 표본조사를 통한 것이다. 표본조사에서 가장 중요한 것은 좋은 표본을 뽑는 것이다. 좋은 표본이란 간단히 말해서 표본이 모집단의 축소판 닮은 꼴, 즉 모집단을 대표할 수 있는 표본이다. 국이나 찌개의 간을 볼 때는 먼저 서너 번 휘휘 젓는다. 새로 담그는 김치의 간을 볼 때도 양념과 배추를 골고루 버무린다. 국 한 숟가락 또는 배추 한 조각이 전체를 대표할 수 있어야 그 맛으로 전체의 간이 맞는지를 추정할 수 있기 때문이다. 표본이 모집단의 축소판 닮은꼴이 되지 못한다면장님 코끼리 만지기가 되고 만다. 코끼리의 일부만 만져보고 코끼리가 어떤 것이라고 판단한다면 코끼리의 모습을 비슷하게 그려낼 수 없다. 마찬가지로 표본에 대표성이 결여되면 아무리 신뢰성 있는 자료를 얻는다고 해도 모집단의 특성을 추정하는 데는 근본적으로 문제가 있다고 봐야 한다.

 

대표성을 갖는 표본은 모집단으로부터 무작위로 뽑은(random sampling, 무작위 추출 또는 무작위 표집) 표본을 말한다. 무작위 추출이란 모집단에 속한 대상들이 표본에 뽑힐 확률이 모두 동일한 것이다. TV에서 로또복권의 당첨번호를 추첨할 때 투명한 통 속의 번호가 적힌 공을 꺼내는 방법이 무작위 추출의 전형적인 예다. 어느 경우에나 1에서 45까지의 숫자가 뽑힐 확률은 동일하다. 그러나 모집단이 크면 비용이 많이 들고 쉽지도 않다.

 

특히 모집단이 사람일 때는 단순한 무작위 추출만으로 표본의 대표성을 확보하기 어렵다. 예를 들어 전국의 20세 이상 성인에 대해 여론조사를 한다고 하자. 성인들의 의견은 지역에 따라, 소득에 따라, 나이에 따라 다를 수 있다. 이럴 때는 우연히 한쪽에 치우친 표본이 뽑힐 가능성을 줄이기 위해 모집단을 여러 층(strata)으로 나눈 뒤 각 층에서 무작위 추출을 한다. 대부분의 여론조사는 다단계 층화 무작위 추출을 이용한다. 다단계란 모집단을 지역, 성별, 나이 등으로 구분한 뒤 비례에 맞게 무작위 추출을 하는 것이다.

 

표본추출이 잘못돼 예측이 틀렸던 사례를 보자. 1936년 미국 대통령 선거는 공화당의 랜던(Alfred M. Landon) 후보와 민주당의 루즈벨트(Franklin D. Roosevelt) 후보와의 대결이었다. <리터러리 다이제스트(Literary Digest)>라는 잡지사가 1000만 명의 유권자에게 설문지를 배송한 뒤 230만 명으로부터 회수한 응답을 분석했다. 그 결과에 따라 이 잡지사는 랜던이 루즈벨트를 여유 있게 누르고 당선될 것이라고 예측했다. 그러나 실제 선거 결과는 민주당 루즈벨트 후보의 압승이었다. 무려 230만 명이나 되는 유권자를 조사했는데도 이런 실수를 한 원인은 무엇일까? 표본이 모집단을 대표하지 못했기 때문이다. 이 잡지사는 잡지의 정기구독자와 전화번호부를 근거로 1000만 명을 선정해 설문지를 보냈다. 당시 미국 경제상황을 고려할 때 잡지의 정기구독자나 전화보유자는 소득이 높은 계층에 속한다. 그해 선거는 유독 유권자들의 후보 선택과 소득 수준 사이에 관련이 높았다. 즉 소득이 낮은 계층은 민주당을, 높은 계층은 공화당을 선호했다. 따라서 <리터러리 다이제스트>가 뽑은 표본 속에는 루즈벨트 후보 지지자가 상대적으로 적었다. 조사 결과가 왜곡될 수밖에 없는 구조였다. 이 실수는 선거 여론조사 역사상 가장 유명한 실수로 기록된다. <리터러리 다이제스트>는 이후 폐간의 길로 접어들었다. 우리나라에서도 1995년 서울시장 선거에서 비슷한 실수가 있었다. 당시 민자당의 정원식 후보 측에서 한 금융기관이 유권자 수만 명을 조사한 결과를 근거로 승리를 자신했다. 그 금융기관은 수천 명의 보험설계사를 동원해 그들의 고객(보험가입자)들을 조사했는데 이 표본 역시 대표성이 낮았다. 당선자는 민주당의 조순 후보였다.

 

무작위 추출의 특징 중 가장 중요한 것은 표본을 뽑을 때 표본을 뽑는 사람의 판단이나 편리함이 전혀 고려되지 않는다는 점이다. 이 특징은 표본의 대표성을 유지하기 위한 필수 조건이다. 이를 무시하고 뽑는 사람의 판단이나 편리함을 반영하는 표본추출 방법도 있기는 하다. 편의표본이 대표적이다. 편의표본은 뽑기에 편리한, 주로 가까이 있는 대상을 표본으로 추출한다. 길거리에서 지나가는 사람 아무나 붙잡고 물어보는 것이 그 예다. 이 방법을 사용했다면 결과를 해석할 때 표본의 비대표성을 고려해서 성급한 일반화를 삼가야 한다. 그런데 편의표본에 의한 조사들이 마치 무작위 추출에 의한 결과인양 제시되고 설명되는 경우가 흔해 사실을 왜곡하고 조사에 대한 일반인의 신뢰를 떨어뜨리는 일이 많다. 킨제이보고서를 예로 들 수 있다. 이는 1950년대 발표된 보고서로, 미국인들이 개방적인 성관계(free sex)를 즐기며 비정상적인 것도 포함하는 왕성한 성생활을 한다는 내용을 보고해 전 세계를 깜짝 놀라게 했다. 과연 그럴까? 킨제이 보고서는 남녀 12000명을 대상으로 한 인터뷰를 근거로 삼았는데 동성연애자 등 매우 편중된 사람들만 대상으로 했기 때문에 성이라는 영역에 대한 새로운 접근이라는 가치 이상은 없다고 평가된다.4

 

표본의 크기, 즉 몇 개의 표본을 뽑아야 모집단을 대표할 수 있는가도 매우 중요한 문제다. 표본이 너무 작으면 모집단을 잘못 추정할 수 있고 반대로 표본이 필요 이상으로 크면 시간과 비용을 낭비할 수 있다. 적당한 표본의 크기는 모집단이 얼마나 다양한가(variability), 조사가 어느 정도의 정확도를 요구하는가에 따라 다르다. 피검사를 예로 들어보자. 피검사를 할 때는 아주 소량의 피만 필요하다. 몸 안 어느 곳의 피라도 그 질이 균등하다고 생각하기 때문이다. 마찬가지로 사람들의 평균 몸무게를 조사한다면 수십 명으로도 충분할 것이다. 하지만 다양한 의견이 있을 수 있는 여론조사에서는 그보다 많은 사람이 필요하다. 또 좀 더 정확한 조사를 위해서는 표본의 수를 늘려야 한다.

 

질문과 응답항목

표본으로 선정된 응답자들에게 무엇을 어떻게 질문할 것인가는 매우 중요한 단계다. 이 과정을 통해 원하는 자료를 얻을 수 있기 때문이다. 유명한 여론조사자인 알버트 캔트릴의 말대로 여론조사의 성패(成敗)는 질문의 질()과 직결된다. 질문을 만드는 것은 전적으로 조사자에게 맡겨져 있으므로 조사자의 주관적인 의도나 편견이 얼마든지 개입될 수 있다. 질문방식에 따라 응답이 달라질 수 있음을 보여주는 대표적인 예가 유도성 질문이다.

 

사람들은 자기의 소신이나 가치판단에 앞서 사회적으로 바람직한 방향으로 대답하려는 경향이 있다. 유도성 질문이란 질문에 미리 도덕적인 가치판단을 깔아서 은연중에 원하는 방향으로 답을 유도하는 질문이다. 간단한 예를 들어보자.

 

        생명을 가진 태아에 대한 살인행위인 낙태를 찬성합니까? 아니면 반대합니까?

        여성의 자유선택권을 보장하는 낙태를 찬성합니까? 아니면 반대합니까?

 

낙태(abortion)는 미국에서 사회적으로 큰 논란이 되는 이슈다. 이에 대한 여론조사를 할 때 가톨릭이 주를 이루는 낙태반대론자(Pro Life)는 처음의 질문을 선호하고 여성운동가들이 주를 이루는 낙태허용론자(Pro Choice)들은 나중의 질문을 이용하려 할 것이다. 도덕적인 판단을 미리 내려놓고 원하는 답을 유도하려는 것이다. 이 사례에서 올바른 질문은당신은 낙태를 찬성합니까? 아니면 반대합니까?”라고 간단히 묻는 것이다.

 

지난 6·4 지방선거에서 여당과 야당은 기초자치단체장의 정당공천 여부를 놓고 실랑이를 벌였다. 각 당의 입장을 지지하는 여론조사 결과를 얻으려면 아마도 다음과 같은 서로 다른 유도성 질문을 사용할 수 있을 것이다.

 

        공천장사 우려가 있는 정당공천 제도를 찬성하십니까? 아니면 반대하십니까?

        정당정치를 통한 책임정치를 구현할 수 있는 정당공천 제도를 찬성하십니까? 아니면 반대하십니까?

 

도덕적인 가치판단을 언급하지 않더라도 유도성 질문을 할 수 있다. 예를 들어서울시가 교통문제 해결을 위해 모든 조치를 다하고 있다고 생각하십니까?” “서울시가 시민문제에 대해서 항상 올바른 결정을 내린다고 생각하십니까?”라는 질문처럼 도달하기 힘든 기준을 제시하면 된다. ‘모든 조치또는항상 올바른 결정과 같은 단어를 들으면 사람들이 긍정적인 답을 하기 어렵다. 또한금지와 같은 권위적인 단어나도움과 같은 긍정적인 낱말을 사용하면 원하는 방향으로 답을 이끌어낼 수 있다. “미국이 우크라이나 사태에 개입해야 한다고 생각하십니까미국이 우크라이나 사태를 도와줘야 한다고 생각하십니까에 대한 응답은 다를 수밖에 없다.

 

질문뿐만 아니라 응답항목을 만들 때도 주관적인 의도가 개입될 수 있다. 과거 김영삼 정부 시절, 몇몇 언론기관에서 발표한 대통령에 대한 지지도가 67%, 44%로 다르게 나타나서 이를 놓고 한때 조작의혹에 싸인 적이 있다. 20%포인트 이상의 차이는 여론조사의 신뢰도에 심각한 의문을 불러일으키기에 충분했다. 원인은 응답항목에 있었다. 질문은김영삼 대통령이 대통령으로서 직무를 잘 수행하고 있다고 보십니까? 아니면 잘못 수행하고 있다고 보십니까?”로 동일했다. 그런데 한 조사의 응답항목은매우 잘하고 있다/ 비교적 잘하고 있다/ 그저 그렇다/ 별로 잘하지 못하는 편이다/ 매우 잘못하고 있다 5점 척도를 사용한 반면 다른 조사에서는그저 그렇다가 빠진 4점 척도를 사용했다. 응답항목이 줄면 당연히 다른 응답항목에 대한 응답이 늘어난다. 따라서 20%포인트 정도의 지지도 차이는그저 그렇다는 중립적 항목이 삭제됐기 때문에 나타난 현상으로 추정할 수 있다. 어떤 조사가 맞고 틀리다고 단정 짓기보다는 응답항목에 따라서도 차이가 날 수 있다는 사실을 이해해야 한다.

 

 

 

 

그렇다면 중립항목은 반드시 포함돼야 할까? 지지도나 투표 같은 문항에서는 어차피 지지하느냐, 지지하지 않느냐 결정이 될 테니 중립항목을 없애고 강제로 어느 한쪽으로 응답하게끔 해야 한다는 의견도 있다. 반면 정치적이나 인간적으로 호(), 불호(不好)의 감정이 분명하지 않은 부동층이 존재할 수 있으므로 중립항목이 반드시 필요하다는 의견도 있다. 따라서 중립항목의 포함 여부는 조사의 목적에 따라 알맞게 결정돼야 한다. 다만 어떤 응답항목에 대한 응답 비율을 높이려는(혹은 낮추려는) 조사자의 의도가 개입돼서는 안 될 것이다. 우리나라 선거 여론조사에는 대부분 중립항목이 포함된다. 아마도 우리나라 국민이 정치에 높은 관심을 갖고 있는데도 불구하고 선거조사에서는 부동층이 매우 높기 때문일 것이다.

 

응답항목의 구성도 적절해야 하지만 내용도 질문 내용과 일치하게끔 해야 한다. 이런 요건마저 지켜지지 않는 경우를 종종 본다. 아래 질문은 지난 6·4 지방선거에서 한 일간지가 정당지지도를 조사한 질문이다.

 

당신은 이번 선거에서 어느 정당을 지지하는가?

새누리당( )

새정치민주연합( )

정의당( )

아직 결정하지 않았다( )

인물에 따라 투표( )

 

문제는 정당지지도에 대한 질문에인물에 따라 투표라는 기준을 응답항목에 포함시킨 것이다. 이 질문에 대한 응답을 근거로정당지지도를 묻는 질문에 대해 55%가 정당과 관계없이 인물에 따라 투표하겠다고 대답했다라는 식의 분석은 적절하지 못하다. 먼저 투표기준, 즉 정당에 따라 찍는다고 대답한 응답자만을 대상으로 어느 정당을 지지하는지를 묻는 것이 타당하다.

 

조사결과의 해석

설문에 대한 사람들의 응답을 분석할 때 주의를 기울여야 하는 것 중 하나는 사람들이 자연스럽게 거짓말을 한다는 점이다. 특히 질문이 사적인 내용과 관련될 때 더욱 그렇다. 개인소득이 얼마인지, <플레이보이> 같은 성인잡지를 보는지, 퇴폐 이발소에 출입하는지, 성생활은 어떤지 등에 대한 질문에 속마음을 터놓고 솔직하게 대답한다고 가정하기 어렵다. 이럴 때 응답자들은 자연스럽게 거짓말을 하거나 응답을 거부한다. 예를 들어당신은 부인을 때리십니까? ① 예 ② 아니오라는 질문에 응답자들은 답하기를 거부하거나 아니면를 택할 것이다. 이런 경우에는 일반적인 질문으로 바꾸는 편이 도움이 된다. 자신과 관련된 직접성을 덜어내서 솔직하게 답할 수 있도록 배려하는 것이다. 예를 들면당신은 남자들이 부인을 때릴 수 있다고 생각하십니까? ① 아니오라고 질문을 바꾸면 앞의 질문보다는 좀 더 솔직한 답변이 나올 수 있다.

 

이렇게 간접적인 문제로 대체할 수 없을 때는 응답자들의 자연스러운 거짓말을 피할 수 없다. 예를 들어 보자. 중국 한 지역에서 과세와 징병을 위해 인구조사를 실시했다. 조사결과 그 지역 인구는 2800만 명으로 집계됐다. 몇 년 후, 같은 지역에서 기아 구제를 위한 인구조사를 실시했는데 인구가 1500만 명이라는 결과가 나왔다. 수년 동안 인구가 폭발적으로 증가했을 리 없다. 처음 조사에서는 과세와 징병을 피하기 위해 가족 수를 줄여서 답했을 것이고, 두 번째 조사에서는 기아 구제의 구호 혜택을 많이 받으려고 가족 수를 부풀렸을 가능성이 높다.5 이런 거짓 응답이 중국 시골에서만 일어날까? 아니다. 오늘날에도 세금을 내기 위한 소득신고에서 여전히 같은 현상이 나타난다.

 

여론조사는 전체(모집단)를 다 조사하는 것이 아니라 일부 표본만 조사한다. 따라서 당연히 오차가 존재하는데 이를 표본오차라고 한다. 예를 들어 한 여론조사에서 승용차의 10부제에 대한 찬성비율이 53%, 오차는 ±5%포인트라고 발표했다. 이는 표본조사에서 찬성률이 53%로 나타나지만 표본이 아닌 전체를 모두 조사한다면 찬성률이 (53-5)%, (53+5)%, 48% 58% 사이에 있을 것이라는 의미다.6 조사결과를 해석할 때 이 오차의 한계를 무시하면 잘못된 결론에 도달하기 쉽다. 또한 여론조사 기관이나 신문사가 발표하는 여론조사에서 오차가 종종 ±3%, ±5% 등으로 발표할 때가 있는데 이는 잘못된 표현이다. 오차를 나타낼 때는 %가 아니라 %포인트라고 표기해야 한다.

 

조사결과의 확대해석도 일반인들이 조사결과를 대할 때 경계해야 할 사항이다. 호랑이에게 물려가도 정신만 차리면 산다는 말이 있다. 어려운 역경에서도 최선을 다하면 헤쳐 나갈 길이 있으니 낙담하지 말고 노력하라는 의미다. 그러나 표본조사 측면에서 보면 명백한 확대해석의 오류다. 호랑이에게 물려갔다가 살아온 사람 중에는 정신을 차려서 살아온 사람(호랑이가 한눈파는 사이에 도망침)과 정신을 차리지 못했지만 살아온 사람(물려갔다가 깨어나 보니 숲 속에 버려져 있음)이 있을 것이다. 그러나 호랑이에게 물려갔을 때 정신을 차렸는데도 불행히 호랑이밥이 된 사람들이 대부분이었을 것이다. 죽은 자는 말이 없는 법이므로 정신을 차렸지만 죽고 말았다고 증언해줄 수는 없다. 우리가 안전하게 내릴 수 있는 결론은호랑이에게 물려가도 살아온 사람이 있다또는살아온 사람 중에는 정신을 차렸던 사람이 상대적으로 많다라고 해야 한다.

 

속담이 아닌 실제 사례도 있다. 미국에서 발표된 한 조사결과다.7 이혼과 교회예배 여부 사이의 관계를 조사한 결과인데, 결과는 이혼소송 중인 부부의 95%가 부부 중 한 사람 혹은 모두가 교회에 정기적으로 가지 않는다는 사실이 밝혀졌다는 것이었다. 이 결과를 인용한 한 신문기사는교회에 다니는 사람들은 결혼생활을 계속 유지한다고 결론을 내렸다. 이런 결과는 명백한 확대해석이라는 점을 < 1>로 설명할 수 있다.

 

1이혼과 신앙 사이의 관계

 

조사 결과는 표의 왼쪽 부분에만 해당되며 해석도 그 부분에만 한정돼야 한다. 즉 이혼소송 중인 부부 중에는 비신자가 많다는 결과가 내려져야 한다. 조사결과는 표의 오른쪽, 즉 결혼생활을 유지하는 부부 중 신자의 비율이 얼마인지는 말해주고 있지 않다. 따라서 결혼생활을 유지하는 부부 중에서 신자가 많은지(교회에 다니는 사람들이 결혼생활을 계속 유지하는지)는 이 조사결과로는 전혀 알 수가 없다. 확대해석이면서 동시에 논리적 결함이 숨겨져 있으므로 읽는 사람이 주의하지 않으면 설득당하기 쉽다.

 

주어진 결과를 자기 쪽에 유리하게 해석하는 예는 주변에 흔하다. 회사의 작년 이익을 놓고 노조에서는 임금인상을 요구하기에 충분한 수준이라고 해석하고, 경영자 측에서는 임금동결이 불가피하다고 주장한다. 작년과 비슷한 수준의 물가상승률을 두고 여당은 정부의 물가안정대책이 효과를 거두고 있다고 하고 야당은 효과가 전혀 없다고 해석할 수 있다.

 

결론

현대는 여론정치의 시대라고 한다. 그래서인지 각종 여론조사 결과가 우리에게 매일 쉴 새 없이 전달된다. 하지만 대부분의 조사가 과정이나 해석에 대한 객관적인 검증 없이 제공되는 것이 문제다. 조사의 신뢰성을 높이는 것은 무엇보다도 조사기관의 책임이다. 2 더하기 2가 얼마냐는 물음에 몇이 되기를 원하냐고 되물었다는 비판적인 유머가 이를 대변해준다. 특히 여론조사 결과 발표는 파급 효과와 영향력이 크기 때문에 과정과 해석을 체계적으로 검증해야 한다. 또한 조사결과의 발표는 대부분 언론을 통해 이뤄지므로 언론 역시 자체적으로 객관적인 검증작업을 거친 뒤 결과를 발표하려는 노력을 해야 한다. 필자는언론사의 수준은 그 언론사가 발표하는 여론조사의 수준과 같다고 생각한다.

 

왜곡된 정보를 주고받는 위험을 줄이기 위해서는 조사를 하는 사람 못지않게 조사결과를 받아들이는 쪽에서도 조사에 대한 안목을 높여야 한다. 일반인이 조사나 결과 해석에 대한 안목을 높인다면 조사를 하는 사람들도 질적 수준을 높인 조사를 할 수밖에 없을 것이다. 또한 조사자로 하여금 올바른 절차를 밟아서 조사를 수행하도록 하는 압력으로 작용할 뿐만 아니라 실제 조사결과를 올바르게 이해할 수 있도록 해줄 것이다.

 

조사결과를 대할 때는 우선 누가(조사기관), 어떤 목적으로 조사한 것인지를 반드시 확인해야 한다. 조사비용을 부담한 후원자가 있다면 후원 동기도 미뤄 짐작해야 한다. 다음은 표본이 적절한지 판단해야 한다. 모집단의 정의, 표집방법, 응답률, 표본의 크기 등을 기준으로 표본의 대표성이 유지됐는지도 확인한다. 설문에 대해서도 비판적인 시각을 가져야 한다. 질문과 응답항목을 만드는 데 조사자의 주관적인 의도가 개입되지 않았는지 봐야 한다. 해석 과정에서는 구체적인 해석의 명확한 근거를 확인해보면 좋다. 숫자와 제시된 결론 사이에 논리적 틈이 없는지도 살펴본다.

 

참고로 미국에서는 여론조사에 대한 사회적 비판이 높아지자 1969년 미국 여론조사협회가 여론조사 결과를 발표할 때 다음의 8개 사항을 함께 발표하도록 했다.

 

 

1. 조사의 주관자와 후원자

2. 조사 대상 모집단에 대한 정보

3. 자료 수집의 구체적인 정보

4. 표본의 크기와 추출 방법

5. 실제 조사에 사용된 설문

6. 조사 시기

7. 표본 오차와 신뢰 수준

8. 오차의 요인들에 대한 정보

 

김진호 서울과학종합대학원 빅데이터 MBA 주임교수 jhkim6@assist.ac.kr

필자는 서울대 경영대학을 졸업하고 펜실베이니아대(Wharton School)에서 경영학 석사와 박사 학위를 받았다(통계학 부전공). 사회와 기업의 다양한 문제들을 계량 분석적으로 접근하는 연구를 주로 했다. 개인의 분석능력을 키워주는 교육프로그램을 개발해 여러 기업에서 운영하기도 했다. 최근 저서에 <말로만 말고 숫자를 대 봐(엠지엠티북스)> 등이 있으며 최근 역서에는 <빅데이터@워크>가 있다.

관련기사