질문따라 달라지는 통계, 표본 대표성이 해법

Power of Analysis

질문따라 달라지는 통계, 표본 대표성이 해법

김진호 | 159호 (2014년 8월 Issue 2)

- 아티클
  
  스페셜 리포트 케이스 스터디
  경영전략/경영일반 인사/조직 마케팅/세일즈 리더십/자기계발 인문 AI/DT
  전체 기사 보기 호수별 Case Study HubENG audio DBR PDF 전체보기
- 구독
  
  월정액 서비스 연간 서비스 낱권 PDF 대량/법인
- 이벤트
  
  이벤트
- 고객센터
  
  공지사항 FAQ 1:1문의 이용권/상품권 인증
공유
스크랩

+ 새로운 폴더 생성
폴더명

메모입력

스크랩

Article at a Glance - 혁신,자기계발

간을 보기 위해 국을 한 숟가락 떠먹을 땐 먼저 국을 휘휘 저어야 한다. 국 일부에 아직 녹지 않은 소금이 남아 있다면 숟가락에 담긴 약간의 국물이 전체 국을 대표할 수 없기 때문이다. 마찬가지로 통계조사를 접할 때는 표본이 모집단을 대표할 수 있는지 꼼꼼히 따져봐야 한다. 표본이 어느 특정 그룹만 대표한다면 그 표본에서 비롯된 통계로 전체를 파악하는 데 한계가 있을 수밖에 없다. 아울러 질문이나 응답항목이 특정 방향으로 치우치지는 않았는지, 조사결과가 확대해석 되지는 않았는지도 살펴봐야 할 대상이다.

요즘 우리는 바야흐로 각종 여론조사의 홍수 속에 묻혀 살고 있다. 대부분의 사람들은 전화조사에 응답한 경험이 한 번쯤 있을 것이다. 사회의 민주화, 국민의 알 권리에 대한 충족, 반복되는 선거 경험을 통해 이제는 ‘최근 조사에 따르면’이라는 문구에 익숙한 분위기다.

그런데 다양한 여론조사를 항상 올바로 이해하지는 못하는 것 같다. 조사를 하는 사람이나 조사 결과를 받아들이는 사람들 모두 왜곡된 정보를 주고받을 가능성이 높다. 이런 가능성을 풍자한 유머를 보자. 어떤 사람이 수학자에게 2+2는 얼마냐고 물었다. 수학자는 4라고 퉁명스럽게 답했다. 옆에 있던 통계학자에게 다시 물었다. 통계학자는 신뢰수준 100%에서 4이며 오차한계는 0이라고 답했다. 그 옆에 있던 여론조사자에게 2+2는 얼마냐고 다시 물었다. 질문을 받은 여론조사자는 심각한 표정을 짓더니 주위를 조심스럽게 둘러보면서 창문을 닫고 커튼을 내린 뒤, 질문한 사람의 귀를 당겨서 긴장된 목소리로 되물었다. “2 더하기 2가 몇이 되기를 원하십니까?” 원하는 답을 여론조사를 통해 만들어주겠다는 의미다. 미국 부통령이었던 휴버트 험프리는 “정치인들은 자기 후보에게 유리한 결과가 나온 여론조사는 훌륭하다고 하고 불리한 여론조사는 비과학적이라고 우긴다”고 말했다. 이런 말은 요즘에도 정치하는 사람으로부터 종종 들을 수 있는 말이다.

여론조사에 대한 불신을 해소하기 위해서는 조사결과를 받아들이는 사람들이 우선 조사에 대한 안목을 길러야 한다. 조사에 대한 안목을 높인다는 것은 조사 과정에서 일어날 수 있는 잘못을 인식하고 그런 잘못이 일어났을 때는 그것을 피해가면서 결과를 올바르게 해석하는 것을 말한다. 조사결과를 대할 때 행간(行間)을 읽기 위해서는 조사과정에 대한 약간의 지식이 필요하다. 이 글에서는 그런 지식을 사례와 함께 제공할 것이다.

표본조사와 대표성

조사에는 학술조사, 시장조사, 여론조사, 선거 여론조사 등 다양한 종류가 있다. 조사의 내용이나 목적이 달라도 본질적으로 대부분의 조사는 같은 성격을 지닌다. 즉 전체를 다 조사하는 것이 아니라 전체의 일부인 표본만을 조사해 전체를 예측하는 구조다. 그러나 표본만 조사해 그 결과로 전체를 예측하는 과정에서 여러 가지 오류와 왜곡이 생길 수 있다. 표본조사 과정은 긴 연결고리로 이어진 매듭과 같아서 각각의 연결고리가 모두 튼튼해야 강한 매듭이 될 수 있다. 조사 과정 중 어느 한 단계라도 잘못이 있으면 전체 조사가 신뢰성을 잃는다.

전체가 아닌 일부 표본을 조사하는 방법은 최근에 개발된 기법이 아니다. 아마 인류의 역사만큼이나 오래된 방법일지도 모른다. 아주 오래전 인류가 짐승 가죽을 쌀과 바꾸는 물물교환을 할 때 받게 될 쌀이 오래되거나 변질된 것은 아니지 우선 한줌 쥐어 냄새도 맡아보고 몇 알 씹어보기도 했을 것이다. 국이나 찌개를 끓이는 어머니는 간이 맞는지 알아보려고 국 한 숟갈을 떠서 맛을 본다. 김치를 담글 때는 절인 배추를 양념에 버무린 뒤 배춧잎 조각을 한 점 떼서 간을 본다. 모두 표본조사다. 표본의 대표성에 대한 생활의 지혜다.

표본의 대표성이란 무엇일까? 이를 알기 위해서는 모집단을 먼저 이해해야 한다. 모집단이란 연구의 대상이 되는 집단이라고 간단히 정의할 수 있다.1 각종 조사의 목적은 특정 모집단의 특성(모여 있는 정도나 흩어진 정도, 혹은 지지율 등의 비율)에 대한 정보를 얻기 위한 것이라고 할 수 있다. 이 정보를 얻기 위해 모집단을 일일이 전부 조사하는 방법을 전수조사라고 한다. 우리나라 인구와 주택을 조사하기 위해 5년마다 한 번씩 하는 인구·주택조사가 대표적이다. 하지만 전수조사는 비용과 시간이 많이 들고 어떨 때는 모집단이 무한히 많아 모두 조사하기가 어렵다. 전구, 타이어, 가전제품 등의 성능을 조사할 때는 제품이 파괴될 수도 있다. 전수조사가 가능하더라도 결과가 정확하지 않을 때도 있다. 우리나라 국보 32호이자 유네스코 세계 문화유산인 팔만대장경의 경판에 대한 전수조사는 이제까지 두 번 있었다. 일제 때인 1915년에 셌을 때는 8만1348개였는데 1975년 문화재 관리국에서 다시 조사했을 때는 8만1240개였다.2

15,000개의 아티클을 제대로 즐기는 방법
가입하면, 한 달 무료!

걱정마세요. 언제든 해지 가능합니다.

김진호jhkim6@assist.ac.kr

-서울과학종합대학원 빅데이터 MBA 주임교수
이 필자의 다른 기사 보기

이전 목록 다음

듣는 DBR 브리핑

질문따라 달라지는 통계, 표본 대표성이 해법

15,000개의 아티클을 제대로 즐기는 방법 가입하면, 한 달 무료!

15,000개의 아티클을 제대로 즐기는 방법
가입하면, 한 달 무료!