Power of Analysis
Article at a Glance –자기계발
미국에서 조사된 결과를 보면 대학 졸업 여부와 소득 사이에는 상관관계가 존재한다. 즉 대학 졸업자는 대체로 소득이 높은 경향을 보인다. 하지만 상관관계를 인과관계와 혼동해서는 안 된다. 즉 두 요인 사이에 상관성이 있다고 해서 그것을 원인과 결과로 치환할 수 있다고 착각해서는 안 된다. 예컨대 대학을 나와야 소득이 높아진다고 해석하는 것은 오류다. 실제로는 소득이 높아서 대학에 진학한 것일 수도 있고, 대학을 안 나와도 높은 소득을 얻을 수도 있다. 상관관계와 인과관계를 명확히 구분해야 하는 이유다. |
담뱃값이 2500원에서 4500원으로 무려 80% 인상된 지 한 달여가 지났다. 정부는 OECD 국가들보다 높은 흡연율을 낮추고 국민건강을 증진시키기 위해 부득이 담뱃값을 올릴 수밖에 없다고 주장한다. 이 말 속에는 담뱃값과 흡연율 사이에 상관관계는 물론 인과관계까지 존재한다는 판단이 들어 있다. 즉 담뱃값과 흡연율은 상관이 있으며 담뱃값을 인상하면 흡연율을 낮출 수 있다는 것이다. 과연 그럴까? 여러 나라들의 실제 사례를 보면 담뱃값과 흡연율 사이에는 어느 정도 상관이 있는 것으로 나타나고 있다. 하지만 담뱃값이 오르면 흡연율이 낮아지는지에 대한 인과적 결론은 나지 않은 상태다. 흡연율은 담뱃값 인상율의 폭과 경제상황, 개인소득 등 다른 요인에 의해서도 영향을 받기 때문이다. 예를 들어 과거에 담뱃값이 2000원에서 2500원으로 인상된 것과 이번처럼 2500원에서 4500원으로 크게 인상된 것은 전혀 다른 상황이다. 더욱이 경기가 활성화되고 소득이 높아지는 상황에서의 담뱃값 인상과 요즘처럼 경제가 어렵고 고용이나 개인소득이 불안한 상황에서의 인상은 그 영향이 전혀 다를 것이다. 이번 글에서는 현실 속에서 자주 혼동하는 상관관계와 인과관계를 다양한 사례와 함께 다뤄본다.1)
사람들은 이것과 저것이 ‘관계가 있다’ 혹은 ‘관계가 없다’라는 표현을 자주 쓴다. 통계적으로 어떤 것들끼리의 관계는 상관관계로 나타낸다. 상관관계는 어떤 변수가 증가할 때 다른 변수가 함께 증가하는지, 혹은 감소하는지 관찰해서 파악한다. 예를 들어 체중과 신장 사이에는 양의 상관관계가 있다고 할 수 있다. 키가 커지면 대체적으로 체중이 증가한다는 의미다. 어떤 상품의 가격과 수요 사이에는 음의 상관관계가 있다고 할 수 있다. 가격이 오르면 대개 그 상품에 대한 수요가 줄어든다. 이런 상관관계가 얼마나 밀접한가는 상관계수로 표시하는데 상관계수는 -1에서 1까지의 값을 갖는다. 상관계수가 음수면 음의 상관을, 반대로 양수면 양의 상관을 갖는다. 상관계수가 0이라면 서로 관계가 전혀 없음을 의미한다.2)
꽤 오래 전부터 사람들은 상관관계의 개념을 이해하고 생활에 적용해 왔던 것 같다. 그중에서도 주로 여러 가지 현상을 설명하기 위한 하나의 방법으로 그것을 그전에 일어났던 다른 사건과 관련시켜왔다. 그렇게 해서 좋은 일이나 나쁜 일에 대한 징조를 미리 알고 대처하려는 목적이었을 것이다. 소크라테스는 재채기를 그의 악처(惡妻)가 발작하는 조짐으로 믿어서 재채기가 나기 무섭게 집을 빠져나갔다고 한다. 유사한 경험이 다른 사람에게도 반복되면 특정 개인으로부터 시작된 조짐이 모든 사람에게 해당되는 징조로 발전한다. 거울이 깨지면 나쁜 일이 일어난다든지, 상여가 지나가는 것을 보면 좋은 일이 일어난다든지 하는 믿음이 그 예다. 상관관계에 대한 추측이 더 많이 축적된 경험을 바탕으로 상당히 세련된 체계를 갖추게 될 때도 있다. 별들의 움직임과 세상의 일을 관련짓는 점성술을 비롯해 골상(骨相), 수상(手相), 관상(觀相), 족상(足相) 등이 그 예다. 그중에서도 주역(周易)은 출생의 사주(四柱)가 동양사상의 근본이 되는 음양(陰陽)이론과 접목되면서 가장 세련되고 정교한 체계를 갖춘 것으로 볼 수 있다.
상관관계가 활용되는 사례는 많다. 예를 들어 자동차보험에 가입하려면 먼저 운전자에 대한 여러 가지 정보를 제공해야 한다. 그중에서도 나이, 성별, 결혼 여부 등은 보험료를 산정하는 데 중요한 기준이 된다. 나이가 25세 미만이면 보험료가 올라가고 운전자가 여자라면 보험료가 낮아진다. 왜일까? 나이와 성별이 사고율과 상관관계를 갖기 때문이다. 즉 젊을수록 사고율이 높고 여자들은 남자에 비해 사고를 덜 낸다. 대학 입시에서는 내신 성적과 수학능력시험이 함께 고려된다. 과연 어떤 성적이 학생의 학력을 더 잘 반영하는가는 입시 성적과 입학 후 성적의 상관관계를 통해 분석할 수 있다. 최근 한 대학교 학생들을 대상으로 조사한 연구에 따르면 내신 성적이 대학에서의 성적과 상관관계가 더 높게 나타났다. 다른 대학의 자료에서도 유사한 결과가 나온다면 수학능력시험을 굳이 치르지 않고 내신 성적만으로 입시가 충분하다는 주장의 근거가 될 수도 있다.
인과관계의 조건
발이 큰 사람에게는 종종 도둑놈 발을 가졌다는 말을 한다. 확인할 길은 없지만 아마도 과거에 도둑 중에는 발 큰 사람이 많았다는 인식이 전해진 탓일 것이다. 비슷한 예로 코가 크면 무엇도 크다는 말이 있다. 이런 상관관계는 구체적인 자료로 입증되지 않은 우스갯소리에 불과할 수도 있고 오랫동안 축적된 경험에 근거한 상관관계로 볼 수도 있다. 하지만 이 말 속에는 어떤 인과관계가 암시돼 있지는 않는 듯하다. 발이 크니까 도둑이 될 것이라든가, 코가 크니까 그것이 클 것이라든가 하는 말을 심각하게 받아들이는 사람은 없을 것이다.
관상에서 나온 말이지만 거의 상식처럼 받아들여지는 말 중에 ‘인중(人中)이 길면 오래 산다’는 말이 있다. 인중이란 코와 윗입술 사이의 오목한 부분을 말한다. 이 말을 어떻게 해석할 수 있을까? ‘오래 사는 사람 중에는 인중이 긴 사람이 많다’고 해석하면 단순히 둘 사이에 상관관계가 있다는 것을 인정하는 것이다. 그러나 ‘인중이 긴 사람은 오래 산다’고 해석한다면 둘 사이의 인과관계를 가정하고 있는 것이다. 그렇다면 상관관계는 원인과 결과의 관계를 나타내는 것일까? 절대 아니다! 상관관계는 어떤 것들 사이의 관계가 밀접하다는 것을 나타낼 뿐이며 어느 것이 원인이고 어느 것이 결과인지에 대해서는 아무 증거를 제공하지 않는다. 문제는 상관관계를 제대로 이해하지 못하는 사람들이 종종 상관관계가 인과관계를 나타낸다고 추측하는 데 있다. 즉 상관이 있으면 그중 하나가 원인이 되고 다른 것은 그 원인으로 인해 생기는 결과라고 해석하는 잘못을 범하는 것이다.
1) 이 글에 제시되는 사례들은 필자의 졸저 <우리가 정말 알아야할 통계상식 백가지(현암사, 1996)>와 <괴짜 통계학(한국경제신문, 2008)>을 참조.
2) 상관계수는 선형(線形: linear) 상관만 측정하므로 상관계수가 0이라는 말은 선형관계가 존재하지 않는다는 의미와 같다.
가입하면, 한 달 무료!
걱정마세요. 언제든 해지 가능합니다.
질문, 답변, 연관 아티클 확인까지 한번에! 경제·경영 관련 질문은 AskBiz에게 물어보세요. 오늘은 무엇을 도와드릴까요?
Click!
회원 가입만 해도, DBR 월정액 서비스 첫 달 무료!
15,000여 건의 DBR 콘텐츠를 무제한으로 이용하세요.