Top
검색버튼 메뉴버튼

MIT Sloan Management Review

군집심리 따른 거품평가 조심! 온라인 평점엔 에누리가 들어있다

사이넌 아랄 | 148호 (2014년 3월 Issue 1)

 

 

편집자주

이 글은 슬론 매니지먼트 리뷰(SMR)> 2014년 겨울 호에 실린 MIT 슬론 경영대학원 경영학 교수 사이넌 아랄(Sinan Aral)의 글 ‘The Problem with Online Ratings’를 번역한 것입니다.

 

몇 달 전, 간단하게 식사를 하러 뉴욕 그리니치 빌리지에 위치한 레스토랑 도조(Dojo)에 들렀다. 나는 내가 도조에 대해 어떻게 생각하는지 잘 알고 있었다. 물론 그럴 수밖에 없지 않은가! 나는 도조에서 직접 음식을 먹었고 직접 도조를 경험했다. 음식은 괜찮았다. 서비스도 괜찮았다. 평균적으로 따져 봤을 때 모든 것이 평균 수준이었다.

 

그래서 몇 개의 별점을 줄지 미리 마음속으로 생각을 해 둔 채 도조의 점수를 매기려고 생활 정보 검색 사이트 옐프(Yelp)에 접속했다. 옐프에 접속해 원하는 페이지로 이동해 의견을 남기려고 버튼을 클릭했다. 그러다가평가를 위해 클릭(click to rate)’해야 하는 버튼 바로 오른쪽에 샤 H.(Shar H.)라는 옐프 사용자가 도조의신선하고 놀랍고 달콤하고 자극적인 생강 드레싱에 대해 장황하게 늘어놓은 글귀가 보였다. H.가 적어놓은 평가의 글 위에는 5개의 붉은 별이 반짝이고 있었다.

 

필자도 마음을 바꾸지 않을 수 없었다. 사실 필자는 도조에 별점을 3개만 줄 생각이었다. 하지만 샤도 일가견을 갖고 있었다. 샤의 말대로도조의 가격은 훌륭했다!’

 

샤의 의견은 나를 변화시켰다. 나는 결국 도조에 4개의 별점을 줬다.

 

최근의 연구를 통해 밝혀진 것처럼 이와 같은 나의 행동은 드물지 않다. 사실 이런 유형의 사회적 영향(social influence)은 전자 상거래와 관련된 결정을 내릴 때 소비자가 가장 신뢰하는 요인 중 하나인 온라인 평점(online rating)을 심각할 정도로 한쪽으로 치우치게 만든다.

 

 

 

문제는 군집 본능이다!

 

우리는 지금 다른 사람들의 의견으로 넘쳐나는 디지털 시대를 살고 있다. 우리는 다른 고객들이 특정한 책을 좋아하는지(혹은 싫어하는지) 잘 알고 있는 상태로 아마존(Amazon)에서 여러 책들을 훑어본다. 익스피디아(Expedia)에서는 사용자 평점을 토대로 여러 호텔을 비교한다. 유튜브(YouTube)를 이용할 때는 시간을 투자할 만한 가치가 있는 동영상인지 판단하기 위해 동영상 아래쪽에 표시돼 있는 추천(thumbs-up) 점수와 비추천(thumbs-down) 점수를 확인한다. 뿐만 아니라 의료진 선택과 같은 중요한 결정을 내릴 때조차 다른 환자가 남긴 피드백의 영향을 받을 수도 있다.

 

대개 우리는 이런 평점을 신뢰하며 이런 평점이 믿을 만하다고 여긴다. 시장조사 기업 닐슨(Nielsen) 2012년에 56개 국에 거주하는 28000명 이상의 인터넷 사용자를 대상으로 설문조사를 실시했다. 그 결과 소비자들은 친구와 가족의 추천을 가장 신뢰할 만한 브랜드 정보원이라고 생각하며 온라인 소비자 평가를 두 번째로 신뢰할 만한 브랜드 정보원이라고 여기는 것으로 밝혀졌다.1  동일한 조사에서 글로벌 응답자 중 3분의 2이상이 이런 플랫폼에 기재돼 있는 메시지를 신뢰한다고 답했다. 4년 만에 15% 증가한 수치였다.

 

이런 신뢰가 잘못된 것일 수도 있다. 문제의 핵심은 주변 사람들과 같은 방식으로 행동하고 생각하도록 만드는 군집 본능(herd instincts, 개인적인 의사결정 역량 부족으로 인해 인간이 느끼는 자연스러운 충동)이다.2  예컨대, 2013 4월에는 금 가격이 두 차례에 걸쳐 30년 만에 최대 하락폭을 기록했다. 당시 시장 연구가들은 금 가격이 그토록 급격하게 하락하는 이유를 정당화하기 위해 온갖 답변을 내놓았다. 하지만 그중 어떤 답변도 그리 설득력 있게 들리지 않았다. <파이낸셜타임스(Financial Times)>의 사라 고든(Sarah Gordon)은 이렇게 기술했다. ‘금 투자자들은 다른 투자자들이 금을 팔아 치운다는 이유로 똑같이 매도한다는 것 외에 다른 결론을 내리기는 힘들다. 다시 말해서 군집 본능이 작용한 것이다.’3

 

사회적 영향 편향

 

온라인 평점을 매길 때는 군집 본능과 긍정적인사회적 영향에 대한 민감성이 더해진다.4 다른 사람들이 특정한 책을 높이 평가하거나, 특정한 호텔이나 레스토랑에 만족을 느끼거나, 특정한 의사를 좋아하는 모습을 포착하면(그리고 온라인상에서 이런 대상에 높은 평점을 부여하는 모습을 포착하면) 우리는 어떤 영향을 받을까? 다른 사람의 긍정적인 평가로 인해 우리 역시 해당 책이나 호텔, 레스토랑, 의사 등에 대해 똑같이 긍정적인 감정을 느끼고 비슷한 정도의 긍정적인 온라인 평점을 주게 된다.

 

최근 필자는 히브리대(Hebrew University of Jerusalem) 경영대학원 부교수 레브 무치니크(Lev Muchnik), 뉴욕대(New York University) 스턴 경영대학원(Stern School of Business)에서 박사 과정을 밟고 있는 션 J. 테일러(Sean J. Taylor)와 함께 어느 소셜 뉴스 수집 사이트에서 간단한 무작위 실험을 진행했다.5  (실험에 대한 자세한 내용이 궁금하다면연구 내용을 참고하기 바란다.) 사이트 사용자들은 마음에 드는 정도를 기준으로 찬성이나 반대를 표시해 뉴스 기사와 사용자 의견을 평가한다. 우리 연구진은 찬성표나 반대표를 하나씩 던져 의견 점수를 무작위로 조작했다. 찬성 표시를 한다는 것은 곧 해당사용자가 등록된 의견을 마음에 들어 한다는 뜻이고 반대 표시를 한다는 것은 곧 해당사용자가 등록된 의견을 마음에 들어 하지 않는다는 뜻이다. 그런 다음 이와 같은 사소한 점수 조작이 추후의 점수에 어떤 영향을 미치는지 측정했다.

 

결과는 매우 놀라웠다. 긍정적인 조작은 긍정적인 사회적 영향 편향을 만들어냈다. 이런 편향은 5달 이상 지속됐으며 결과적으로 긍정적으로 조작된 의견의 최종 점수를 25% 높이는 역할을 했다. 한편 부정적으로 조작된 점수는 조작을 무효화시키는 교정 효과(correction effect)로 인해 상쇄됐다. 물론 부정적으로 조작된 의견을 열람한 사용자들이 부정적인 평가를 남길 가능성이 큰 것 역시 사실이었다. (이것이 바로 부정적인 군집 본능의 증거다.) 하지만 이런 사용자들이 부당하게 부정적인 점수를 받은 것으로 여겨지는 의견을 긍정적으로정정하는 경우가 더 많았다.

 

사회적 영향 편향은 눈덩이처럼 불어나 터무니없이 높은 점수가 되며 이로 인해 긍정적인 평점 거품이 생겨나는 경향이 있다. 긍정적으로 조작된 점수는 통제 집단(우리 연구진이 조작하지 않은 의견)에 비해 10점 이상이 될 가능성이 30% 더 높은 것으로 나타났다. 이 사이트에서 10점을 받는 것은 쉽지 않은 일이었다. 사실 이 사이트의 평균 점수는 1.9점에 불과하다. 하나의 긍정적인 표는 평점 분포 평균에 영향을 미칠 뿐 아니라 분포 곡선의 우측 꼬리 부분이 더욱 길어지도록 만든다. 다시 말해서 최초의 긍정적인 표 하나로 인해 놀라울 만큼 높은 점수가 나올 수도 있는 것이다.

 

 

평점 거품

 

이 같은 사실은 최근 여러 연구팀이 관찰한 온라인 평점 거품 현상을 설명하는 데 도움이 된다. 몇몇 과학자들은 이런 현상을 온라인 평점의 ‘J형 분포(J-shaped distribution)’라 일컫는다. 연구를 통해 온라인 평점이 과도할 정도로 긍정적인 경향이 있다는 사실이 드러났다. 아마존닷컴(Amazon.com)의 제품 평점 분포를 확인하면 부정적(별점 1∼2)인 평가나 대체로 긍정적인(별점 3∼4) 평가보다는 매우 긍정적인(별점 5) 평가가 훨씬 많다. 그 외의 여러 웹사이트에서도 레스토랑, 영화, 서적 등에 대한 사용자들의 평가가 필요 이상으로 긍정적으로 치우쳐 있는 모습이 확인됐다.6

 

우리 연구진이 실험을 통해 확인한 사회적 영향 편향은 이와 같은 거품을 설명하는 데 도움이 된다. 사회적 영향이 긍정적인 군집 효과를 일으키는 반면 부정적인 군집 효과를 초래하지는 않는다면 이전에 다른 사람이 남겨 놓은 긍정적인 의견 쪽으로 치우치는 인지 편향의 비대칭으로 인해 평점 거품이 생길 수도 있다. 다시 말해서 우리는 다른 사람들이 남겨 놓은 긍정적인 의견에 군집하는 반면 부정적인 의견에는 회의적인 태도를 보이는 경향이 있다.

 

 

난 후(Nan Hu), 폴 파블루(Paul Pavlou), 제니퍼 장(Jennifer Zhang)은 온라인 평점의 비대칭 분포를 살펴보기 위한 연구의 일환으로 별도의 작은 실험을 진행했다.7  이들은 학생들을 실험실로 불러 아마존에서 무작위로 추출한 음악 CD의 평점을 매겨볼 것을 요청했다. 연구진은 학생들이 매긴 점수와 아마존 사이트에 올라와 있는 실제 점수를 비교했다. 이들은 CD에 대한 실제 의견을 반영하는 무작위 표본(규모가 작긴 하지만)의 분포가 아마존의 평점 분포와 일치하는지 비교했다. 이들이 연구를 통해 찾아낸 결과는 당혹스러웠다. 우선 실험을 통해 확인한 평점은 거의 정규 분포에 가까웠다. 중간 부분이 높이 솟아 있고(별점이 2∼4개인 경우가 많았다는 의미) 양쪽 끝 부분이 내려가 있는(별점 1개와 별점 5개는 상대적으로 드물었다는 의미) 전형적인 종형 곡선 모양이었다. 하지만 아마존 사이트에 표시된 동일한 CD의 평점 분포 곡선은 알파벳 J와 유사한 모양새(별점 5개가 표시된 의견이 별점 1∼4개가 표시된 의견보다 2배 이상 자주 등장했다는 의미)였다.

 

연구진은 이와 같은 결과가 아마존에서 제품을 구매한 사람들이 자신이 구매한 제품에 긍정적인 반응을 보일 가능성이 크다는 근거라고 해석했다. 자발적으로 구매를 결정했기 때문에 긍정적인 평점에 대한 선택 편향(selection bias)이 생긴다는 것이다. 선택 편향은 J와 같은 분포 곡선의 모양을 설명하는 데 커다란 도움이 된다. (구매자가 직접 의견을 작성하고, 실제로도 긍정적으로 치우치는 경향이 있다면 말이다) 하지만 한 가지 문제가 있다. 아마존은 직접 구매를 한 경우에만 평점을 매길 수 있도록 제한하지 않는다. 그래서 필자는실험을 진행할 때 참가자들에게 평점을 매길 것을 요청하기에 앞서 다른 참가자들이 매긴 평점을 보여줬는지궁금해졌다. 논문에는 실험 환경과 관련된 이런 부분이 설명돼 있지 않았다. 그래서 필자는 직접 연구진에게 서신을 보내 참가자들이 평점을 매길 때 이전 참가자들이 매겨 놓은 평점을 볼 수 있도록 했는지 질문했다. 연구진은 그렇지 않았다고 답했다. 사회적 영향이 초래하는 편향은 이 연구에 포함돼 있지 않았다. 다시 말해서 연구진은 아마존 인터페이스를 모방해 가상 환경을 만들어냈다. 하지만 한 가지 중요한 차이점이 있었다. 평점을 매기는 사람들은 자신의 차례가 되기 전에 매겨진 평점의 분포를 확인할 수 없었으며 평점에 관한 정보를 얻을 수도 없었다.

 

이런 맥락에서 필자가 도조에 준 4개의 별점에 대해 다시 생각해 봤다. 도조를 극찬하는 다른 사람들의 평가를 보지 못했다면 4개의 별점을 줬을까? 다른 사람들의 평가를 보기 전에는 도조에 3개의 별점을 줄 생각이었다. 문득 궁금해졌다. 사회적 영향 편향으로 인해 모든 사람들의 의견이(내 의견뿐 아니라) 긍정적인 방향으로 이동한다면 어떨까?

 

선택 편향(selection bias), 사기(fraud), 사회적 영향 편향(social influence bias) 등 많은 요소들이 온라인 평점의 J형 분포를 초래할 수 있다. 이런 현상들이 결합돼 평점 거품을 만들어낼 가능성도 있다. 하지만 사회적 영향은 특히 중요한 문제를 야기한다. 제어가 힘들 정도로 멋대로 작용하는 밴드웨건 효과(bandwagon effect)를 초래하기 때문이다. 즉 거짓으로 작성된 1개의 긍정적인 평가가 미치는 영향이 제한되지 않는 것이 문제다. 오히려 거짓 평가가 미래의 평점에 지대한 영향을 미친다. 이런 사실 자체도 매우 놀랍다. 더욱 심각한 문제가 있다. 웹사이트가 거짓 평가를 감시하고 제거한다 하더라도 거짓 평가의유산(legacy)’은 사라지지 않는다. 거짓 평가가 진짜로 평가를 하는 사람들의 평점에 영향을 미쳐 편향을 초래하기 때문이다. 이런 유형의 피해는 바로잡기가 매우 힘들다.8

 

기대되는 해결방안

 

앞으로 인간이 갖고 있는 이와 같은 성향에 휘둘리지 않고 속임수와 편향이 발생할 가능성을 줄일 방법을 찾기 위한 연구가 진행될 것으로 보인다. 온라인 평점 시스템이 소비자의 의사결정에 체계적이고 심오한 영향을 미치는 만큼 과학자들은 이와 같은 사회적 과정(social process)이 어떤 식으로 돌아가는지 이해해야 하며 설계자들은 편향과 조작을 줄이는 시스템을 개발해야 한다.

 

평점을 조작하려는 동기와 웹사이트 설계(혹은 웹사이트 규칙) 문제가 더해져 속임수와 긍정적인 평점 거품이 발생할 가능성에 영향을 미치는 경우도 많다. 트립어드바이저(TripAdvisor)와 익스피디아(Expedia)를 비교해 보자. 트립어드바이저는 모든 사용자들에게 의견을 남길 수 있도록 허용한다. 반면 익스피디아는 익스피디아 웹사이트를 통해서 특정 호텔을 최소 일박 이상 예약한 기록이 있는 고객에게만 해당 호텔에 대한 의견을 남길 수 있도록 허용한다. 디나 메이즐린(Dina Mayzlin)과 야니브 도버(Yaniv Dover), 주디스 슈발리에(Judith Chevalier)는 훌륭한 연구를 진행했다. 이들은 연구를 통해 거짓 평가를 올리려는 강한 동기를 갖고 있는 호텔(개별 소유주가 소유한 독립 브랜드)들이 평가를 조작하려는 동기가 약한 호텔(사용자 평가를 통해서 얻을 수 있는 이익이 상대적으로 적고 평가를 조작할 시 감당해야 할 평판 위험이 한층 큰 프랜차이즈 브랜드나 체인)들에 비해 익스피디아보다 트립어드바이저에서 별점 5개를 받는 경우가 훨씬 많다는 사실을 확인했다.9

 

웹사이트의 설계 방식과 정책은 평점 거품에 영향을 미칠 수 있다. 2013, 레딧(Reddit)은 웹사이트 설계를 수정해 관리자들에게의견이 등록된 후 미리 정해놓은 일정한 시간 동안 의견의 득표 수를 숨기는방안을 활용할 수 있도록 했다. 레딧은긍정적이건 부정적이건 시류에 편승해 투표하는 효과를 축소하고 최소화하기위해 이와 같은 기능을 도입했다고 이야기했다.10  주식 시장에도 유사한 정책이 도입됐다. 예컨대 뉴욕 증권거래소(New York Stock Exchange)는 부정적인 군집 효과를 피할 수 있도록 하루 동안 주가가 일정 수준 이상 급락할 경우 거래를 중단시키는서킷 브레이커(circuit-breaker)’ 제도를 활용한다.

 

이 같은 사실이 무엇을 시사하는지 이해하라

 

경영자들은 긍정적인 온라인 평점을 적당히 에누리해서 받아들여야 한다. (비즈니스 리더의 입장에서건 소비자의 입장에서건 마찬가지다.) 긍정적인 평점에 대한 건전한 의심이 인지적으로 사회적 영향 편향을 바로잡는 역할을 할 가능성도 있다. 반면 부정적인 평점의 경우에는 이런 식의 교정이 반드시 필요하지 않을 수도 있다. 또한 관리자들은 평점이 매겨지는 프로세스 초기에 정직하고 긍정적인 평가가 가능한 많이 작성될 수 있도록 권장하고 장려해야 한다. 만족감을 느낀 소비자들이 일찌감치 의견 작성에 참여할 수 있도록 권장하는 체계적인 정책을 도입하면 미래 소비자들의 생각에 영향을 미칠 수 있다. 다시 말해서 미래의 소비자들이 자신이 평가하는 제품이나 서비스에 좀 더 긍정적인 감정을 느끼도록 만들 수 있다.

 

뿐만 아니라 경영자들은 군집 효과와 평점 거품에 대한 이 모든 연구가 정책에 어떤 영향을 미치는지 고려해야 한다. 군집은 광범위하게 봤을 때 온라인 평점(인정하건대 이것 역시 중요하다)의 범위를 넘어서 다양한 환경에서 활동하는 리더를 돕는 시스템 역학이다. 예컨대 주가가 긍정적인 평점과 같은 방식으로 움직인다면 경영자들은 이와 같은 군집 역학이 기업의 주가에 어떤 영향을 미치는지 알고 있어야 한다.

 

실험 결과를 설명하는 행동 메커니즘을 더욱 깊이 파고들던 중 필자들은 우호적인 관계를 맺고 있는 친구들이 좀 더 빠른 속도로 긍정적인 평가에 군집하며 자신의 친구들이 내놓은 아이디어가 부정적인 평가를 받으면 좀 더 신속하게 친구들을 도우려 한다는 사실을 발견했다. 이는 곧 소셜 네트워크의 구조가 평점 거품의 구조에 영향을 미친다는 의미다. 페이스북(Facebook)과 구글(Google) 같은 웹사이트가 좀 더 많은 소셜 평점(친구들이 남긴좋아요(likes)’플러스원(+1)’, 좀 더 공유적 성격을 갖는 지지(more shared endorsements), 친구 지지(friendorsement)’)을 권장하는 만큼 사회적 영향 편향이 평점 거품을 부추길 가능성이 커지고 있다.

 

우리의 실험 조작은 총 투표율을 높이는 역할을 했다. 해당 사이트 내에서 관찰된 긍정성을 향한 보편적인 선호와 투표율 증가 추세가 결합되자 점수는 더욱 높아졌다. 하지만 필자들은 실험 조작이 단순히 좀 더 긍정적으로 치우친 평가자들을 평가에 끌어들이는 역할을 하기보다 실제로 사람들의 의견을 바꿔놓는다는 증거를 발견했다. 어떻게 그런 사실을 알 수 있었을까? 필자들은 투표율(the likelihood of rating, 평점을 매길 가능성)과 긍정성(the proportion of positive ratings, 긍정적인 평점의 비율)의 변화를 분석했다. 필자들은 실험으로 인해 평점 변화가 생긴 것이 좀 더 긍정적인 성향을 갖고 있는 많은 사람들이 평점을 매겼기 때문인지, 좀 더 부정적인 성향을 갖고 있는 많은 사람들이 실제로 생각을 바꿔 긍정적인 평점을 줬기 때문인지 알아내고자 했다. 분석 결과, 필자들은 후자가 원인이라는 사실을 발견했다. 부정적인 평가자들이 긍정적인 평가자들이 돼가고 있었다. 실제로 의견이 바뀌고 있었다.

 

이제 앞서 언급한 군집 효과와 함께 긍정적인 의견 변화를 고려해 보자. 사회에서 이뤄지는 대규모 의견 수집 활동 사례를 살펴보면 필자들이 이 같은 실험 결과를 우려하는 이유가 명확해진다. 우리 연구진은 2012년에 실시된 미 대통령 선거 기간 동안 분석을 했다. 라디오에서 투표할 의향이 있는 유권자(likely voter)들을 상대로 실시한 선거 여론조사 결과를 듣던 중 우리는 다음과 같은 궁금증을 느꼈다. 이런 유형의 여론조사가 선거 결과를 예측하는 것일까, 그렇지 않으면 선거 결과를 특정한 방향으로 몰아가는 것일까?

 

주택 문제에서부터 모기지 담보증권에 이르기까지 최근에 발생한 경제 위기 가운데 상당수의 핵심에 놓여 있는 것은 군집과 거품이다. 다양한 환경에서 군집과 거품이 초래하는 영향으로부터 자유로워지려면 먼저 군집과 거품이 어떻게 작용하는지 이해해야 한다. 따라서 사회적 영향 편향과 평점 거품(사회적 영향 편향에서 비롯된 결과)에 대한 이론 연구와 실험 연구가 좀 더 진행되면 온라인 평점 관리와 마케팅, 평점 사이트의 사용자 설계에 도움이 될 뿐 아니라 인간 사회에 존재하는 다양한 시스템이 탈선하지 않도록 막아주는 정책을 개발하기 위한 노력에도 도움이 될 것이다. 정책 입안자들과 웹사이트 설계자들은 군집 현상을 과학적으로 이해하는 동시에 군집 행동을 피하고 평점 거품을 예방하는 데 도움이 되는 정책과 웹사이트 설계를 개발하기 위해 노력해야 한다. 이런 정책이 선거에서부터 주식 시장, 그 외에 모든 환경에서 발생하는 군집 편향을 줄이는 데 도움이 될 수 있다.



사이넌 아랄

사이넌 아랄(Sinan Aral) MIT 슬론 경영대학원(MIT Sloan School of Management) 데이비드 오스틴 경영학 교수(David Austin Professor of Management) IT/마케팅 부교수다. 이 논문에 관한 의견이 있으신 분은 http://sloanreview.mit.edu/x/55224에 접속해 메시지를 남겨 주시기 바란다. 저자와의 연락을 원하시는 분은 smrfeedback@mit.edu e메일을 보내 주시기 바란다.

 

번역 |김현정 translator.khj@gmail.com

  • 사이넌 아랄 | - (현) MIT 슬론 경영대학원(MIT Sloan School of Management) 데이비드 오스틴 경영학 교수(David Austin Professor of Management) 겸 IT/마케팅 부교수
    smrfeedback@mit.edu
    이 필자의 다른 기사 보기
관련기사