Academia & Business: 구매 추천시스템

빅데이터에서 개인화 자료부터 확보 소규모로 시작해 최적 솔루션 찾아라

146호 (2014년 2월 Issue 1)

 

 

 

 

최근 기업의 정보기술 분야에서 가장 큰 이슈를 들라면 단연코빅데이터일 것이다. 많은 기업이 빅데이터를 어떻게 활용할 것인가, 빅데이터의 어떤 기술을 도입하는 것이 우리 기업의 상황에서 맞는 것인가 등을 고민하고 있을 것이다. 빅데이터를 적용할 수 있는 분야는 다양하지만 많은 기업이 공통적으로 고려하는 것이개인화(personalization)’. 다양한 경로로 수집된 자료, 즉 구매를 비롯한 고객행동에 관련된 자료와 SNS에 올린 메시지 등을 통해서 각 개인의 취향을 알아내고 이를 활용해 각 개인에게 맞는 마케팅과 고객 서비스를 제공하고자 하는 것이 빅데이터를 활용한 개인화다.

 

개인화를 위한 기술은 계속 발전하고 있으며, 특히 고객이 명시적으로 말하지 않아도 고객의 자료로부터 고객의 취향을 추론해 내는 기술은 앞으로 발전의 여지가 많은 분야다. 이 분야의 대표적인 기술이 추천시스템(recommender system)이다. 추천시스템은 다양한 자료로부터 고객의 취향을 추론해 내고 이를 바탕으로 고객이 좋아하고 구매할 만한 제품을 추천해 주는 시스템이다. 아마존이나 넷플릭스는 이런 추천시스템을 잘 활용하고 있으며 추천한 제품의 판매가 전체 매출의 70%에 이르기도 한다.1

 

추천시스템은 현재 기업이 보유하고 있는 데이터를 가장 손쉽게 활용해서 눈에 보이는 차별화된 서비스를 제공할 수 있는 방법이기도 하다. 추천시스템을 웹사이트에 추가하면 눈에 확 띄는 서비스가 될 것으로 예상할 수 있다. 그렇지만 여기에는 경영자가 기대하는 효과와 실제 마주칠 상황 사이에 큰 괴리가 있다. 아마 경영자는 추천시스템을 도입하고 난 후에 아래와 같은 모습을 기대할 것이다.

 

고객이 우리 웹사이트에 방문하면 아마존에서나 보던 추천시스템이 자신에게 맞는 제품을 척척 추천해 준다. 고객은 시간을 많이 들이지 않고 원하는 제품을 추천리스트에서 찾아서 쇼핑을 편리하게 할 수 있다. 그 결과 고객 충성도는 물론 객단가가 올라가서 다시 찾는 고객이 늘어나고 매출과 이익이 크게 향상된다.

 

그러나 실제 마주칠 가능성이 큰 모습은 아래와 같다.

 

고객이 사이트에서 자꾸 필요 없는 물건을 추천해 줘서 짜증이 나고 쇼핑에 방해가 된다고 불평한다. 일부 고객은 자신의 개인정보를 어떻게 빼내서 추천에 이용하는지 밝히라고 이의를 제기한다. 구축하는 데 비용이 많이 들어갔고 이를 유지하는 데에도 적지 않게 비용이 들어가는데 눈에 보이는 효과는 없다. 기대만큼 비용 대비 효과가 없어서 추천 기능을 사이트에서 내려야 할까 고민하게 된다.

 

이 두 가지 시나리오는 추천시스템이 잘 구축된 경우와 그렇지 않은 경우를 좀 과장되게 표현한 것이다. 추천시스템은 잘 구축해 적절히 활용하면 큰 효과를 기대할 수 있지만 그렇지 않은 경우에는 골칫거리가 될 수도 있다. 추천시스템을 제대로 활용하려면 어떻게 해야 할까? 이 글에서는 지난 십 수년간 추천시스템 분야에서 연구된 결과와 추천시스템을 활용하는 기업들의 사례를 바탕으로 추천시스템에 대한 일부 잘못된 인식을 바로 잡고 추천시스템 도입을 고려하는 기업이 활용할 수 있는 가이드라인을 제시하고자 한다.

 

1.추천시스템을 둘러싼 잘못된 이해

 

추천시스템을 잘 알고 있다고 생각하는 사람도 실제 대화를 나눠보면 잘못 이해하고 있는 부분이 많다. 추천 시스템에 대한 몇 가지 편견에 대해서 미리 언급할 필요가 있을 것 같다.

 

오해 1 추천시스템은 모든 제품에 유용하다?

 

연구에 따르면 추천시스템은 제품의 종류에 따라 정확도가 많이 차이가 난다고 한다.2  추천시스템이 잘 작동하는 이상적인 조건은 중간 정도 관여도(involvement) 제품으로 상당히 자주 (최소 연 2∼3회 이상) 반복구매가 일어나는 것들이다. 또한 고객의 취향이 다양하고 제품이 무수히 많아서 고객이 자신에게 맞는 제품을 찾으려면 많은 시간과 노력을 들여야 하는 경우다. 대표적인 것이 영화, 음악, , 패션제품 등이다. 이들의 공통점은 같은 제품이라도 사람에 따라 선호도가 다르고 제품의 종류가 많아서 고객이 평가하기 어렵다는 점이다. 이 경우, 추천시스템이 제품을 정확히 추천해 준다면 고객의 제품 탐색 노력이 크게 줄어들어서 많은 도움이 될 수 있다.

 

 



추천기술의 종류3

추천시스템 중 아마존과 넷플릭스를 포함해서 가장 널리 사용되는 기술은 협업필터링(collaborative filtering)이다. 협업필터링은 추천 대상 고객과 비슷한 취향을 가진 사람들을 찾아내서 이들이 좋게 평가한 제품을 해당 고객에게 추천하는 방식이다. 콘텐트 기반 필터링(content-based filtering)은 텍스트마이닝(textmining) 등의 기술을 사용해서 콘텐트의 내용을 분석해서 추천하는 기술로서 협업 필터링과는 보완적이라고 할 수 있다. 그 외에 전문가의 지식을 추출해서 이를 바탕으로 추천을 하는 지식기반 필터링(knowledge-based filtering)이 있지만 아직은 걸음마 단계라고 할 수 있다.

 

만일 고객의 취향이 다양하지 않다면 추천시스템은 필요 없다. 예를 들어 자동차를 보면 제품의 종류도 많지 않을 뿐 아니라 가격을 고려하지 않는다면 대부분의 소비자들이 좋은 차(, 비싼 차)를 선호한다. 그래서 최종 제품의 결정은 예산이 허용하는 한도 내에서 가장 좋은 차를 선택하는 것이 보통이다. 이와 같이 소비자들의 취향이 매우 비슷하고 가격과 같은 다른 요소가 크게 작용하는 경우에는 추천시스템이 필요 없다.

 

자동차가 추천시스템에 적합하지 않은 또 다른 이유는 관여도가 매우 높기 때문이다. 설혹 고객의 예산까지 고려해서 정확한 제품을 추천해 준다 하더라도 자동차와 같은 고가의 고관여(high-involvement) 제품은 고객들이 직접 결정을 하기를 원할 것이다. 반대로, 관여도가 매우 낮은 음료수 같은 경우는 고객의 취향을 정확히 반영한 추천시스템이 있어도 이를 사용할 필요성을 못 느낄 것이다. 요약하자면 제품의 특성에 따라 추천시스템이 효과적인 제품이 있고 별 필요가 없는 제품도 있다.

 

오해 2 추천시스템은 ERP처럼 패키지로 도입하면 된다?

 

추천을 위한 기술은 매우 다양하며 계속 발전하고 있다. 기술이 아직도 빠르게 발전, 변화하고 있기 때문에 현재에는 어떻게 추천시스템을 구성하는 것이 좋다는 정형화된 솔루션이 없는 상태다. 물론 IBM과 같은 일부 회사에서 패키지 형태의 솔루션이 나와 있고 빅데이터 상황에서 사용할 수 있는 Mahout과 같은 도구가 나와 있기는 하다. 그러나 ERP를 설치하듯이 SI업체에 맡겨서 솔루션을 도입하면 일정 수준의 추천시스템이 단기간에 구축되리라고 기대하면 안 된다. 추천시스템이 ERP처럼 패키지 형태로 구축하기가 어려운 이유는 기술 자체가 아직도 빠르게 발전하고 있기 때문이다. 또 사용되는 정보의 종류가 다양하다는 점 역시 패키지 형태의 구축이 어려운 이유 중 하나다.

 

추천에 사용되는 정보는 고객의 구매 이력, 쇼핑카트 이력, 고객의 과거 방문 이력, 고객의 위치정보, 제품 콘텐츠, 제품 사용후기 등등 매우 다양하다. 어떤 정보를 사용해야 하는지에 대한 정답이 없고 사용되는 정보의 많은 부분이 비정형(unstructured)이다. 그렇기 때문에 ERP 시스템처럼 X를 투입하면 Y가 나온다는 식의 정형화된 공식이 성립하기 어렵다. 기업마다 가능한 정보의 종류와 질이 다르고 같은 정보라도 어떻게 시스템을 구축하느냐에 따라 결과가 많이 달라질 수 있다. 바꿔 말하면, 시스템을 성공적으로 구축하기 위해서는 IT 인력의 역할만큼 발주자의 지식과 협력이 중요한 분야다. 마치 ERP 이전에 각 기업이 각자 시스템을 맞춤형으로 구축하던 시기와 비슷한 양상이다. 물론 미래에는 기술이 안정화되고 추천시스템에 대한 정형화된 틀이 확립되면서 패키지 형태로 구축하는 것이 일반화될 것으로 예상되기는 하지만 그것이 언제가 될지 현재로는 예측하기 어렵다.

 

오해 3 추천시스템은 제품 추천만을 위한 것이다?

 

추천시스템은 그 출발이 제품의 추천을 위한 것이었기 때문에 많은 사람들이추천시스템하면 제품을 추천하는 시스템만을 떠올린다. 사실 추천시스템의 기술은 다양한 분야에 적용될 수 있다. 검색엔진이 대표적이다. 어떤 사람이 네이버나 구글과 같은 검색엔진에 검색 키워드를 입력하면 해당 키워드를 포함한 웹페이지 수는 적게는 수천 개에서 많게는 수백만 개까지 검색된다. 좋은 검색엔진이 되려면 수많은 페이지 중에서 사용자가 필요로 하는 페이지가 어떤 것인지를 정확히 판단해서 이들이 검색 결과의 맨 앞에 보이도록 해야 한다. , 좋은 검색엔진은 사용자에게 맞는 페이지를 추천해 준다는 얘기다. 구글의 경우 어떤 페이지가 사용자에게 적합한지를 판단하는 기준으로서 그페이지의 중요성4 을 사용한다. 지금은 기술이 발전하면서 사용자의 위치정보를 반영하는 등의 다양한 기술이 추가됐지만 기본적으로 구글은 각 페이지의 중요성을 기준으로 사용하며 이 중요성은 사용자에 따라 변하지 않는다. 같은 키워드라면 어떤 사람이 어떤 상황에서 입력하든지 같은 검색결과를 얻으며 개인화는 이뤄지지 않는다. 만일 각 사용자의 특성과 상황을 고려해서 페이지의 적합성을 각 사용자별로 좀 더 세밀하게 판단할 수 있다면 더 정확한 검색결과를 제공할 수 있을 것이다. 실제로 검색엔진의 기술은 개인에 따라, 상황에 따라 검색결과를 맞춤화하는 형태로 발전해 가고 있다. 따라서 미래에는 검색엔진과 추천시스템이 수렴하면서 그 경계가 흐려지며검색엔진=전보추천엔진이 될 것으로 예상된다.

  

 

 

광고도 마찬가지다. 현재 일부 사이트에서 맞춤형 광고(target advertisement)가 시행되고 있지만 아직까지는 현재 고객에게 보여지는 페이지와 관련이 있는 제품 광고를 노출하거나 사용자가 입력한 키워드를 바탕으로 노출될 광고를 선정하는 정도의 맞춤화가 활용되는 수준이다. 사용자에게 좀 더 맞는 광고를 노출시켜서 사용자의 광고 주목도를 높이고 CTR(click-through rate)을 높이려면 결국 각 사용자의 세밀한 취향과 니즈를 알아 내서 최적의 광고를 선정하는 기술이 필요한데 이것이 바로 추천시스템에서 사용되는 기술이다. 정교한 맞춤형 광고를 위해서는 추천기술이 필요하다는 말이다.

 

추천기술이 필요한 것은 콘텐츠도 마찬가지다. 뉴스 사이트에서는 첫 페이지에 표시되는 헤드라인 기사(Headline news)에 독자가 흥미 있어 하는 내용이 많이 있어야 트래픽(page view )이 증가하고 사용자의 만족도도 높아질 것이다. 현재는 대부분 사람이 수작업으로 독자들이 관심을 가질 만한 기사를 선정하고 있다. 이것은 뉴스와 같은 경우는 아직 수작업이 더 정확한 경우가 많기 때문이기도 하다. 그런데 사람마다 관심 사항이 다를 수 있기 때문에 독자 집단별로 헤드라인을 다르게 하려면 독자집단별 취향을 분석하고 관심 있을 것으로 생각되는 기사를 독자 집단별로 선정하는 것이 필요하다. 예를 들어 30대 여성이면서 이러이러한 특징을 가진 사람들에게는 A기사를 먼저 보여주고, 50대 남성이면서 저러저러한 특징을 가진 사람들에게는 B기사를 먼저 보여주는 식이다. 이것이 발전하면서 사용자 집단이 세밀히 분류될수록(가장 극단적인 경우는 각 개인별로 다른 기사조합을 보여주는 개인화된 뉴스사이트일 것이다) 수작업에 의한 기사 선정은 불가능하고 추천 알고리즘을 통한 기사선정을 해야 할 것이다. 콘텐츠의 편집에도 개인화의 정도가 심화될수록 추천기술이 필요할 것이라는 얘기다.

 

또 한 가지 추천 기술의 유망한 적용 분야는 오프라인에서 사용자의 위치정보를 이용한 추천이다. 예를 들어 어떤 고객이 매장에 방문했을 때 NFC RFID카드, 혹은 다른 수단으로 그 고객이 누구인지 인식할 수 있다면 그 고객에게 맞는 맞춤형 서비스를 제공하는 것이 가능할 것이다. , 영화마이너리티 리포트의 한 장면처럼 각 고객이 지나갈 때마다 벽면의 디스플레이에 표시되는 광고나 콘텐츠를 맞춤형으로 바꿀 수도 있고 각 고객에게 스마트폰으로 맞춤형 오퍼(쿠폰이나 이벤트)를 제공할 수도 있다. 위치기반 서비스가 가능하려면 고객의 위치를 아는 것은 기본이고 해당 고객이 그 장소에 무엇 때문에 왔는가에 대한 정교한 추정과 그에 따른 적합한 제품이나 서비스의 선정이 필수적이다. 물론 이것 또한 추천 시스템이다.

 

이와 같이 추천시스템의 중요한 구성요소인 고객의 취향 파악과 필요한 제품/서비스의 선정을 위한 기술은 다양한 분야에 적용될 수 있다.

 

2.추천시스템 활용을 위한 지침

 

많은 기업에서 개인화의 첫걸음으로서 추천시스템을 고려하고 있다. 추천시스템을 활용한 개인화를 고민하고 있다면 아래와 같은 지침을 기억하기 바란다.

 

지침 1 자신의 비즈니스에 추천시스템이 효과적인지 확인하라

 

앞에서 언급했듯이 추천시스템은 제품의 종류에 따라 효과 차이가 많이 난다. 추천시스템의 정확도를 결정하는 근본적인 요인은 고객 선호의 분포가 이질적이냐, 동질적이냐다. 추천시스템을 도입하기 전에 샘플 데이터를 사용해서 본인의 제품/비즈니스에 대한 고객들의 선호도 이질성(preference heterogeneity)을 측정해 봐야 한다는 것이다. 선호도 이질성을 분석하는 방법은 간단한 추천시스템을 구축해서 정확도를 테스트해 보는 방법5 등 큰 비용을 들이지 않고 시도해 볼 수 있는 방법이 여러 가지 있다.

 

 

 

고객의 선호도 특성 외에도 자신의 제품이 어느 정도의 관여도를 보이는 제품인지와 구매빈도를 고려할 필요가 있다. 관여도가 너무 높거나 너무 낮다면 추천시스템을 도입해도 좋은 효과를 기대하기 어렵다. 그렇다면 추천시스템이 적합하지 않은 제품이나 비즈니스에서는 추천시스템을 전혀 사용할 필요가 없는가? 그렇지는 않다. 앞서 설명했듯 추천시스템은 다앙한 분야에 적용될 수 있기 때문에 직접적인 제품 추천은 효과적이지 않더라도 다른 분야에서는 큰 효과를 볼 수도 있다. 예를 들어서 위에서 자동차 자체는 추천시스템의 효과가 크지 않다고 했는데 고객의 정보를 활용해서 자동차 관련 제품이나 보증연장과 같은 추가 서비스에 대한 맞춤형 광고에는 추천 기술을 충분히 활용할 수 있다. 또한 고객의 행동정보를 바탕으로 고객의 선호도를 추정하고 고객이 자동차 매장을 방문했을 때 이를 이용해서 더 효과적인 세일즈를 할 수도 있다.

 

지침 2 소규모로 시작하고 다양한 실험을 통해서 최적의 솔루션을 찾아라

 

위에서 말했듯이 추천시스템 기술은 아직도 진행형이다. , 현재의 기술을 가지고 대규모의 전사적인 추천시스템을 도입하는 것은 위험이 크다. 일단 적은 비용으로 시작할 수 있는 소규모 시스템을 구축해 운영하면서 노하우를 쌓고 효과를 확인한 후에 대규모로 확장해도 늦지 않다. 이때 중요한 것은 시스템이 일단 구축되더라도 그것이 끝이 아니라 시작이라는 생각으로 다양한 실험을 해봐야 한다는 점이다. 어떤 분야에 적용하는 것이 효과적인지, 어떤 세팅이 더 정확한지, 어떤 종류의 데이터를 사용하는 것이 더 좋은지 등에 대해서 계속적으로 실험을 해 봐야 한다. 기존 연구에 따르면 추천시스템의 세팅을 각 개인에게 맞춰서 세밀하게 할수록 정확도가 높아진다.6  추천시스템의 어떤 세팅을 얼마나 개인화하는 것이 좋은지는 비즈니스와 제품에 따라 다를 것이기 때문에 최적 값을 시행착오를 통해서 알아내는 것이 중요하다.

 

기업이 추천시스템 관련해서 실험을 통해 알아내야 하는 것 중 하나는 어떤 알고리즘을 사용할 것인가이다. 추천시스템을 위한 알고리즘은 협업 필터링만 해도 주요한 종류만 수십 가지, 이들의 변형까지 합하면 수백, 수천 가지 알고리즘이 있다. 여기에다 텍스트 분석을 주로 하는 콘텐트 기반 필터링(Content-based filtering)도 고려 대상에 넣는다면 어떤 알고리즘을 사용할지를 결정하는 것이 간단하지 않다. 그래서 소규모로 시스템을 구축하면서 다양한 알고리즘을 사용해 보고 그중에서 어떤 것이 자신의 제품이나 데이터에 맞는지를 확인해 볼 필요가 있다. 연구에 따르면 추천시스템은 다양한 종류의 알고리즘을 결합한 혼합(hybrid) 알고리즘이 더 우수하다. 2006년부터 3년간 넷플릭스(www.netflix.com)에서 일백만 달러의 상금을 걸고 추천시스템의 정확도를 누가 먼저 빨리 향상시키는지를 겨루는 대회(Netflix Prize)를 진행한 적이 있다. 여기에서 우승한 것도 결국 상위권에 있던 세 팀이 연합해서 구성한 혼합 알고리즘이었다. 따라서, 추천시스템 도입을 고려할 때 실험을 통해서 다양한 알고리즘을 어떻게 결합하는 것이 좋은지를 테스트해 봐야 한다. (그림 1)

 

지침 3 미래에 필요한 데이터를 확보하라

 

또 한 가지 매우 중요한 것은 일단 시스템은 소규모로 구축하더라도 앞으로 어떤 정보가 유용할지 모르기 때문에 가능하면 다양한 종류의 데이터를 확보해야 한다는 점이다. 예를 들어, 현재 대부분의 기업에서 버려지고 있는 웹 로그 데이터(log data)고객이 남긴 후기등 획득 가능한 모든 정보를 축적해야 한다. 그래야만 나중에 데이터가 없어서 시스템을 운영하지 못하는 일이 없을 것이다. 특히 POS시스템을 통해 수집된 구매 데이터나 그 외에 고객의 선호를 잘 반영하는 쇼핑카트 정보(어떤 제품을 쇼핑카트에 넣었다가 구매 혹은 포기했는지)나 위시리스트 정보 등은 가능하면 완전한 형태로 잘 보관해야 한다. 데이터 저장비용은 계속 낮아지고 있기 때문에 저장비용문제는 크게 염려하지 않아도 될 것으로 전망된다. 현재 사용되지 않는다고 해서 데이터를 수집하지 않다가 나중에 막상 필요할 때 수집하려면 너무 늦다. 정확한 추천을 위해서는 최소한 몇 년간의 데이터가 필요하기 때문이다. 또한 현재 수집하지 않는 데이터이지만 혹시 나중에 필요할 수 있는 데이터도 확보해야 한다. 예를 들어 현재 소비자가 많이 사용하는 스마트폰의 경우, 고객의 행동정보(화면의 어느 부분을 어떻게 터치하는지, 이동 중에 사용하는지 정지해서 사용하는지 등)와 위치정보(법이 허용하는 한도에서) 등은 미래에 중요한 정보가 될 가능성이 있으므로 가능하다면 축적하는 것이 좋다.

 

 

지침 4 고객에게 추천을 언제, 어떻게 제시할지 고민하라

 

추천시스템의 성공을 위해서는 물론 정확도가 가장 중요하지만 추천의 제시 방식과 시점도 중요하다. 고객에게추천이라고 밝히고 추천 리스트를 제시하는 아마존과 같은 정통 추천시스템의 경우를 생각해 보자. 소비자가 제품 구입의 어느 단계에 있을 때 추천을 제시하는 것이 더 효과적일까? 잘 알려져 있는 바와 같이 소비자는 일반적으로 1) 제품의 필요를 느끼고 2) 제품에 대한 정보를 수집한 후 3) 최종 후보 제품을 3∼4개로 좁혀서 비교하고 나서 4) 최종 구매 결정을 한다. 1)∼4)의 단계 중 언제 추천을 제시하는 것이 구매에 효과적일까? 단계 3)이라고 생각할 수도 있겠지만 연구결과에 따르면 단계 2)라고 한다.7  단계 3)에서는 소비자가 이미 후보 제품군(consideration set)을 선정했기 때문에 이때는 새로운 제품을 제시한다고 해도 이 제품을 후보군에 포함할 가능성은 낮다는 것이다.고객이 구매의 어떤 단계에 있는지 어떻게 알 수 있는지는 별도의 큰 과제이므로 여기서 자세히 다루지는 않겠지만 고객의 구매 단계를 어느 정도 추론할 수 있다면 소비 단계를 고려해 추천을 제시해야 할 것이다.

 

추천을 어떻게 제시하는가 하는 것도 중요하다. 추천을 아마존과 같이 너무 도드라지게 제시하면 고객이 오히려 귀찮아 하거나 거부반응을 보일 수도 있다. 연구에 따르면 고객은 추천을 제시할 때 추천이 어떤 방식으로 이뤄지는지에 대한 정보를 제공하는 경우 추천을 더 잘 받아들인다.8  추천시스템은 반드시 아마존과 같이 명시적인 추천 리스트를 제시하는 방법으로 사용할 필요는 없다. 고객이 추천이라고 느끼지 못하면서 추천을 제시하는 것이 오히려 더 효과가 있을 수도 있다. 예를 들어서 고객이 사이트를 방문할 때 첫 화면에 보통 인기 있는 상품을 제시하는 경우가 많은데 여기에 추천 기술을 활용해서 각 고객별로 선호할 만한 제품을 개인화해서 제시하면 고객의 관심과 매출로 이어질 수도 있다. 아니면 각 페이지의 귀퉁이에 광고형태로 고객이 선호할 만한 제품을 제시하는 것도 한 방법이다.

 

 

임 일 연세대 경영대학 교수 il.im@yonsei.ac.kr

필자는 서울대에서 경영학 학사와 석사를 받은 후 University of Southern California에서 정보시스템 분야 경영학 박사 학위를 받았다. New Jersey Institute of technology 교수를 거쳐 2005년부터 연세대 경영대 교수로 재직 중이다. 주요 관심 분야는 정보기술의 사용과 영향, 개인화, 추천시스템 등이다.

 

 

동아비즈니스리뷰 318호 Dynamic Workspaces 2021년 04월 Issue 1 목차보기