SR1. 감성 분석 활용 사례

“구매후기 한 줄에 고객의 이런 속마음이”
마케팅 난제, 속 시원히 풀어주는 분석

261호 (2018년 11월 Issue 2)

Article at a Glance
최근 ‘글에 내재해 있는 사람들의 주관적 태도나 감성을 추출해 내는 분석 기법’인 ‘감성 분석’에 대한 관심이 높아지고 있다. 감성 분석은 소셜미디어와 같은 웹사이트/매체에서 정보를 수집하는 ‘데이터 수집’ 단계, 수집된 정보에서 텍스트 작성자의 주관이 드러난 부분만을 걸러내는 ‘주관성 탐지’ 과정, 마지막으로 ‘주관성의 극성’이나 ‘정도’를 측정하고 분류하는 과정으로 나뉠 수 있다. 대표적 성공 사례로 초코바 스니커즈의 소비자 감성 변화에 따른 가격변동 마케팅, 국내 유명 화장품 브랜드 에뛰드하우스의 감성 분석 등을 꼽을 수 있다. 감성 분석에 성공하기 위해서는 적용 분야별 특성을 살린 사전을 구축하고, 데이터 수집 전략을 세우며, 다른 데이터와 연계해 다양한 분석을 수행할 수 있어야 한다.


“배고플 때 넌 네가 아니야”
초콜릿 바(Chocolate Bar)로 유명한 스니커즈(Snickers)를 판매하는 식품회사 마즈(Mars)는 식사시간 이후보다 식사시간 이전의 트위터 분위기가 전반적으로 무뚝뚝하고 퉁명스럽다는 것을 알게 됐다. 출출하고 배가 고프니 사람들이 트위터에 올리는 글에도 부정적인 분위기가 반영된 것이다. 초콜릿 바의 특성상 허기가 지거나 피곤할 때 칼로리를 보충하기 위해 소비되는 경우가 많기에 ‘You’re Not You When You’re Hungry(배고플 때 넌 네가 아니야)’라는 마케팅 캠페인을 펼치고 있던 스니커즈는 인터넷상에 표출되는 사람들의 감정과 분위기를 마케팅에 활용하면 어떨까 하는 아이디어를 떠올렸다. 마즈는 먼저 ‘배고픔(Hunger)’과 ‘알고리즘(Algorithm)’을 합성해 헝거리즘(Hungerithm)이라고 하는 유머러스한 단어를 만든다. 이 알고리즘의 핵심은 소셜미디어에서 사람들이 생성하는 문자 코멘트를 실시간으로 분석해 사람들의 감정을 파악하고, 그 결과를 스니커즈의 가격에 실시간으로 반영하는 것이다. 인터넷상에 불평이나 불만, 안 좋은 기분을 나타내는 코멘트들의 양이 많아져서 불만지수가 높아지면 이에 비례해 스니커즈의 가격을 인하해서 판매한다. 배고픔이나 불쾌한 뉴스 등으로 인해 우울함이 느껴지면 그 마음을 아는 스니커즈 초콜릿으로라도 짜증을 덜어보라는 메시지가 담겨 있는 마케팅 캠페인이다. (그림 1)

35-1


헝거리즘은 구체적으로 다음과 같이 작동한다. 먼저 매일 약 1만4000개 이상의 소셜미디어에 포스팅되는 글(예를 들면, 트위터)을 실시간으로 수집한다. 그리고 수집된 글과 미리 설정해 둔 3000여 개의 긍·부정 감성 어휘를 매칭해 행복한 감정을 느끼고 있는 메시지가 많은지, 불쾌한 감정을 느끼고 있는 메시지가 많은지를 분석하고, 이를 통해 사람들의 감정 수준을 10단계로 평가한다. 만약 사람들의 불만지수가 높아지면 이에 비례해 가격의 할인폭이 높아지고, 이렇게 결정된 가격은 앱을 통해 실시간으로 공지된다. 예를 들어, 사람들의 감정이 ‘PRETTY CHILL’이면 가격은 1.75달러가 되고 ‘LOSING IT’이면 0.50달러까지 떨어지는 식이다. 마즈는 고객들이 언제든지 앱을 통해 현재의 가격을 확인하고, 이 가격을 바코드로 생성, 확정해 마케팅을 제휴하고 있는 세븐일레븐 매장에서 상품을 구매할 수 있도록 했다.

마즈는 캠페인 기간 중 이 알고리즘을 통해 가격을 하루 140회 이상 업데이트했는데 불쾌지수가 매우 높았던 며칠간은 최고 82%까지 가격이 하락했다. 또한 당시 미국 대선 후보였던 도널드 트럼프에 대한 뉴스가 나왔을 때 스니커즈의 가격은 61% 하락한 0.78달러까지 떨어져 화제가 되기도 했다.

소셜미디어상에 표출된 사람들의 기분에 따라 자사의 상품 가격을 결정하겠다는 마즈의 캠페인은 온라인과 오프라인을 연계한 마케팅 이상의 효과를 가져왔다. 캠페인 기간 중 매출도 67% 이상 성장했지만 브랜드 관련 언급량이나 웹사이트 방문 고객 수 등은 1000% 이상 증가하는 놀라운 성과를 거둔다.

사람의 마음을 읽고 싶다
앞서 한 사례를 통해 살펴봤듯이 최근 ‘글에 내재돼 있는 사람들의 주관적 태도나 감성을 추출해 내는 분석 기법’인 감성 분석(Sentiment Analysis)에 대한 관심이 높아지고 있다. 이러한 현상은 인터넷과 소셜미디어, 소셜네트워크서비스(SNS) 등의 활성화로 인해 일반 대중이 정보를 소비하는 주체에서 생산하는 주체로 변화하기 시작한 것과 맥을 같이한다. 대중들은 SNS뿐만 아니라 각종 웹사이트의 게시판 참여, 댓글 작성 등의 형태로 자신들의 얘기를 풀어 놓는다. 뉴스 기사 못지않게 기사에 달린 댓글의 내용도 중요해지기 시작한 것은 어제오늘 얘기가 아니다. 온라인 커머스 사이트를 통해 상품을 구매한 고객들은 구매 후기, 또는 상품평을 통해 자신들의 구매 경험을 공개적으로 공유한다. 개인의 주관이 반영된 상품평은 브랜드, 가격 등 객관적 정보 못지않게 사람들의 구매 의사결정에 영향을 끼치기도 한다.

이러한 현실은 소셜미디어라는 새로운 매체의 등장과 함께 대중이 공유하는 정보의 속성이나 유형도 변화했음을 보여준다. 온라인에 문자 형태로 표출된 개인의 ‘평가’나 ‘태도’ ‘감성’과 같은 주관적 언어가 사람들의 의사결정에 중요한 정보의 원천이 된다. 특히 소셜데이터는 대중이 ‘자발적으로 표현한’ ‘가공을 거치지 않은’ ‘날것 그대로의’ 정보에 가까워서 소비자의 욕구를 비교적 정확히 파악할 수 있다는 장점이 있다. 고객의 ‘진짜 마음’을 알고 싶다는 것은 많은 마케터의 소망이었다. 고객의 마음이 담긴 데이터와 이를 분석할 수 있는 방법론은 새로운 기대를 가지게 하는 데 충분하다고 하겠다.

물론, 특정 상품에 대한 소비자의 감정을 파악하기 위해 굳이 문자 데이터에 내재된 감성까지 분석하지 않고, 상품평에 달린 ‘별점’과 같은 간단한 수치 자료를 이용할 수도 있을 것이다. 그러나 별점은 종합적인 만족도만 나타내는 반면 문자로 표현된 상품평에는 어떤 속성이 마음에 들고, 어떤 속성이 실망스러운지 등과 같은 상세한 정보까지 포함하다 보니 그 분석의 깊이는 다를 수밖에 없다. 마케터는 고객의 마음에 대해 궁금한 점이 한두 가지가 아니다. 만족한다면 왜 만족하는지, 불만족한다면 무엇이 불만족스러운지도 알고 싶어 한다.

감성 분석이란?
그렇다면 감성 분석이란 무엇인가? 감성 분석이란 텍스트에 나타난 주관적 요소인 긍정적 감정과 부정적 감정을 판별해 이를 수치나 도식, 등급 등으로 정량화하는 작업을 말한다. 단순히 긍정과 부정을 판별만 하는 것이 아니라 대상이 되는 개체나 속성을 추출하고, 감성을 표현하는 이들의 감정(emotion), 감성(sentiment), 태도(attitude), 입장(stance) 등을 분석한다.

감성 분석은 대중이 실시간으로 만들어 낸 대용량의 텍스트에 사용된 감성 표현 언어들을 ‘추출 - 범주화 및 분류 - 예측’의 단계를 통해 정량화함으로써 의사결정에 도움이 되는 정보를 생성한다. 감성 분석의 다른 표현으로 ‘오피니언 마이닝(Opinion Mining)’이 사용되기도 하는데 ‘감성’ 또는 ‘오피니언’의 분석 대상은 매우 광범위하다. 특정 상품이나 서비스뿐 아니라 특정 주제 또는 사건에 대한 평가가 될 수도 있고, 특정 기업, 서비스, 인물에 대한 지지도, 선호도, 평판 등일 수도 있다. 감성 분류는 일반적으로 극성(Polarity)에 따라 ‘긍정’과 ‘부정’, 이분법으로 분류하지만 경우에 따라서는 ‘중립’이 포함되기도 하고, 극성에 정도(Degree)를 부여해 0부터 10까지의 수치로 표현하기도 한다.

감성 분석에서 가장 중요한 요소는 ‘감성 표현(Sentiment Expression)’이지만 감성 표현은 반드시 특정 대상(Target)을 전제하고 있다는 점에서 ‘대상’과 ‘감성 표현’은 의견(Opinion)을 구성하는 가장 기본적인 요소가 된다. 이러한 감성 표현의 대상은 보통 개체(Entity)라고 부른다. 가령 화장품 상품평의 ‘화사하다, 촉촉하다, 건조하다, 비싸다’ 등은 감성 표현이며, 감성이 표현하는 대상인 화장품, 즉 파운데이션, 립스틱, 클렌징오일 등은 개체가 된다. 또한 개체에 대한 평가는 ‘색깔’ ‘성분’ ‘가격’ 등에 따라 달라질 수 있는데, 이때 개체를 구성하는 ‘색깔’ ‘성분’ ‘가격’은 속성(Aspect)이라고 부른다. 분석 목적에 따라 개체에 대한 전반적인 평가가 아니라 개체가 가진 속성에 대한 감성을 분석한 정보가 필요할 수 있다. 또한 경우에 따라 의견 보유자(Opinion Holder)의 속성(성별, 나이, 직업 등)도 중요한 대상이 될 수 있으며 시간에 따른 추이 등이 중요한 정보가 되기도 한다.

어떻게 분석하나?
감성 분석은 총 3단계로 이뤄진다. 첫 번째 단계는 소셜미디어와 같은 웹사이트 매체에서 정보를 수집하는 ‘데이터 수집’ 단계다. 두 번째 단계는 이렇게 수집된 정보에서 텍스트 작성자의 주관이 드러난 부분만을 걸러 내는 ‘주관성 탐지’ 과정이다. 마지막 세 번째 단계에서는 ‘주관성의 극성’을 미리 정의된 극성(긍정, 중립, 부정 등) 또는 정도(예를 들어, 1: 매우 부정적, 2: 다소 부정적, 3: 중립적, 4: 다소 긍정적, 5: 매우 긍정적 등)로 분류한다.

감성 분석을 수행하는 방법은 크게 기계학습 기반 접근법과 감성사전 기반 접근법이라는 두 가지 형태로 나뉜다. 기계학습 기반의 분석 방법은 주어진 문자 데이터에 존재하는 패턴을 학습해 감성을 분류하는 예측 모형을 구축한 후 학습한 데이터와 유사한 특성을 갖는 분석 대상 데이터에 적용함으로써 감성 분석을 수행한다. 기계학습 기법을 적용하기 위해서는 개별 문서 혹은 문장에 대해 긍정 혹은 부정으로 분류된 라벨(Label)이 붙어 있는 데이터가 다수 있어서 데이터에 의한 학습이 가능해야 한다. 만약 라벨이 부착돼 있는 학습용 데이터가 충분하게 확보되지 않는다면 기계학습을 적용해 모델을 도출하는 것은 불가능하며, 감성사전 기반 분석 방법론을 적용해야 한다.

감성사전 기반의 분석 방법은 수집된 문자 데이터를 전처리해 정리한 후 미리 구축된 감성사전과 매칭한 뒤 어느 쪽 극성의 감성어가 많이 나오는지를 정량화해 감성을 분석하는 방법론이다. 일반적인 사전이 단어의 의미나 어원, 문법적 정보 등의 내용을 중심으로 구성돼 있다면 감성사전은 각 감성어와 해당 감성어의 극성 범주, 감성 점수로 이뤄져 있다. 예를 들어, 감성사전에 ‘화나다’ ‘실망이다’ ‘괜찮다’ ‘추천한다’ ‘강추한다’ 등의 감성 단어가 있을 때, ‘화나다’는 ‘매우 나쁘다’(-2), ‘실망이다’는 ‘나쁘다’(-1), ‘괜찮다’는 ‘대체로 좋다/적당하다’(0) ‘추천한다’는 ‘좋다’(+1), ‘강추한다’는 ‘매우 좋다’(+2)와 같이 긍정 혹은 부정에 관한 극성 범주 값과 범주별 특성을 나타내는 감성 점수로 구성된다.

감성사전 기반 분석 방법의 경우 그 성과는 미리 구축된 감성사전의 품질과 직결된다. 다시 말해, 사전에 얼마나 많은 감성 어휘를 포함하고 있는지, 부여된 감성 점수가 정확한지에 따라 분석 성과가 크게 달라진다. 만약 감성을 측정하고자 하는 문장 중에 나온 감성 단어가 사전에 미리 등록돼 있지 않는 단어일 경우 해당 단어는 감성 측정 시 제외돼 정확한 감성 측정을 못하게 된다. 감성 단어별 감성 점수 부여에도 신중을 기해야 한다. ‘좋다’와 ‘환상적이다’는 둘 다 긍정적인 감성을 나타내는 단어이나 후자의 강도가 조금 더 강하다고 볼 수 있다. 이러한 차이가 감성 점수에 적절히 반영돼 있어야 정확한 결과가 도출된다. 게다가 일부 감성 단어의 경우 어떤 대상에 대해 언급하는가에 따라 같은 단어지만 반대의 극성을 가지기도 한다. 가령, 화장품에 관한 상품평에서 ‘잘 지워진다’라는 감성어가 있을 때 클렌징폼을 대상으로 하는 언급이라면 ‘이 클렌징폼은 잘 지워져서 좋다’라는 뜻이 되지만 립스틱이나 파운데이션을 대상으로 하는 평가라면 ‘색이 금방 지워져 버린다’는 부정적 의미가 된다. 감성사전을 구축할 때 해당 분야에서 사용되는 대부분의 감성어를 포함하고 있어야 한다는 점, 극성 및 범주 값을 정확하게 부여해야 한다는 점, 분석 대상에 따라 극성이 달라지는 감성어에 대한 고려를 해야 한다는 점 등 해결해야 할 요소가 매우 많다. 제대로 된 감성사전을 구축하는 일은 많은 고민과 비용을 요구하는 과업임에 틀림이 없다.

속성 기반 감성 분석
감성 분석은 문서나 문장 단위로 이뤄지는 것으로 생각하기 쉽다. 문서와 문장 수준의 감성 분석은 특정한 문서 혹은 문장을 전반적으로 봤을 때 긍정적 부류에 속하는지, 부정적 부류에 속하는지 분류하는 것을 목표로 한다. 어떤 상품에 대해 ‘전반적으로 긍정적이다’, 또는 ‘전반적으로 부정적이다’라는 분석 결과도 유용하기는 하다. 그러나 감성 분석 결과를 마케터들이 활용하기 위해서는 단순히 ‘좋다’ ‘나쁘다’의 평가보다는 소비자가 상품이나 서비스의 ‘무엇을’, 또 ‘어떤 이유로’ 좋아하고 싫어하는지에 대한 정보가 필요하다. 예를 들어, ‘이 노트북은 기능은 좋은 편이지만 너무 무거워 가지고 다니기 힘들다’라는 문장이 있다고 하자. 이 문장에 나타난 고객의 전반적인 감성을 평가하는 것도 의미가 있겠지만 고객이 이 노트북의 어떤 점을 좋아하고 싫어하는지를 파악할 수 있다면 훨씬 더 유용한 정보일 것이다. 최근 속성 단위의 감성 분석이 주목을 받는 것은 이렇게 분석 대상을 더욱 정교하게 구분함으로써 분석 결과의 활용성을 높일 수 있어서다.

속성 단위 감성 분석은 문서 또는 문장 수준의 감성 분석에 비해 정교한 분석 방법을 요구한다. 감성 표현의 대상이 무엇인지, 그 대상의 어떤 특성을 좋아하고 싫어하는지 파악해야 하기 때문이다. 앞에서 예로 든 ‘이 노트북은 기능은 좋은 편이지만 너무 무거워 가지고 다니기 힘들다’라는 상품평을 분석해 보자. 이 문장에서 개체는 ‘노트북’이고, 개체가 가진 여러 속성 중 ‘기능’과 ‘중량’에 대해 상반된 감성을 표현하고 있다. 속성 단위 감성 분석에서는 전반적인 긍정, 부정이 아니라 ‘기능’이라는 속성에 대한 감성은 긍정적인 것으로, ‘중량’이라는 속성에 대해서는 부정이라는 감성 분류 결과를 제시한다. 아마도 이 노트북과 관련해 다른 소비자가 작성한 상품평에도 ‘기능’이나 ‘중량’이라는 속성과 관련한 평가가 있을 것이다. 속성 단위 감성 분석은 다수의 문서에서 나타나는 속성별 감정, 또는 평가를 해당 속성별로 취합해 제공함으로써 정교한 분석 결과를 제시하게 된다. 속성 단위 감성 분석을 수행하기 위해서는 의견의 대상이 어떤 속성으로 구성돼 있는지 속성들을 설정한 다음 각각의 속성에 따른 감성 표현을 찾아 그 어휘가 긍정을 표현하는지, 부정을 표현하는지 분류할 수 있어야 한다.

감성 분석과 딥러닝(Deep Learning)
앞서 감성사전 기반 분석 방법을 살펴봤다. 만일 개별 문서 혹은 문장에 대해 긍정 혹은 부정으로 분류된 라벨이 있는 데이터가 다수 있어 학습이 가능하다면 사전을 만드는 부담을 가질 필요 없이 기계학습 기반 방법론을 도입해 볼 수 있을 것이다. 기계학습 기반 방법론은 문서 데이터의 학습을 통해 분류 모형을 구축하고, 여기서 도출된 모형을 적용해 감성을 분석하는 것이다. 기계학습 기법 중 지도학습(Supervised Learning) 기법들이 주로 사용되는데 나이브 베이즈 분류기(Naive Bayes Classifier), 결정트리 분류기(Decision Tree), kNN 분류기(k-Nearest Neighbors), 신경망 분류기(Neural Network), 서포트 벡터 분류기(Support Vector Machine), 최대 엔트로피 모델(Maximum Entropy) 등이 그것이다. 1

한편, 텍스트는 그 특성상 데이터의 구조가 희소하고, 차원의 수가 크기 때문에 위와 같은 전통적인 지도학습 기법을 적용할 경우 텍스트 처리의 효율성과 분석 성과를 높이기 위한 특성의 추출 및 선택 등의 변수 추출 과정이 매우 중요하다. 그러나 이 과정은 많은 시간과 노력이 소요될 뿐 아니라 분석의 성과를 어느 이상 높이는 데 한계가 있다는 문제가 있다. 최근에는 이러한 과정 없이 단어의 특성을 저차원(low dimension)상의 실수 벡터값으로 나타내는 방법인 워드 임베딩(word embedding) 기법이 등장하면서 자연어를 다루는 연구 분야에서 많은 주목을 받고 있다.

워드 임베딩 기술은 단어들의 의미가 유사할 경우 벡터 공간상(Embedding Space)에 가깝게 배치해 단어들 간의 어휘적 관계를 벡터로 표현하는 효과적인 단어 표현 방법이다. 대표적인 워드 임베딩 방법으로는 구글 연구진이 개발한 Word2vec 등을 들 수 있다. 감성 분석에 워드 임베딩과 결합한 딥러닝(Deep Learning) 기법이 우수한 성과를 보인다는 연구 결과들이 축적되면서 최근에는 다양한 모델이 제시되고 있다. 특히 딥 뉴럴 네트워크(Deep Neural Networks)를 기반으로 감성 분석을 수행할 경우, 기존의 전통적인 기계 학습의 분류기에 입력으로 사용되는 특성들의 차원 수가 많아졌을 때 성능이 저하되는 것을 보완할 수 있을 뿐 아니라 변수 추출 과정 없이 텍스트에서 자동으로 특성을 추출하기 때문에 감성 분석과 관련한 분야에서 활발히 연구되고 있다. 감성 분석에 대표적으로 많이 활용되는 딥 러닝 모델에는 CNN(Convolutional Neural Network)과 LSTM(Long Short-Term Memory Network) 등이 있다.

화장품 브랜드 ‘에뛰드하우스’의 감성 분석 기반 마케팅 대시보드 구축 사례
최근 한국 화장품 산업은 높아진 제품의 품질에 한류 열풍으로 세계인의 관심이 더해져 국제적인 경쟁력을 가진 산업으로 성장하고 있다. 유로모니터(Euromonitor)지는 2018년 기준 한국의 화장품 시장 규모가 120억 달러를 상회할 것으로 전망했는데 이는 국가별로 볼 때 세계 8위 수준에 해당한다. 화장품 시장은 트렌드와 유행이 매우 빨리 변하고 고객들이 이러한 변화에 매우 민감하다는 특징이 있다. 특히 국내 소비자들은 매우 감각적이어서 새로 출시되는 상품이나 마케팅에 예민하게 반응한다. ‘한국 시장에서 성공하면 세계 시장에서도 성공한다’라는 말이 나오는 이유기도 하다.

화장품 머천다이저의 중요한 과제 중 하나는 급변하는 시장을 읽고, 고객의 기호가 어떻게 변화하는지를 상시적으로 관찰하고 감지하는 일이다. 또한 고객의 충족되지 않은 욕구(unmet needs)나 페인 포인트(pain point)에 대한 정확한 분석을 통해 새로운 상품 기획 및 개발을 포함하는 다양한 마케팅 전략을 수립하는 일 역시 매우 중요하다.

에뛰드하우스는 아모레퍼시픽그룹의 계열사인 ㈜에뛰드의 화장품 브랜드로 상대적으로 젊은 여성층을 주요 고객층으로 독립적인 로드숍(Road Shop)을 통해 상품을 판매한다. 에뛰드하우스는 오프라인 매장을 중심으로 운영하지만 주요 고객층이 디지털 친화력 및 접근성이 매우 높은 그룹이라 온라인을 통한 정보 제공 및 각종 프로모션 수행 등 마케팅 활동을 적극적으로 병행해 오고 있다. 그러나 요즈음의 고객들은 각종 소셜미디어를 통해 고객들끼리 상품 관련 정보를 공유하거나 상품에 대한 구매 후기 등을 참고하는 일이 일상화되고 있어 에뛰드하우스에서 제공하는 정보만을 참고하지는 않는다. 이렇게 인터넷과 소셜미디어상에서 고객들의 의견이 여과 없이 공유되는 현상은 한편 위협적으로 느껴질 때도 있다. 하지만 소셜미디어상에 표출되는 다양한 의견들, 구매 후기 등은 진솔한 고객의 목소리를 들을 수 있는 있는 중요한 창구라는 점에서 소중한 존재이기도 하다. ‘현재 출시하고 있는 다양한 상품에 대해 고객들은 어떻게 생각하고 있는지?’ ‘지난번에 시도한 마케팅 캠페인은 성공적이었는지?’ ‘이번에 출시한 상품은 어떤 점이 마음에 드는지?’ 등 고객의 목소리를 통해 듣고 싶은 이야기는 한두 가지가 아니다. 과연 소셜미디어상에 존재하는 다양한 형태의 고객 데이터는 이러한 질문에 답할 수 있을까?

에뛰드하우스는 마케팅 전략 수립에 있어서 고객 감성에 대한 이해의 중요성을 인식하고 소셜미디어상에 문자 데이터 형태로 존재하는 자사 브랜드와 관련한 고객들의 목소리를 상시적으로 분석해 청취하는 메커니즘을 구축하기로 했다. 첫 번째 시도로, 화장품 관련 상품의 구매 후기에 있는 문자 데이터를 수집하고 감성 분석 기법을 적용해 분석해봄으로써 고객의 자사 브랜드 상품들에 대한 생각을 읽어보는 모형을 구축했는데 필자도 전 개발기간에 걸쳐 모형개발에 참여했다. 개발된 모형을 상시적으로 운영함으로써 향후 머천다이저들을 위한 마케팅 대시보드를 제공하는 것을 목표로 했다.

준비 과정에서 제일 먼저 맞닥뜨린 문제는 국내 텍스트 분석 기반 환경의 취약성으로 인한 것이었다. 화장품 산업에 적용 가능한 전처리 사전, 형태소 사전은 물론, 속성어 및 감성어 사전이 부재해 텍스트 분석을 위한 인프라 구축부터 시작하기로 했다. 본 프로젝트는 이러한 문제들을 효과적으로 해결하면서 감성 분석을 활용한 VOC 모델의 구축 및 효과적 활용 방안의 도출을 목표로 진행됐다.

1단계 데이터 수집: 먼저 분석에 필요한 데이터를 수집하고 정제하는 작업이 이뤄졌다. 뷰티 관련 웹사이트의 관련도 높은 게시판을 선별하고, 주요 쇼핑몰의 화장품/미용 카테고리의 상품평들 중에서 분석 기간에 해당하는 데이터를 수집했다.


2단계 데이터의 전처리: 데이터의 수집 이후에는 데이터에 대한 전처리 작업이 요구된다. 텍스트 데이터의 전처리란 자연어로 표현된 텍스트 데이터를 컴퓨터가 이해할 수 있도록 단어들을 식별하고, 해당 분야에 적합한 의미 정보로 변환해 추후 텍스트 분석에 이용되는 대표적인 단어들을 추출하는 과정이라고 할 수 있다. 또한 전처리 과정에서는 같은 의미를 가진 단어들의 다양한 형태를 하나의 타깃(Target)형으로 통일해줌으로써 분석 정확도를 제고하는 역할도 한다. 예를 들어, ‘1일 1팩’ ‘1일 일팩’ ‘일일일팩’ ‘하루 한팩’ ‘하루일팩’ 등의 다양한 형태를 보이지만 같은 의미를 가진 단어를 모두 ‘1일 1팩’으로 통일해주는 것이다.


3단계 형태소 사전의 구축: 단어를 형태소 단위로 분석하기 위해 형태소 사전이 요구되는데 기존 한글 텍스트 분석을 위한 형태소 사전은 화장품 산업의 특수성을 반영하지 못한다는 문제점이 있다. 범용 형태소 사전에 기반한 형태소 분석기는 일반 용어가 아닌 화장품 산업에 특화된 단어가 나올 경우 이를 인식하지 못해 형태소 인식에 실패하는 경우가 발생한다. 화장품 산업에서 자주 사용되는 단어들을 분석에 포함하기 위해서는 해당 산업에 특화된 형태소 사전이 필요하다. 이 프로젝트에서는 수집된 단어에 대한 분석을 통해 사전에 포함할 단어들을 선별, 추가함으로써 화장품 관련 문자 데이터를 소실됨 없이 분석할 수 있는 인프라를 구축했다.


4단계 속성어 사전 구축: 앞에서 속성 기반 감성 분석 방법론에서도 언급한 바와 같이 감성 분석의 적용 대상은 문서나 문장, 속성 등 다양하다. 하지만 마케팅 인사이트 도출을 위해서는 속성 단위의 감성 분석 접근법은 필수적이다. 예를 들어, “멜로우 젤리팟 아이섀도우는 색상은 정말 환상적인데 가루 날림이 약간 있다”라는 상품평이 있다고 하자. 한 문장 내에서 ‘색상’이라고 하는 속성에 대한 (강한) 긍정과 ‘가루 날림’이라고 하는 속성에 대한 (약한) 부정이 동시에 나타나고 있다. 그런데 속성 기반 감성 분석을 위해서는 먼저 해당 감성어가 어느 속성에 관해 서술하고 있는지에 대한 파악이 중요하다. 속성어 사전은 화자가 어느 속성에 대해 서술하고 있는지를 자동으로 찾기 위한 기반 작업이다. 먼저 속성어들을 선별하고, 비슷한 속성어들의 통칭인 속성 개념을 도출한 후, 이를 다시 속성어들에 매칭함으로써 속성어 사전을 구축했다.


5단계 감성어 사전 구축: 감성어 사전은 감성어와 감성어별 극성 및 강도로 구성된다. 감성어 도출을 위해 수집된 다수 문서의 형태소를 분석해 감성어 후보를 도출했다. 속성 기반 감성 분석을 적용할 경우 감성어 리스트는 속성별로 분류돼 도출된다. 감성어는 어떤 속성에 대해 이야기하고 있는가에 따라 달라지기 때문이다. 경우에 따라서는 동일한 감성어가 어느 속성에 관해 서술하고 있는가에 따라 극성이 바뀌기도 한다. 본 프로젝트에서는 이렇게 속성에 따라 극성이 변하는 형태의 감성어를 ‘특이 감성어’라 명명하고 별도로 관리, 구축했다.


6단계 감성 분석 모형의 구축 및 결과 도출: 속성 기반 감성 분석 모형은 감성어와 빈도수를 고려하는 사전 기반 방법과 속성어와 감성어의 문장 패턴을 고려하는 규칙 기반 방법을 병용한 형태로 구축했다. 분석 예를 살펴보자. 다음과 같은 구매후기(그림 2)가 있다고 가정하자.

41-1


먼저, 문장 단위로 구분한 상품평에 대해 형태소 분석을 수행해 품사 패턴을 도출하고 품사 패턴과 감성어 사전의 속성어 정보를 활용해 물리적인 문장을 논리적인 속성 문장들로 분리한다. “컬러는 정말 예쁜데 가루 날림이 너무 심해요”에 대한 형태소 분석을 통해 도출한 ‘명사’-‘부사’-‘형용사’-‘명사’-‘부사’-‘형용사’ 패턴과, 명사가 속성어에 해당하는지에 대한 정보를 통해 하나의 문장을 두 개의 속성 문장으로 분리할 수 있다. (그림 3)

다음으로, 분리된 해당 속성 문장에 포함된 형용사 및 동사의 감성 점수와 부사의 가중치 등을 미리 구축해 놓은 감성어 사전에서 추출한다. (그림 4)

마지막으로 해당 속성에 대한 감성 점수를 감성어 가중치 및 점수를 곱해 합산하는 방식으로 산출한다. 예를 들어, “컬러는 정말 예쁘다”에 포함된 부사 ‘정말’에 대한 가중치 +2와 ‘예쁘다’에 대한 점수 +1을 곱해 ‘컬러’에 대한 감성 점수를 2점으로 계산하는 식이다. (그림 5)

42-1


이렇게 산출된 수많은 문장에 대한 감성 점수들은 속성 개념별로 합산된다. 예를 들어, ‘컬러’ ‘칼라’ ‘색깔’ ‘색상’ ‘색감’ ‘색’ 등과 같은 속성어들은 ‘색상’이라는 하나의 속성 개념을 표현하고 있다. 이렇게 다양한 속성어 표현에 대한 감성 점수를 속성 개념별로 합산하고 평균값을 도출하는 과정을 통해 고객들이 해당 상품에 대해 생각하는 속성별 감성을 측정한다. [그림 6]은 이 과정을 도식화해서 보여준다.


[그림 7]은 위와 같은 과정을 도출된 A 상품에 대한 속성별 감성 분석 결과를 히스토그램을 통해 보여주고 있다. 여기서 Y축은 상품의 속성을, X축은 속성별 감성 점수를 나타낸다. 그림에서 제시하고 있는 바와 같이 고객들이 본 상품에 대해 갖는 긍정적인 감정과 부정적인 감정은 속성별로 다름을 알 수 있다.

43-1


[표 1]은 경쟁사 상품을 포함한 주요 상품을 대상으로 측정한 전반적인 감성 점수를 나타낸다. 상품별 감성 점수는 속성별 감성 점수를 평균을 내어 도출하거나 설정된 속성별 가중치에 의거한 가중 평균으로 도출될 수 있다. 경우에 따라서는 언급된 속성 개념의 빈도수를 가중치로 활용하기도 한다. 해당 속성 개념에 대한 언급 빈도가 높다는 것은 고객들이 해당 속성 개념을 상대적으로 중요하게 생각한다고 가정할 수 있기 때문이다.

44-1


감성 분석의 활용 방안
지금까지 살펴봤듯 감성 분석 결과는 우선 현재 우리 상품에 대해 고객의 주관적 감정이나 평가를 계량화된 지표를 통해 상시적으로 확인할 수 있다는 점에서 의의가 있다. 또한 속성별 평가를 통해 고객이 상품의 속성 중 만족하는 부분과 만족하지 못하는 부분에 대한 분석도 가능하다는 점에서 그 유용성은 배가된다. 나아가, 주요 경쟁 상품에 대한 분석 및 비교를 수행할 경우 많은 마케팅 인사이트를 얻게 될 가능성이 높아질 것이다. [그림 8]은 자사의 상품과 주요 경쟁 상품에 대한 구매 후기를 속성 기반 감성 분석을 통해 분석하고 이를 비교가 쉽도록 도식화한 것이다. 어느 속성이 경쟁 상품에 비해 우위에 있는지, 반대로 어느 속성이 상대적으로 낮은 평가를 받고 있는지가 극명하게 드러난다.

감성 분석 결과를 활용해 마케팅 인사이트를 도출하고자 제시된 [그림 9]는 속성별 상품의 위치를 알려주는 상품지도분석(Product Map Analysis) 그래프다. 이 그래프의 X축과 Y축은 핵심 속성 두 가지로 설정하고, 주요 경쟁 상품을 포함한 자사의 상품을 위치시킨다. [그림 9]의 예시용 그래프는 클렌징 상품을 분석하기 위해 세정력과 가격이라는 두 가지 속성을 기준으로 각 상품의 위치를 표시하고 있다. 이 그래프는 고객의 주관적 인식 관점에서 볼 때 자사 상품의 위치와 경쟁자들의 현황을 한눈에 보여준다는 점에서 흥미롭다.

45-1


[그림 9]에서 한 가지 눈여겨볼 점이 있다. 오른쪽 그래프는 핵심 속성 중의 하나로 ‘가격’을 설정해 분석하고 있는데, 실제로는 상품 가격이 비싼 상품에 대해 긍정적인 평가를 내리고 싼 상품에 대해 상대적으로 부정적인 평가를 내리고 있다는 점이다. 이러한 고객의 지각에는 아마도 브랜드 이미지 등이 영향을 끼쳤을 것이다. 즉, 고객이 가격에 대해 만족하는가, 하지 않는가는 절대적인 가격도 중요하지만 상대적 가격이 중요하다는 점에서 이 결과를 오류가 아닌 현실로 받아들여야 한다. 감성 분석은 사실에 대한 객관적인 분석이 아니다. 고객의 지극히 개인적이고 주관적인 마음을 개략적으로나마 계량화시켜준다는 점에서 의의가 있는 분석이다. 늘 이야기해오지 않았던가? 고객의 속마음을 알고 싶다고.

감성 분석은 또한 고객 세그먼트(Segment)별로, 상품이 판매된 채널별로, 심지어는 계절에 따른 변화에 이르기까지 다양하게 나눠 분석해 볼 수 있다. 고객의 구매후기와 같은 비정형 데이터는 텍스트의 전처리 및 감성 분석 과정을 통해 이미 정형 데이터의 형태로 변환했기에 다양한 양적 분석 방법을 적용해 볼 수 있게 된다. 에뛰드하우스는 텍스트의 전처리 및 감성 분석을 통해 고객의 주관적 감정과 의견을 정형, 계량 데이터로 변환하고, 이를 활용해 기존의 기본적인 분석에 더해 다양한 형태의 테마 분석을 수행하고 있다. 유용성이 검증된 테마 분석의 경우 향후 마케팅 대시보드에 상시적으로 포함돼 마케팅 인사이트 도출에 기여할 것으로 예상된다.

맺는말: 새로운 마케팅 도구, 감성 분석
전통적으로 마케팅 분야는 데이터의 수집 및 분석을 통해 의사결정에 필요한 정보를 생성하는 활동을 가장 적극적으로 수행해 왔다. 그동안의 데이터 분석은 고객 데이터 및 거래 데이터 중심의 정형 데이터를 활용한 분석이 주류를 이뤄왔던 것도 사실이다. 그러나 최근 인터넷이나 소셜미디어를 통해 막대하게 생성되고 있는 문자나 이미지 등의 비정형 데이터는 적절한 분석 기법을 활용할 경우 마케팅 의사결정에 필요한 정보나 지식을 추출해 낼 새로운 가능성을 제시한다.

이 글에서는 소셜미디어상에 고객들이 생성한 문자 데이터를 감성 분석 기법을 통해 분석함으로써 고객들이 특정 상품, 또는 브랜드에 갖고 있는 주관적 의견을 모니터링하는 방법을 설명했다. 앞에서 설명한 텍스트 기반 감성 분석을 활용한 마케팅 조사 도구의 개발에 관심이 있는 독자들을 위해 가장 중요한 포인트 몇 가지를 정리해 보면 다음과 같다.

첫째, 적용 분야별 특성을 살린 사전을 잘 구축해야 한다.

감성 분석을 포함한 텍스트 분석의 성패는 정교한 모델 자체도 중요하지만 분석을 위한 인프라에 해당하는 각종 사전을 잘 구축하는 데 달려 있다. 형태소 사전, 감성어 사전, 속성어 사전 등이 그것이다. 특히 적용하고자 하는 산업 분야에서 특별하게 사용되는 다양한 어휘를 사전에 적극적으로 포함하면서 해당 분야의 특성을 충분히 반영해야 한다. 한 가지 잊지 말아야 할 점은 이렇게 구축된 사전은 지속적으로 업데이트돼야 한다는 사실이다. 최근에는 하루가 멀다 하고 신조어가 쏟아지고 있다. 의외로 신조어는 당시의 트렌드나 감성을 담고 있는 경우가 많아 고객 감성을 이해하는 데 있어서 그냥 흘려버릴 수 없는 대상이다. 분석 성과를 위해 사전의 구축도 중요하지만 구축된 사전의 고도화 및 유지 보수도 매우 중요하다는 것이다.

둘째, 데이터 수집 전략을 세울 필요가 있다.

일단 고객 감성을 분석하는 모형 또는 시스템이 구축되고 나면 구축된 모형의 입력값은 실시간으로 생성되는 문자 데이터들이다. 모형을 통한 상시적인 분석과 활용을 위해서는 고객이 다양한 소셜미디어에 생산하는 막대한 데이터를 체계적이면서도 안정적으로 수집할 수 있어야 한다. 어느 사이트의 데이터를 수집할 것인지? 어떤 주기로 수집할 것인지? 어떤 방법으로 수집할 것인지? 등과 관련한 기술적인 정의부터 시작해 저작권의 침해 요소는 없는지에 대한 법률적인 검토에 이르기까지 종합적인 데이터 수집 전략을 세워 수행하는 것이 중요하다.

셋째, 다른 데이터와 연계해 다양한 분석을 수행해야 한다.

소셜미디어상에서 수집한 문자 데이터는 속성값에 대한 정의가 없는 비정형 데이터인 관계로 통계 등 기존의 양적 분석 방법론을 직접적으로 적용하기 어렵다. 그러나 문자 데이터는 텍스트의 전처리 과정을 거치게 되면 문서, 단어, 빈도 등의 정보를 중심으로 정형화된 데이터가 된다. 데이터가 정형화된다는 뜻은 기존 정형 데이터 분석에서 사용하던 기술 통계나 군집, 연관, 예측 등 다양한 데이터 분석 기법을 사용할 수 있게 된다는 것을 의미한다. 즉, 감성 분석뿐만 아니라 다양한 테마를 설정하고 분석을 수행함으로써 마케팅 의사결정에 유용한 정보를 생성할 수 있다는 것이다. 고객 감성과 관련된 데이터를 데이터웨어하우스에 존재하는 고객 데이터나 거래 데이터 등과 연계해 다양하고 심도 깊게 분석할 경우 시스템이 제공하는 고객과 시장에 대한 인사이트는 더욱 풍성해 질 것이다.

우리는 기업 활동에서 생성되는 데이터, 일반 대중이 소셜미디어 등에 생성하는 데이터에서부터 기계가 자동으로 감지해 생성하는 데이터에 이르기까지 데이터가 넘쳐나는 세상에 살고 있다. 이 막대한 데이터는 귀납적으로 지식을 추출할 수 있는 가능성을 제시하기에 데이터 분석 기술과 분석 방법론을 이해하고 있는 조직에는 매우 소중한 자원이 된다. 고객과 시장에 늘 많은 질문을 던져야 하는 마케팅 분야에서도 역시 그렇다. 이 거대한 빅데이터 분석과 마케팅의 흐름에 제대로 올라타지 않으면 도태될지도 모른다.

필자소개 신경식 이화여대 경영대 교수 ksshin@ewha.ac.kr
필자는 연세대 경영학과를 졸업하고, 미국 조지워싱턴대에서 MBA를 마친 뒤 KAIST에서 경영공학 박사 학위를 받았다. 현재 이화여대 경영대학 교수 겸 대학원 빅데이터 분석학과 학과장, 이화 지식시스템 연구센터 센터장을 맡고 있다. 한국지능정보시스템학회 회장을 지냈고, Harvard Univ., National Univ. of Singapore, Univ. of Hong Kong에서 객원교수로 근무했다. 주요 연구 분야는 경영 빅데이터, 인공지능 응용 분야로, 80여 편의 논문을 국내외 저명 학술지에 발표했고, 10여 차례에 걸쳐 최우수 논문상을 수상한 바 있다.
동아비즈니스리뷰 348호 The New Chapter, Web 3.0 2022년 07월 Issue 1 목차보기