Top
검색버튼 메뉴버튼

SR2. 감성 분석 잠재력과 한계

트럼프 당선 예측했던 그 분석 인간의 언어에서 감정을 읽어내

김범진 | 261호 (2018년 11월 Issue 2)
Article at a Glance
감성 분석은 초기 ‘워드클라우드’라는 이미지가 너무 굳어져 화려하기만 하고 별다른 성과는 내지 못하는 것으로 오해를 받았다. 그러나 ‘진짜’ 감성 분석은 소비자, 유권자 마음속에 숨은 감성을 파악할 수 있는 분석 기술이다. 트럼프 당선 예측이나 구글의 상품 검색 활용에서 그 힘을 보여준 감성 분석은 현재 많은 기업이 사활을 걸고 연구하는 분야이기도 하다. 감성 분석의 가능성과 한계를 정확히 이해하고 ‘어떤 감성이 돈이 되는지’ ‘돈이 되는 그 감성을 다른 범주의 감성과 칼 같이 나눌 수 있는지’ ‘그 감성은 어디에서 시작해 어디를 향하고 있는지’를 점검해보고 방향을 잡는다면 기업의 미래를 바꿀 수 있을지도 모른다.


트럼프 당선을 정확히 예측한 감성 분석 기술
지난 2016년 11월9일, 전 세계 이목은 미국에 쏠렸다. 누가 미국 대통령직을 거머쥐게 될 것인가. 당시 대다수는 민주당 힐러리 클린턴이 공화당 도널드 트럼프를 제치고 당선될 것이라고 내다봤다. 실제 미국 주요 언론사/여론조사 기관 19곳 가운데 17개가 힐러리의 당선을 예측했다.

하지만 막상 뚜껑을 열어 보니 달랐다. 트럼프가 전체 538명의 선거인단 가운데 304명을 확보해 당선 하한선인 270명을 가볍게 넘어섰기 때문. 힐러리를 지지했거나 당선될 것이라고 예상했던 많은 기관은 패닉에 빠졌다. 뉴욕타임스는 “충격적 이변”이라고 표현했고, 로이터통신은 “트럼프가 갑자기 대권을 잡으면서 세계가 충격에 빠졌다”고 전했다.

그러나 트럼프는 ‘갑자기’ 대통령이 된 것이 아니다. 미국 유권자 사이에서 일어난 도도한 변화 흐름을 기존 여론조사(polls) 방식으로 캐치해내지 못했을 뿐이다. 여론조사는 수천 명 안팎의 표본을 대상으로 주로 유선전화, 직접 대면 방식으로 진행한다. 이 방식으로는 여론의 일부만 과다하게 반영해 지지 사실 자체를 숨기는 숨은 유권자(silent majority)들을 포착하지 못한다.

이때 감성 분석(sentiment analysis)이라는 기술이 빛을 발한다. 감성 분석은 인간의 언어에서 감정을 읽어내는 기술로, 이를 활용하면 빅데이터에서 특정 후보에 대한 지지/반대 여론을 추론해낼 수 있다. 감성 분석은 고비용 방식인 기존 여론조사보다 압도적으로 많은 표본 수를 확보할 수 있기 때문에 여론조사에 비해 편향성(bias) 문제에서 상대적으로 자유롭다. 이와 관련해 데이터 분석업체 브랜드워치에 따르면 선거 전날 하루 트럼프 관련 트위터 언급은 490만 건, 힐러리는 270만 건에 달했다.

실제 데이터 벤처기업 제닉AI가 개발한 ‘모그IA’는 미국 대선을 열흘 앞둔 2016년 10월28일부터 “트럼프가 이길 것”이라고 정확하게 예측해 선거 직후 큰 화제가 됐다. 이들은 검색 엔진과 소셜네트워크서비스(SNS) 등에서 2000만 건이 넘는 대량의 데이터를 수집하고, 분류/회귀 등 다양한 머신러닝 기법(DBR minibox: ‘감성 분석 기술 현황과 5대 기술적 난제’ 참고)을 활용해 예측했다. 창립자 산지브 라이는 당시 언론 인터뷰에서 “여론조사 방법은 AI 시대에는 진부한 것”이라고 일갈했다.

감성 분석에 대한 흔한 오해
예전처럼 ‘감성 분석’이라는 단어를 듣고 ‘감성 마케팅’이나 ‘소비자 감성에 대한 직관’ 등 전혀 다른 영역을 떠올리는 경영자들은 이제 별로 없을 것이다. 분명 빅데이터, 혹은 데이터 과학과 연결된 그 무엇, 머신러닝과 딥러닝과 관련된 그 어떤 것이라는 정도는 이제 다 알고 있다. 그럼에도 불구하고 여전히 많은 이는 감성 분석이나 ‘자연언어 처리’라는 말을 들으면 거의 자동적으로 ‘워드클라우드(word cloud)’를 떠올린다. (그림 1)

47-1


워드클라우드는 말뭉치에 많이 쓰인 단어를 크게, 적게 쓰인 단어를 작게 시각화해 텍스트를 요약하는 기술이다. 대통령 취임사나 신년 연설, SNS 여론 분석 등에 단골로 등장하는 아이템이기도 하다. 워드클라우드는 단어 빈도(frequency)가 중심축이다. 감성 분석 초기 기술들은 빈도 정보를 중시한다는 점에서 보면 워드클라우드와 크게 다르지 않다고 볼 수 있다. 예컨대 ‘나이브 베이즈’라는 기법은 긍정/부정 학습데이터에 자주 쓰인 단어가 많이 나타난 문장을 해당 감성 범주로 분류한다. 이 때문에 감성 분석을 워드클라우드 정도로 이해하는 오해가 생긴 것 같다는 생각도 든다.

감성 분석에서 빈도 정보가 중요한 건 사실이지만 그게 전부는 아니다. 문장을 만들 때 단어 순서를 어떻게 배치하느냐에 따라 미묘한 의미 차이가 발생한다. 예컨대 ‘철수 영희 좋아해’ ‘영희 철수 좋아해’ 같은 문장에서 빈도만으로는 두 문장의 의미 차이를 가려낼 수 없다. 실제 최근 감성 분석은 빈도뿐 아니라 단어의 의미, 문장의 구조와 전후 맥락(context)까지 고려해 화자의 마음을 들여다본다.

감성 분석 수준 끌어올린 두 개의 동력: 딥러닝과 단어 임베딩
앞서 설명한 대로 감성 분석에 빈도 정보가 중요한 건 사실이지만 당연히 그게 전부는 아니다. 문장에서 빈도 정보 이외의 다양한 의미를 포착해 낼 수 있도록 해 감성 분석 기술의 도약을 가져온 것이 딥러닝(deep learning)과 단어 임베딩(word embedding) 기법이다.

딥러닝이 주목을 받게 된 계기는 컴퓨터 비전 분야의 ‘올림픽’이라 할 수 있는 ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)의 2012년 대회다. 여기서 제프리 힌튼 교수팀의 AlexNet이 top 5 test error(모델이 예측한 최상위 5개 범주 가운데 정답이 없는 경우의 오류율) 기준 15.4%를 기록해 2위(26.2%)를 큰 차이로 따돌리고 1위를 차지했다. 비전 분야에서 그동안 내로라했던 모델들의 성능을 압도했던 AlexNet은 딥러닝 모델의 일종인 콘볼루션 신경망(Convolutional Neural Network) 1 을 기본 구조로 하고 있다. 2016년 모두를 놀라게 했던 바둑 인공지능 ‘알파고’에도 콘볼루션 신경망이 탑재됐다.

딥러닝 모델이 뜬 이유는 명확하다. 성능이 좋기 때문이다. 그림을 분류하는 것과 같은 특정 태스크에 있어서는 사람보다 잘한다. 그림 분류 대회 ILSVRC에서는 딥러닝 모델(ResNet)이 2015년 사람을 앞섰다. 2018년 10월11일 구글이 공개한 BERT(Bidirectional Encoder Representations from Transformers) 모델은 질의응답(Question Answering) 문제를 사람보다 잘 맞춰서 모두를 놀라게 했다. (그림 2) 난공불락이라고 여겨졌던 자연언어 처리 분야에서도 기계가 인간을 능가했기 때문이다. 딥러닝 모델은 표현력 또한 좋아서 언어의 문법 구조나 의미들을 모델에 내재할 수 있다는 사실이 다수 논문을 통해 알려져 왔다.

48-1


감성 분석 발전의 또 다른 동력은 단어 임베딩 기술이다. 이 기법은 단어를 숫자의 연속인 벡터(vector)로 바꿔준다. 이렇게 되면 단어(벡터) 간 연산이 가능해진다. 예컨대 ‘KINGS - KING = QUEENS - QUEEN’ 같은 등식도 성립할 수 있다. 지난 2013년 구글 연구팀이 ‘Word2Vec’이라는 논문을 발표한 이후 감성 분석 분야에 단어 임베딩 기술이 폭넓게 쓰이고 있다. (그림 3) 이 기술은 특정 단어의 주변 문맥(context) 정보를 해당 단어 벡터에 반영한다. Word2Vec으로 임베딩된 단어 벡터끼리 유사도를 계산해 보면 인간이 느끼기에 비슷한 단어들이 상위에 포진해 있다.

49-1


이처럼 단어 임베딩 기술로 만들어진 벡터들을 딥러닝 모델의 입력값으로 활용하면서 감성 분석 기술 수준이 비약적으로 상승했다. 주변 문맥 정보가 풍부하게 녹아 있는 벡터들이 모델에 들어가고, 딥러닝 모델은 언어의 문법 구조 등 데이터의 복잡한 패턴을 유연하게 포착해 낸다. 학습 데이터의 질만 담보할 수 있다면 얼마든지 좋은 모델을 만들어낼 수 있게 된 셈이다.

좀 더 이해하기 쉬운 예를 들어보면 ‘의사’라는 키워드로 텍스트 데이터를 수집하더라도 수학적 계산을 통해 ‘한의사’ ‘약사’ ‘의약사’ ’의료인’ 등의 유의어가 ‘의사’라는 단어에 근접해 자동으로 등장하는 결과가 나타난다. 비약을 감수하고 좀 쉽게 말해보면, 문맥 속에서 단어가 어떻게 주로 쓰이는지를 파악한 AI는 최초의 설정한 단어와 주로 비슷한 곳에 나타나는 단어를 유의어로 인식하게 된다는 뜻이다.

이처럼 단어 임베딩 기술로 만들어진 벡터들을 딥러닝 모델의 입력값으로 활용하면서 감성 분석 기술의 수준이 비약적으로 상승했다. 주변 문맥 정보가 풍부하게 녹아 있는 벡터들이 모델에 들어가고, 딥러닝 모델은 언어의 문법 구조 등 데이터의 복잡한 패턴을 유연하게 포착해 낸다. 학습 데이터의 질만 담보할 수 있다면 얼마든지 좋은 모델을 만들어낼 수 있게 된 셈이다.

감성 분석, 어떻게 활용되고 있나?
감성 분석은 근래 들어 기업과 정치권 사이에서 수요가 급증하고 있다. SNS 등의 발달로 분석 대상 데이터가 확 늘어났고, 기술이 제법 쓸 만해진 덕분이다. 시장분석업체 트랙티카(Tractica)가 최근 분석한 결과에 따르면 전 세계 감성 분석 시장 규모는 2017년 1억230만 달러에서 2025년 38억 달러 규모로 성장할 것으로 예상된다. 감성 분석은 고객 리뷰 분석, 서비스 평가, 마케팅 개선, 소셜미디어 모니터링 등 다양한 분야에 쓰이고 있다.

감성 분석 성공 사례로 자주 언급되는 것 중 하나는 서두에 나온 2016년 미국 대선이고, 다른 하나는 구글 상품 검색(Google Product Search)이다. 전자는 유권자들의 표심 향방을, 후자는 소비자들의 소비 트렌드를 분석해 각각 권력과 수익으로 연결했다. 유권자와 소비자들의 개별 코멘트로부터 여론, 유행 등 거시적 트렌드를 분석해 낼 수 있다는 점에서 감성 분석의 강점은 뚜렷하다.

50-1


구글은 자사 상품 검색(Google product search)에 감성 분석을 활용한 바 있다. 사용자가 특정 상품을 검색하면 해당 상품 리뷰를 분석해 전체 평점을 보여준다. 속성별 평점 평균 또한 노출한다. 예컨대, 프린터 항목을 검색한다면 사용성, AS, 크기, 디자인 등에 대해 소비자들이 어떤 평가를 했는지 한눈에 알아보기 쉽게 나열하는 방식이다. 이를 통해 소비자들의 구매를 돕는다.

한국 내에서는 아직 정치권은 물론 기업에서조차 제대로 된 감성 분석을 통해 큰 성공을 거둔 사례가 전무하다. 이는 한국어 자연어 처리에 관한 연구가 아직 부족한 탓도 있지만 워드클라우드 등 단순한 빈도 분석이 선풍적 인기를 끈 이후 딱히 눈에 띄는 성과가 나타나지 않자 기업들이 ‘감성 분석이 별 것 아니다’라고 착각한 뒤 큰 투자를 하지 않았기 때문인 측면도 있다. 진짜 감성 분석에 대한 이해를 하기도 전에 ‘맛보기’ 혹은 그 출발점 정도에 있던 ‘시각화 기술’이 마치 감성 분석 혹은 텍스트 분석 그 자체인 것처럼 부풀려졌고, 실망이 커지면서 기업의 제대로 된 투자로 이어지지 않았다는 얘기다. 물론 감성 분석, 오피니언 마이닝은 그 자체로 굉장히 어려운 기술이고 그 핵심인 자연어 처리를 두고 농담처럼 ‘되는 거 몇 개 빼고 다 안 되는 것’이라는 말도 있을 정도이니 현재의 상황이 이해가 안 가는 것은 아니다. 하지만 구글에서 새롭게 개발한 자연어 처리 기법의 성능이 크게 향상된 것으로 나타나고 한국어 ‘말뭉치’ 데이터도 점차 쌓이고 있는 지금 시점에서는 다시 한번 기업들이 관심을 가져볼 만하다는 게 필자의 생각이다. 자신의 제품이나 서비스에 대한 소비자 감성 분석부터 각종 리뷰나 비교 평가에 대한 분석, 광고 이후 감성의 변화 추적이나 브랜드 이미지에 대한 감성 변화 등 예전의 ‘설문조사’ 방식으로는 도저히 알 수 없던 ‘무의식에 가까운’ 소비자 감성을 그대로 캐치할 수 있다는 건 기업 입장에서 엄청난 일이기 때문이다.

감성 분석 분야에서는 특히 주목할 만한 국내 사례는 ‘스캐터랩’이다. 스캐터랩은 지난 2010년 창업한 기술 기반 스타트업으로 사람과 사람 사이의 관계를 분석해주는 일을 핵심 비즈니스 모델로 하고 있다. 스캐터랩의 경쟁력은 데이터와 개발 역량이다. 현재까지 수집/정제한 한국어 대화 데이터가 60억 건이고 구성원 절반이 개발 인력이다.

스캐터랩이 2013년 첫 서비스로 론칭한 ‘텍스트앳’과 2015년 공개한 ‘진저’가 좀 흥미롭다. 텍스트앳은 사용자의 카카오톡 메시지를 분석해 두 사람의 애정도와 호감도 등을 판별해 준다. 쉽게 말해 카카오톡 메시지를 텍스트앳 모델에 넣으면 두 사람이 연인 관계인지 여부를 알려주는 것이다. 진저는 커플 애플리케이션 ‘비트윈’에서 커플이 주고받은 메시지를 가지고 감정, 애착유형 등 리포트를 작성해준다. 텍스트앳은 출시 이후 100만 번 이상 다운로드 실적을 기록하는 기염을 토했다. (그림 5)


스캐터랩이 개발한 감성 분석 모듈은 사용자의 말에 직접적인 표현이 포함돼 있지 않더라도 감정의 종류, 톤, 뉘앙스를 인지한다. 이 모듈이 분류하는 감성의 종류는 긍정, 부정 외에 공포(fear), 슬픔(sadness) 등 다양하다. 어떤 문장이든 그에 대응하는 이모티콘을 붙여주는 모듈도 개발돼 있다. 스캐터랩은 지난해 10억 원 안팎의 매출을 올린 것으로 알려졌다.

스캐터랩이 최근 공을 들이고 있는 분야는 챗봇에 연동한 감정 분석 솔루션이다. 이 솔루션은 사용자가 챗봇과 대화할 때 반려동물과 같은 유대감을 느끼게 하도록 초점이 맞춰져 있다. 다시 말해 감성 분석을 사용자가 ‘편안함’을 느끼게 하는 데 활용하고 있다는 얘기다. 예컨대 사용자가 “집 앞에서 넘어져서 무릎 까졌어”라고 말하면, 봇은 “괜찮아요? 안 다쳤어요?”라고 답한다. 2 ‘넘어져서 다쳤다’라는 의미를 파악하고 챗봇에 위로가 되는 말이 필요하다고 판단하게 하는 데 감성 분석 모듈이 사용되는 것이다. 3

지금까지 소개한 사례를 보면 기업들이 기존의 ‘소비자 리뷰 긍/부정 분석’이라는 기초적인 분석을 넘어 어떤 부분에 최신 기술을 활용할 수 있는지 알 수 있다. 스캐터랩의 분석 방법을 활용하거나 혹은 제휴해 고객과 상담사와의 채팅 혹은 대화 내용을 집어넣어 고객들이 어떤 상황에서, 어떤 심리를 갖고 있는지, 마치 연애감정을 분석하듯 제품이나 서비스에 대한 진짜 마음을 읽어내는 단초를 찾아낼 수도 있을 것이다. 특히 자연어 처리 성능이 향상될수록, 최근 발표한 질의-응답 성능이 대폭 상승한 구글의 BERT 모델 등을 활용하는 등 신모델을 적용해볼수록 고객 상담에 있어서의 챗봇 활용도가 높아질 것이다. 결국 그동안 상담 챗봇이 실패한 이유는 고객의 진짜 마음, 겉으로 나타나는 명시적 표현 뒤에 숨은 감성을 읽지 못해서였기 때문이다.

결론: 감성 분석의 한계와 도입을 위한 점검 포인트
눈부신 기술 발전에도 불구하고 감성 분석의 상업화 수준은 아직 걸음마 단계라고 평가한다. 구글, IBM 등 기업들마저도 감성 분석 그 자체로 수익을 내는 것이 아니다. 이들은 어시스턴트, 왓슨 같은 자사 서비스의 전반적인 만족도 향상을 위해 감성 분석을 끼워 파는 형태로 비즈니스를 하는 경향이 있다. 앞서 언급한 구글 상품 검색마저도 소비자들의 상품 선택에 감성 분석 기술이 도움을 주는 정도일 뿐이다. 구글이 실제 돈을 버는 순간은 개별 소비자가 구매 확정을 했을 때다.

컨설팅 업계에서는 비정형 데이터를 분석한 결과로 클라이언트의 의사결정을 돕는다. 이때 감성 분석 기술이 유용하게 쓰인다. 하지만 대부분 트렌드 분석에 그친다. 다시 말해, 유권자, 소비자 개개인의 취향을 미시적으로 분석, 추적 관찰하는 것이 아니라 특정 기간 불특정 다수를 대상으로 거시적 흐름이나 변화를 잡아내는 정도라는 이야기다. 그 원인으로는 기업이 민감 개인정보에 마음대로 접근하지 못하게 하는 법률적인 문제도 작용하겠지만 기술적인 제약이 더 크게 영향을 미친 것이라고 본다.

시장을 낭만적으로만 접근한다면 비즈니스 모델이 조악해 질 염려가 있다. 감성 분석으로 돈을 벌려면 다음 세 가지 포인트에 대해서 기술적, 비즈니스적 답을 이미 가지고 있거나 답할 준비가 돼 있어야 한다.

1. 어떤 감성이 돈이 되는가
감성을 긍정(positive)과 부정(negative) 두 범주로 나누는 정도는 현재까지 개발된 기술로도 어느 정도 커버가 가능하다. 하지만 이 정도로는 부족하다. 많은 업체가 이 분야에 뛰어들어 기술 개발에 박차를 가하고 있고, 일부 기업은 긍/부정 극성(polarity) 판단과 관련해 경쟁력 있는 상태에 이미 도달해 있기 때문이다. 극성 말고 비즈니스가 될 만한 감성을 찾아야 한다.

그중 하나의 후보는 ‘사랑’이라는 감정이 될 수 있다. 앞서 언급한 ‘스캐터랩’의 경우 연인 사이의 ‘썸’을 분석해주는 서비스 ‘텍스트앳’과 ‘진저’로 많은 주목을 받았다. 스캐터랩 ‘핑퐁’에 내재한 감성 분석 모듈이 지향하는 것처럼 ‘친근함’을 무기로 내세워도 나쁘지 않을 것 같다.

2. 그 감성을 다른 범주의 감성과 칼 같이 나눌 수 있는가
사랑은 기쁨인가, 슬픔인가. 실망과 화남은 다른 감정인가, 아닌가. ‘감정 없음’ 혹은 중립(neutral)이라는 감정은 존재하는가. 사람의 감정을 나누는 것은 사람이 해도 어렵다. 전문가들이 분석해 놓은 감성의 하위 속성들은 생각보다 복잡하다. 서울대 언어학과 신효필 교수 연구팀이 2013년에 발표한 논문에 따르면 인간의 주관성(subjectivity)은 6개 하위 속성으로 분류된다. 감성(emotion), 판단(judgement), 동의(agreement), 주장(argument), 의도(intention), 추측(speculation) 등이 바로 그것이다.

54-1.


최근 카카오가 공개한 이모티콘(그림6)을 보면 감성을 분류하고 재단하기가 어렵다는 걸 알 수 있다. 감성을 극성(polarity), 강도(intensity)의 두 가지 축으로 단순화했음에도 그 안에서도 다양한 스펙트럼이 존재한다.

‘garbage in, garbage out.’ 머신러닝 분야에서 유명한 격언이다. 모델이 아무리 좋더라도 품질이 나쁜 데이터를 학습시키면 해당 모델의 예측 결과는 무의미하다는 뜻이다. 문장에 어떤 감성이 녹아 있는지 사람마다 다르게 판단한다면 당연히 모델도 헷갈릴 수밖에 없다. 목표로 하는 감성을 그 이외의 비관심 감성과 똑부러지게 나눌 수 있어야 학습 데이터의 품질을 어느 정도 보장할 수 있다.

3. 그 감성은 어디에서 시작해 어디를 향하고 있는가
감성은 지극히 개인적이며 주관적인 것이다. 집단의 감성을 대상으로 한 거시 분석도 나름대로의 의미가 있지만 유권자/소비자 개개인을 상대로 한 미시적 접근이 좀 더 유망하다고 본다. 검색이나 추천이 점차 개인화되고 자율주행차나 챗봇 같은 솔루션이 각광을 받고 있는 최근 트렌드를 보면 자명하다. 앞서 언급한 스캐터랩의 지향점 또한 여기에 있고, 구글, IBM 등의 감성 분석 기술이 챗봇 개발과 연동되고 있는 것도 이 때문으로 해석된다.

감성의 종착지 또한 꼭 살펴야 할 부분이다. 예컨대 ‘화질은 좋은데 성능이 나빠’ 같은 문장을 분석해 ‘화질=긍정’ ‘성능=부정’ 이렇게 정확하게 추론하는 분석 기술은 아직 완벽하지 않다. 이는 문장의 문법 구조 분석(parsing), 개체명 인식(Named Entity Recognition), 요소 기반 감정 분석(aspect based sentiment analysis) 등 다양한 자연어 처리(NLP) 기술을 망라하기 때문이다.



요컨대 다음과 같은 조건에 답할 준비가 돼 있다면 감성 분석 비즈니스에 도전해봄 직하다고 감히 생각한다. 우선 비즈니스가 될 만한 감성을 콕 집는다. 이렇게 찾은 감성이 긍/부정 극성이 아니면 좋다(beyond polarity). 관심 감성과 비관심 감성을 칼 같이 나누어 품질 좋은 데이터세트를 만들고 강건한 분석 모델을 만들어 낸다. 감성의 출발지가 개인이고, 그 감성의 종착지 또한 구체적인 제품, 정치인일수록 성공 가능성이 높다. (표 1)


DBR Mini box: 감성 분석 기술 현황과 5대 기술적 난제

감성 분석 기술은 자연언어 처리(NLP)의 하위 분야로 1970년대 비교적 이른 시기부터 연구돼 왔다. 감성 분석 기술은 분류(classification), 회귀(regression), 군집화(clustering), 검색(retrieval) 등 기존 머신러닝 알고리즘을 차용해 주어진 문장의 감성을 인식하는 형태를 기본으로 하고 있다. 다시 말해 감성 분석 모델의 기술적 수준은 기존 머신러닝 기술 발전에 종속적이라는 이야기다. 기술 현황과 그 한계를 섭렵하고 있다면 좀 더 세밀한 비즈니스 모델 설계가 가능할 것이다.

전통 모델
감성 분석 분야에 쓰인 전통적인 모델은 나이브 베이즈(Naive Bayes), 로지스틱 회귀(Logistic regression), 서포트 벡터 머신(Support Vector Machine) 등이 대표적이다. 이 글에서는 설명의 편의를 위해 우리가 관심을 가지는 감성을 긍정(positive)과 부정(negative) 두 범주뿐이라고 가정한다.

나이브 베이즈 모델의 핵심 아이디어는 ‘긍정 꼬리표가 달려 있는 문서 집합에 자주 쓰인 단어가 많이 포함된 문장은 긍정 범주일 가능성이 높다’는 것이다. 좋다, 예쁘다, 행복하다 따위의 단어가 긍정 말뭉치에 자주 쓰인 단어라고 치자. 만약 ‘날씨가 좋다’는 문장이 새로 들어왔다면 이 문장의 감성은 ‘긍정’일 것이라고 예측하는 방식이다. 반대로 나쁘다, 못생겼다, 불행하다 따위의 단어가 부정 말뭉치에 자주 쓰인 단어이고, ‘날씨가 나쁘다’는 문장이 들어왔다면 ‘부정’이라고 예측한다. 나이브 베이즈 모델은 가장 간단하면서도 비교적 좋은 성능으로 오랫동안 관심을 받아왔다.

로지스틱 회귀와 서포트벡터머신이라는 모델은 단어 임베딩 기술로 변환된 단어 벡터들이 모델의 입력값(X)이 된다. 물론 TF-IDF(Term Frequency - Inverse Document Frequency) 또한 이들 모델의 입력값으로 여전히 많이 쓰인다. 학습 대상 말뭉치 내 단어가 얼마나 자주 쓰였는지 일일이 센 후 가중치를 적용해 생성한다.

로지스틱 회귀 모델은 문서 벡터를 입력값(X)으로 하고, 문장의 감성 범주를 출력(Y)으로 하는 모델이다. 이 모델이 잘 학습돼 있다면 긍정인지, 부정인지 범주 정보를 모르는 문서 벡터(X)를 모델에 넣으면 이 문서가 긍정에 속할 확률을 반환한다. 문서 벡터의 품질이 보장된 상태라면 이 벡터들을 바탕으로 학습된 로지스틱 회귀 모델의 성능 역시 그 어떤 모델들보다 강력한 것으로 정평이 나 있다. 만약 감성 분석용 학습 데이터가 어느 정도 확보돼 있는 상황이라면 앞서 설명한 나이브 베이즈와 로지스틱 회귀 모델을 베이스라인으로 삼을 만하다. 두 모델의 학습, 예측 속도 역시 제법 빠르다.

서포트벡터머신은 긍정과 부정 문서들을 가려내는 분류 경계면(hyperplane)을 찾는 게 학습 목표다. 단, 이 두 집합을 가장 여유 있게 가르도록(최대 마진) 하는 것이 제약사항이다. 서포트벡터머신은 딥러닝(Deep Learning) 이전에 최고 성능을 보였던 전통의 강호로, 최근에도 감성 분석에 널리 쓰이고 있는 모델이다.

딥러닝 기반 기법
감성 분석 분야에서 최근 각광받고 있는 모델은 딥러닝 기반 기법들이다. 순환신경망(Recurrent Neural Network, RNN), 콘볼루션 신경망(Convolutional Neural Network, CNN), 트랜스포머(Transformer) 등이 바로 그것이다. 이들 모델은 컴퓨터 연산 성능과 데이터양의 비약적인 확대에 힘입어 전통적 모델의 성능을 단번에 능가해 학계 안팎의 이목이 집중됐다.

RNN은 단어들을 순차적으로 입력받아 해당 문서가 긍정인지, 부정인지 예측한다. 우리가 쓰는 자연어 문장이 단어의 시퀀스(sequence)라는 점을 고려하면 이런 속성에 잘 들어맞는 아키텍처라고 할 수 있다. 하지만 병렬처리가 힘들다는 단점 때문에 최근에 그 관심이 조금 줄어든 감이 없지 않다.

CNN은 단어들을 순차적으로 처리한다는 점에서는 RNN과 유사하다. 하지만 특정 범위 내의 단어들만 본다는 것이 다르다. 예컨대 개발자가 지정한 범위가 2라면, 3번째 단어를 처리할 때는 그 앞뒤 두 개를 포함해 총 다섯 개 단어들을 묶어서 그 관계들을 학습한다. CNN은 RNN보다 학습 속도가 빠르면서도 그 성능은 우수해 감성 분석 분야에도 널리 쓰이고 있다.

트랜스포머는 셀프어텐션(self-attention)이라는 기법을 바탕으로 한 최신 아키텍처다. 문장 내 단어 쌍(pair) 간 관계를 모두 고려한다. 문장의 단어가 n개라면 2n(n-1) 가지 쌍을 고려하는 셈이다. 이 가운데 어떤 쌍 간의 관계가 더 중요하고 덜 중요한지 역시 학습한다. 예컨대 ‘나는 그 영화 안 좋아해’라는 문장이 들어왔다면 학습이 잘된 트랜스포머 모델은 ‘안’-‘좋아해’ 쌍이 극성 예측에 가장 중요하다고 판단할 것이다.

트랜스포머는 구글 연구진이 2017년 발표한 이후 여러 모델 가운데 가장 많은 주목을 받고 있다. 성능이 좋은 덕분이다. 본문에 언급한 BERT는 트랜스포머를 중요 요소로 하되 모델의 입출력을 다소 개선한 모델이다.

감성 기술의 5대 난제
비약적인 기술 발전에도 불구하고 미진한 점이 여전히 많다. 감성 분석 기술의 5대 난제를 정리하면 다음과 같다.

1. 부분 식별: 다음과 같은 문장의 감성을 정확하게 판별하기 어렵다.
나는 행복하다. / 세종시는 행정중심복합도시로 행복도시라 불린다.
시나리오는 훌륭하지만, 배우 연기가 별로.

2. 도메인 의존성: 같은 단어라도 분야마다 다른 감성일 수 있다.
이 영화는 졸리다. / 이 침대는 졸리다.

3. 반어: 어조 등이 바뀌면 감성이 변하는 경우도 있다.
잘한다. / 잘∼ 한다.

4. 간접적인 표현: 감성 표현을 직접 사용하지 않았지만 감성이 표현된 경우 정확한 판별이 쉽지 않다 / 이 영화는 별 다섯 개다.

5. 비교 처리: 현재 기술로는 아래 문장의 의미 차이를 가려내기 힘들다. A는 B보다 낫다. / B는 A보다 낫다.


필자소개 김범진 데이터사이언티스트 text-miner@naver.com
필자는 평범한 회사원으로 일하다 어느 날 데이터 과학에 꽂혀 회사를 그만두고 대학원에 진학했다. ‘자연어 처리’ ‘텍스트 마이닝’ 분야를 집중적으로 공부했으며 석사 학위를 받은 뒤 국내 대기업에서 데이터 과학자이자 개발자로 일하고 있다.
관련기사