로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

SR3. 송민 연세대 교수 인터뷰

‘감성 분석 뜬다는데 해볼까’는 위험
어떤 문제에 왜 필요한지 정의 먼저

고승연 | 261호 (2018년 11월 Issue 2)
Article at a Glance
기업들이 최근 가장 많은 관심을 갖고 있는 데이터 분석인 ‘감성 분석’은 생각보다 무척 어렵고 복잡하다. 특히 표현이 다양하고 SNS나 인터넷상에서 온갖 형태로, 때로는 거의 아무런 맥락 없이 변형돼 쓰이는 한국어를 대상으로 텍스트 마이닝을 하고 감성 분석을 하는 건 더욱 어려운 일이다. 그럼에도 제대로 데이터를 수집하고 분석한다면 ‘소비자의 진짜 마음’을 읽을 수 있기에 기업 입장에서 결코 포기할 수 없는 기술이자 방법론이다. 이 분야 대가인 송민 교수는 기업인들에게 “데이터를 무작정 쌓지 말고 최소한의 분류를 해 놓거나 태그는 달아 놓을 것”과 “남이 하니까 우리도 하자라는 생각으로 시작하지 말고, 자신의 회사가 어떤 이유로 감성 분석을 해야 하는지 명확하게 정립하고 문제 정의부터 할 것”을 주문했다.

편집자주
이 기사의 제작에는 동아일보 미래전략연구소 인턴연구원 홍석영(연세대 불어불문학·경영학과 4학년) 씨가 참여했습니다.



‘빅데이터 분석’과 가장 관련이 깊은 전공은 무엇일까?

이 질문에 많은 사람은 컴퓨터학이나 컴퓨터공학 전공 혹은 수학과 등을 떠올릴 것이다. 그리고 그 답은 맞다. 그러나 절반만 맞다. 인간이 일상적으로 사용하는 ‘자연어’로 구성된 비정형 데이터를 분석하고자 할 때에는 얘기가 달라지기 때문이다. 물론 정형화되지 않은 언어를 수치화해 분석하고 알고리즘을 짜기 위해서는 수학적 지식과 컴퓨터 프로그래밍 능력, 컴퓨터 과학에 대한 이해가 필요하다. 하지만 그게 끝이 아니다. 텍스트와 텍스트 사이, 텍스트가 문자 그대로 의미하는 것 이면의 맥락(context), 그리고 어떤 텍스트가 내포하고 있는 인간의 감정, 정서를 제대로 분석하기 위해서는 ‘인간의 언어’와 ‘텍스트 분류 방식’에 대한 깊은 이해가 절실하다. 대한민국에서 가장 인문학적인 전공, 이른바 ‘문과 그 자체’로 꼽히는 어문계열학과와 문헌정보학과의 일부 연구자들이 기술의 최첨단에 있는 텍스트 마이닝 기반 ‘감성 분석’을 선도하고 있는 이유다. 가장 비인간적으로 보였던 컴퓨터와 알고리즘의 발달이 ‘인공지능’의 영역으로까지 들어서자 결국 가장 인간적인 학문을 불러내 결합하고 있는 형국이다. 이런 놀라운 결합의 현장에서 텍스트 마이닝 방법론을 연구하고 기업을 도우며 오피니언 마이닝과 감성 분석 관련 논문을 쏟아내고 있는 텍스트 마이닝 국내 최고 전문가 송민 연세대 문헌정보학과 교수를 DBR이 만났다.

57-1


사실 송 교수를 비롯한 진짜 전문가들이 텍스트 마이닝과 감성 분석에 대해 제대로 된 연구를 쏟아내기 전까지 한국에서 ‘감성 분석’은 큰 오해를 받고 있는 상황이었다. 단순히 소비자들이 인터넷과 SNS상에서 쏟아낸 단어를 ‘빈도수’로 분류해 많이 나온 단어는 크게 보여주고, 적게 나온 단어는 작게 보여주는 시각화 방법인 ‘워드클라우드’를 텍스트 마이닝이자 오피니언 마이닝 혹은 감성 분석으로 여기는 경우가 많았다. 이러한 워드클라우드에 현란한 해석을 더하고 나면 마치 이제 소비자의 마음, 대중의 속마음과 생각은 쉽게 읽을 수 있다는 생각마저 들곤 했다. 기업 입장에서는 당연한 반응이기도 했다. ‘인간의 정서와 감정을 분석한다’는 말, 그게 가능하다는 말에 눈이 번쩍 떠질 수밖에 없다. 모든 마케터와 경영자가 ‘소비자의 속마음’을 알기 위해 얼마나 많은 노력을 기울여왔는지 떠올려보면 쉽게 그 반응을 이해할 수 있다.

그러나 ‘진짜’ 감성 분석, 데이터 과학에 기반해 실제 언어를 맥락에 맞게 이해하고 분석하는 것은 결코 쉬운 일이 아니었다. 그 현란했던 시각화와 프레젠테이션이 지나가고 난 자리에는 오히려 회의감이 남았다. 고객들이 많이 언급했다던 단어와 연관 단어들은 비즈니스에는 큰 도움이 되지 않았다. 실제 ‘어떤 감정에서 왜’ 그 단어가 나왔는지, 실제 소비자들이 어떤 단어나 문장을 통해 말하고자 하는 맥락적 의미가 무엇인지는 전혀 분석되지 않았기 때문이다. 실제로 데이터 과학자들은 감성 분석의 기반이 되는 자연어 처리에 대해 ‘되는 거 몇 개 빼고는 다 안 된다’고 자조적으로 말하기도 했다.

하지만 최근 수년간 분위기가 조금씩 달라졌다. 단어와 문장을 수학적으로 ‘벡터’화해 문맥에 따라 유사 단어를 비슷한 위치에 컴퓨터 프로그램이 자동으로 배치할 수 있는 기술이 생겨났고, 분석되는 데이터의 양이 늘면서 제대로 된 문맥 파악과 진짜 감성 분석이 이뤄지기 시작했다. 심지어 ‘썸 타는 남녀’의 채팅을 보고 두 사람의 감정이 어떤지를 파악할 수 있는 수준의 기술도 나왔다. 여기에 ‘데이터 끝판왕 기업’인 구글에서 다시 한번 자연어 처리 성능을 대폭 개선한 모델을 발표하면서 기대감이 커지고 있는 상황이다. 다음은 송 교수와의 일문일답.

데이터 과학이나 빅데이터 분석에 친숙하지 않은 분들을 위해 ‘텍스트 마이닝’ ‘오피니언 마이닝’ ‘감성 분석’이 각각 무엇인지 쉽게 정리해달라.
텍스트 마이닝은 일단 내가 전공하고 있는 분야다. 이 단어는 1999년도에 미국 버클리대 마티 허스트(Marti Hearst) 교수가 ‘텍스트 데이터 마이닝’이라는 것을 처음 얘기한 것에서 유래했다. 사실 데이터 마이닝 그 자체는 훨씬 이전부터 존재했다. 일종의 고유한 데이터 구조를 가진, 이른바 ‘스키마’가 있는 정형화된 데이터베이스를 갖고 분석하는 게 데이터 마이닝이다. 그런데 비정형화된 텍스트 데이터 등이 급격하게 증가하면서 과거에는 알려져 있지 않았던 새로운 관계나 규칙들을 대량의 비정형 텍스트에서 분석하는 기법이 등장했다. 이게 바로 텍스트 마이닝이다. 마티 허스트 교수가 말한 ‘텍스트 데이터 마이닝’에서 ‘데이터’는 당연한 말이니까 빠지고 ‘텍스트 마이닝’으로 굳어지게 됐다.

오피니언 마이닝은 방금 말한 비정형 텍스트 중 주관적 텍스트를 분석하는 기법이다. 비정형 텍스트에는 원래 객관적 텍스트와 주관적 텍스트가 있는데, 객관적 텍스트는 사람의 감정이나 의견이 전혀 들어가 있지 않은 문장을 말한다. 주관적 텍스트에는 의견과 감정이 들어 있기에 이걸 탐지하고 분석하는 게 오피니언 마이닝이다.

그리고 요새 기업들이 큰 관심을 갖는다는 ‘감성 분석’은 앞서 말한 주관적 텍스트에서 부정과 긍정을 구분하는 극성 분석을 하거나 슬픔, 기쁨, 분노와 같은 다양한 사람의 감성에 대한 분류를 하는 작업이다.

감성 분석에 대해 좀 더 설명해달라.
감성 분석에는 크게 두 가지 접근 방법이 있다. 우선 ‘사전을 구축하고 규칙을 개발’하는 방법이다. 미리 각각의 감성을 표현하는 단어들을 찾아내 분류하고 감성어 사전을 만들어 둔 뒤에 비정형 텍스트가 들어오면 이를 쪼개고(토큰화), 쪼개진 단어를 감성어 사전 감성 스코어와 매칭해 감성을 판단하는 방법이다. (예를 들어 어떤 제품 사용 후기에 ‘대박’이라는 단어가 있으면 이는 ‘긍정의 감정이 큰 평가’로 보고 미리 ‘대박’이라는 단어에 높은 ‘+’ 점수를 넣어둔 사전과 매칭하는 것이다.) 1 초기에는 이렇게 많이 연구했고 실무 분석에도 사용했다. 최근에는 텍스트 마이닝 자체에서 주로 ‘기계학습’을 활용한다. 기계학습도 단어 간 순서를 고려하느냐, 고려하지 않느냐 2가지 방법으로 나뉘는데 감성 분석에는 특히 문맥이 굉장히 중요하기에 단어 간 순서를 고려하는 연구를 많이 한다. 그런데 이걸 분석하는 게 꽤 어렵다.

감성 분석이 생각보다 꽤 어려운 일이라는 얘기는 많이 들었다. 한국어는 특히 더 어려운 부분이 있다고 하더라.
맞다. 지금까지 하던 얘기랑 연결해보면 일단 기계학습을 통해 일상의 언어, 즉 자연어를 처리하는 과정은 문장이 들어오고 그 문장 안의 명사, 동사 등 품사를 자동적으로 태깅하는 방식이다. 영어만 해도 이게 좀 쉽다. ‘굴절어’ 2 라서 공간(띄어쓰기) 단위로 품사가 끊어지는 경향이 있다. 반면 한국어는 ‘교착어’ 3 이기 때문에 띄어쓰기 단위로 품사가 구별되지 않는 경우가 많다. 한 단어 뭉치 내에서도 품사가 다른 특징이 있다. 그래서 ‘어절’로 끊어야 하고 어미 변화가 굉장히 심하다. 또 한글의 표현력이 뛰어난 것, 한국 젊은 층이 워낙 언어를 자유자재로 변형해 활용하고 있다는 게 한국어 분석의 어려움을 증폭시킨다. 요즘 젊은 층이 사용하는 언어의 경우 거의 암호 해석 수준인 것도 굉장히 많다. 어휘의 변화가 심해 ‘극도로 비정형적인’ 텍스트 분석을 해야 하기에 영어권에서 개발된 텍스트 마이닝과 감성 분석 모델을 그대로 갖다 쓰기는 어렵다. 굉장히 많이 변형하고 추가 개발을 해야 한다는 뜻이다. 한글이 갖고 있는 문자적 특징, 한국어가 갖고 있는 언어적 특징, 특히 SNS상에서 나타나는 언어적 특징을 더 잘 이해할 필요가 있다.

이 지점에서 기업들에 해주고 싶은 말이 있는데, 소비자 리뷰 데이터를 많이 모았다고 ‘요새 새로운 분석 기법 나왔다니 그걸로 해보자’고 곧바로 시작하지 말라는 거다. 지금까지 말한 한국어, 그리고 한국 젊은이들의 SNS상에서의 자유로운 표현방식을 잘 연구해서 그것에 맞게, 데이터 수집할 때 그 엄청난 언어의 변화 향상을 많이 담아낼 수 있게 잘 설계해야 나중에 분석을 할 수 있다. 즉, 정말 기계학습이 제대로 되도록 무지막지하게 많은 데이터를 잘 수집하거나, 아니면 최소한 규칙을 기반으로 한 번 걸러낸 뒤에 분석하는 방법을 고민해야 한다.

데이터 수집과 관련해 추가로 조언할 부분이 있는가.
기업들이 사실 데이터를 ‘많이 모아놨다’고 생각했지만 제대로 된 데이터를 모아놓지 못했거나 제대로 분류하지 못했던 경우가 많다. ‘이렇게 많은 데이터, 빅데이터가 있으니 당연히 소비자 감성 분석이 쉬울 거다’라고 안이하게 생각했던 것 같다. 어차피 저장할 공간인 하드웨어 값은 엄청 싸졌기 때문에 일단 쌓아두고 모아두는 게 가능하고, 또 중요한 건 맞다. 그런데 그다음이 문제다. 데이터 큐레이션과 분류가 전혀 안 돼 있다. 예를 들어 보면, 어떤 전자제품 회사가 자사 특정 제품에 대한 소비자들의 평가를 모았다고 치자. 10년간 모았는데 초기 3∼4년간은 부족한 점을 찾기 위해 ‘악플’만 모았고 5∼6년 전부터는 ‘모든 데이터가 필요하다’는 생각에 ‘긍정평가’와 ‘부정평가’를 다 모았다고 하자. 그리고 최근에는 ‘잘하는 걸 더 잘하자’는 취지로 소비자들의 ‘감동 섞인 칭찬’ 위주로 모았다고 생각해보자. 이걸 다 뒤섞어 놓고 ‘10년 치 소비자 리뷰 텍스트 데이터’로 통칭할 수 있을까?

굉장히 극단적인 예를 든 것 같지만 기업 현장에 가보면 실제 이런 식으로 데이터를 모아놓고 방치한 경우가 너무도 많다. 10년 전에는 A라는 방향으로 데이터를 모으다가 중간에 방향이 바뀌었다면 최소한 바뀐 시점에 ‘이때부터는 B 방향으로 데이터를 모았다’고 기록이라도 해놔야 한다. 만약 그런 기록이 없으면 새로 뽑은 데이터 분석 내부 인력이든, 아니면 별도로 계약한 외부 전문 데이터 분석 업체든 모두 앞서 언급한 데이터를 ‘동일한 데이터’로 인식하고 처리하게 된다. 그런데 저게 정말 동일한 데이터일까? 아니다. 시간에 따라 다른 특징을 갖고 있는 데이터이기 때문이다. 따라서 그런 특징들을 잘 기록해둬야 한다는 것을 기업의 경영진이나 실무자들이 반드시 기억했으면 좋겠다. 정리해보면, ‘쌓아놓은 데이터’가 있다고 그것으로 바로 무엇인가를 할 수 있다고 착각하기보다는 그 데이터를 들여다보고 모은 방식이나 방향에서 바뀐 게 있는지 점검해 보자는 것이다. 미래를 위해서 중요하다. 내가 속한 학교도 거대 조직이라 흩어지거나 중복된 데이터가 많다. 기업도 마찬가지일 것이다.

분류와 정리를 제대로 해놓지 않으면 감성 분석을 할 때 데이터 정리만 하다가 끝날 수도 있겠다.
그렇다. 우리가 어떤 데이터를 어떻게 분류해놨는지 이해 못한 상태에서 ‘우리는 데이터가 많다’는 자부심만 가지고 전문가를 채용하거나 외부 전문 업체와 계약을 했다고 치자. 전문가가 그 데이터만 처리하고 분류하다가 시간을 다 보내게 된다. 그러다 기한에 쫓겨 정작 중요한 소비자 감성 분석은 대충하고 마무리하면 소비자 인사이트를 못 얻는다. 정형화된 데이터 분석에 비해, 안 그래도 텍스트 마이닝, 특히 오피니언 마이닝은 훨씬 어려운 작업인데, 이런 경우 투자한 비용과 시간에 비해 얻는 게 없는 상황이 된다. 그러면 관리자나 경영진은 ‘이거 별거 아니구나’ 착각하고 이후에 데이터를 더 잘 관리해야 하는 상황임에도 더 방치하는 악순환에 빠질 수도 있다.

데이터 분석과 관련한 얘기로 넘어가 보면 지금까지는 기업들이 주로 ‘블랙박스’적인 분석을 많이 했다. 감성을 정량적으로 분석해 결과를 내는 것이다. 예를 들어 정량적으로 블로그나 소비자 제품평 등의 정보를 수집해 평균값을 보여주는 것이다. 긍정과 부정의 점수를 더하고 빼는 방식으로 말이다. 그런데 과연 기업의 의사결정자가 그걸 보고 꼭 필요한 인사이트를 얻을 수 있을까? 나는 회의적이다. 긍·부정 구분을 예로 들어보면, 주어진 비정형 텍스트에서 감성이 긍정 70%, 부정 30%가 나왔다고 치자. 이 경우 70%의 예측률로 ‘A 제품은 긍정 반응이다’라고 결론 내리면 끝일까? 그렇게 분류하면 되는 것인가? 텍스트 안을 실제 들여다보면 어느 부분은 긍정적이지만 다른 부분은 부정적일 수 있다. ‘왜 그런 값이 나왔나’에 대해서는 알 수가 없었다. 의사결정나무 4 를 통해 그런 설명이 가능해지고 있는데 딥러닝을 비롯한 여러 기술은 결국 어떤 결과가 도출된 이유를 설명해 줄 수 있는 방향으로 발전이 되고 있고 기업들은 그 방향으로 기술을 발전시켜가고 있다. 국내 유수 대기업들도 이제 이런 방향으로 투자를 많이 하고 있어 어떤 면에서는 고무적이다.

다시 기술 발전 얘기로 들어가 보자. 현재 감성 분석은 어느 정도 수준까지 와 있나? 남녀 채팅 텍스트를 보고 연애 감정의 정도를 파악하는 기술까지 나왔다고 하던데.
감성 분석이라는 게 결코 쉽지 않은 기법이고, 특히 한국어에는 어려움이 많기는 했지만 지난 수년간 많은 발전을 거듭해온 것 역시 사실이다. 방금 얘기하기도 했지만 지금까지 기업들은, 주로 큰 기업들이지만, 자신들의 회사가 출시한 제품에 대해 소비자들이 어떤 의견을 갖고 있는지, 또는 어느 정도의 선호도를 갖고 있는지 알아내기 위해 굉장히 많은 노력을 해왔다. 그리고 지난 수년간 오피니언 마이닝, 감성 분석 기법이 발달하면서 기업의 A라는 제품이 갖고 있는 다양한 속성이나 특징들에 대해 ‘이 제품은 이런 게 좋고, 이런 점은 나쁘다’는 평이 나오고 있다는 건 파악하고 분석할 수 있는 수준에 왔다. 이제는 그걸 넘어서는 방향으로 프로젝트를 진행하고 일부 성공하고 있다. 텍스트를 통해 미묘한 감정까지 파악해내는 그런 고급 기법을 이제 기업에서도 적극 활용하려고 한다. 사실 그동안 데이터가 충분히 많이 쌓였기 때문에 또 가능한 것이기도 하다. 그 미묘한 감정들과 패턴을 알아내면 소비자들이 ‘왜 어떤 제품에 대해 긍정이나 부정의 감정을 갖는지’ ‘왜 어떤 점에 대해서는 좋아하고, 어떤 측면에 대해서는 싫어하는지’를 파악할 수 있게 된다. 지금까지 발전한 감성 분석 기술로도 이런 것은 어느 정도 가능하다. 이제 슬슬 진짜 감성 분석이 가능해지고 있다는 뜻이다.

‘왜’에 대해 답할 수 있다는 건 아주 중요하다. 지금까지는 신용카드 회사의 결제 데이터를 갖고 소비패턴을 분석하는 방식의 데이터 마이닝, 빅데이터 분석을 참 많이 했다. 물론 이런 분석은 ‘왜’에 대해 답을 줄 수 없다. 그런데 비정형 텍스트 데이터가 쌓이고 다양한 분석 기법이 나오면서 소비자들이 단순히 어떤 생각을 갖고 있는지를 넘어 ‘왜 그런 생각을 하는지’에 대해 유추할 수 있게 됐다. 이렇게 되면 기업 입장에서는 할 수 있는 일이 훨씬 많아진다. 정리해 보면, 예전에는 ‘사람들이 어느 지역에서, 어느 시간대에, 주로 어떤 소비를 한다’를 찾아냈고 그다음에 텍스트 마이닝과 감성 분석을 통해 ‘그 소비에 대해 어떤 감정을 갖고 있다’를 알아냈는데, 이제 더 발전된 기법과 더 많은 데이터를 통해 ‘왜 그런 감정을 갖고 있으며, 왜 그때 그걸 구입했는지’를 알 수 있게 될 거라는 얘기다.

기업 입장에서 만약 데이터 부족이나 기술 문제로 완벽하게 딥러닝 방식으로 소비자의 ‘왜’를 찾아내기 어렵다면 감성 분석과 내용 분석을 동시에 진행할 필요가 있다. 내용 분석은 글에 나오는 주요 주제, 핵심어, 감성을 일으키는 주된 단어가 무엇인지를 추적해서 같이 보여주는 것인데, 어차피 AI가 발달해도 완벽하게 감성을 분석할 수는 없기에, 혹은 앞으로 더 시간이 걸릴 수 있기에 그전까지는 내용 분석과 같은 2차, 3차 분석을 같이 해 나갈 필요가 있다는 것이다.

최근 구글에서 새로운 자연어 처리 모델을 발표했다고 하는데 감성 분석 기법에 또 한번의 혁신이 오는 것인가?
구글에서 10월 중순에 발표한 BERT (Bidirectional Encoder Representations from Transformers) 모델에 대한 질문인데, 구글 AI 담당 연구자들이 개발한 것으로 안다. 지금까지 기계학습, 즉 머신러닝을 넘어 딥러닝에 기반한 자연어 처리와 감성 분석이 계속 발전하고 있는데 이번에 발표한 구글의 BERT 시스템은 기존 다양한 딥러닝 방법론을 인간의 언어 구조에 맞게 확장한 것이다. 조금 더 풀어서 설명해보겠다. 인간의 언어가 문장으로 표현될 때에는 항상 앞뒤 단어나 문장과 관계가 있다. 구글에서는 이번에 이런 관계성을 포함해 분석할 수 있는 자연어 처리 모델, 일종의 ‘언어 모델’ 5 을 개발했다. 정리하자면, 구글이 개발한 BERT는 언어 모델을 지향하는 딥러닝 방법이라고 볼 수 있다. 나는 아직 사용해보지는 못했다. 다만 구글이 이미 8억 개 영어 단어를 정리해 구글이 모아둔 어마어마한 양의 질 좋은 데이터를 ‘학습 데이터’로 만들어 강화학습을 한 것으로 보인다. 이 모델을 갖고 ‘자동 질문 답하기’ ‘자동 번역’과 같은 ‘자연어 처리 영역’에 속하는 11개 영역에 대입했는데 성능이 굉장히 좋았다는 것이다. 논문을 읽어 보니 언어 처리와 텍스트 마이닝에 특화됐으면서 동시에 엄청난 양의 빅데이터를 처리할 수 있는 모델이었다. 물론 현시점에서는 영어에만 해당되는 상황이라서 나라마다 이 모델을 갖고 자국 언어로 학습을 해야 할 과제가 남아 있다. 프레임워크와 코드가 공개돼 있으니 이제 우리가 양질의 데이터를 갖고 훈련해야 한다는 뜻이다.

기업들이 챗봇과 AI스피커에도 관심이 많다.
일단 챗봇과 AI스피커는 접근 방식이 좀 다르다. 챗봇은 기존 감정 노동을 하는 상담사 등을 대체하거나 보조하기 좋다는 인식이 있어서 기업의 관심이 높은데, 일단 감성 분석보다는 자동 질문 응답 알고리즘에 관한 것으로 봐야 한다. 이게 제대로 작동하려면 대화를 시작하는 의도가 무엇인지에 대한 분석이 필요하다. 문장을 읽거나 듣고 음성인식을 다시 전환해서 무엇을 묻는 질문인지, 진짜 질문이 무엇인지 등 거의 모든 걸 파악해야 한다. 감성 분석은 AI스피커나 시리와 같은 서비스에서 추구하는 것으로 상대자의 톤이나 감정에 따라 어울리는 음악을 틀어주는 것 등에 필요한 방법론이다. 비슷한 것 같지만 목표가 다르다는 것, 접근 방식이 다르다는 걸 이해하는 게 중요하다. 한국의 기업인들 중 빅데이터 분석이나 인공지능에 대한 식견이 높으신 분들도 이 지점에서는 간혹 헷갈려 하시는 게 보인다. 어쨌든 내가 하고 싶은 말은, 다들 너무 기계적으로 어떤 공식을 갖고 접근하는 것 아닌가 하는 생각이 든다는 것이다. 언어에 대한 이해가 선행돼야 그 언어에 맞게 분석도 하고 챗봇도 만들 수 있다는 걸 강조하고 싶다. 챗봇은 한국에서 본격적으로 이슈가 되기 시작하자 곧바로 어디선가 관련한 내용을 듣고 온 책임자가 “딥러닝이라는 게 나왔는데 영어에 적용했더니 잘되더라, 그럼 우리는 데이터 많으니까 블랙박스에 넣고 돌리면 성공할 거다”라는 식으로 말하고 그렇게 지시하는 것 같았다. 이런 방식으로는 60∼70% 정도는 성능을 만들어낼 수 있는데, 데이터를 아무리 더 넣어도 그 이상으로는 성능이 올라가지 않는다. 언어를 이해한 상태에서 짠 알고리즘이 아니기 때문이다. 또 무조건 딥러닝으로 하는 게 아니라 산업의 특성, 자기 분야의 특징을 감안해 ‘규칙 기반’으로, 즉 인간이 사전에 규칙을 짜 두고 그에 맞게 대응하도록 하는 게 훨씬 유용할 수도 있다.

62-1


AI스피커 등은 앞으로 어떻게 활용될 것으로 보는가?
간단히 기술을 짚고 넘어가면, 스피커 등 어떤 기기가 사람의 음성을 인식하면 이게 텍스트로 변환되고, 변환된 텍스트에서 개체를 인식하고, 그에 맞는 답이나 서비스를 제공해준다. 이걸 다시 질문한 사람이 알아들을 수 있게 음성으로 변환해 되돌려 주는 것이다. 이러한 음성 인식의 경우 네이버, 엔트리 등의 회사에서 제공하는 오픈 API 6 를 써도 되고, 스스로가 아주 큰 기업이라서 그런 걸 안 쓴다면 자체적으로 트레이닝을 하면 된다. 텍스트를 충분히 모아서 분석한 뒤라면 음성을 인식하는 것 자체는 명확하고 구체적인 도메인 안에서 사용하는 것이기 때문에 사실 트레이닝 데이터는 크지 않아도 된다. 자, 이건 기술 얘기고 이제 소비자 입장에서 생각해보자. 고객 입장에서는 결국 제대로 된 답을 찾아주길 원하는 건데, 이때 다양한 감성 분석 기법을 쓸 수 있을 것이다.

예를 들어, 날씨에 맞는 추천 서비스는 당장 실현 가능해 보일 정도다. 기상청 오픈데이터와 개인이나 타고 있는 자동차 위치 데이터는 쉽게 구할 수 있다. 운전 중이라고 하면 자동차가 있는 지역과 위치의 날씨를 파악할 수 있고, 날씨에 맞는 음악을 추천해달라는 말이 떨어지면 그게 텍스트로 변환될 것이다. 그러면 기상청 API를 적용해 날씨 정보를 받고, 그 날씨를 바탕으로 답을 찾아주게 된다. 어떤 방식으로 하든 하나의 서버나 장소에서 사용자가 원하는 정보를 그 사람의 말 속에서 정보나 실마리를 찾아 그것에 맞는 답을 줄 수 있다는 것이다.

한발 더 나가서 생각해보자. 고객에게 동의를 받는다는 전제로 고객 SNS나 가입한 커뮤니티 등을 입력해 놓고 접근할 수 있도록 허가를 얻은 뒤에 고객이 요새 어떤 기분인지, 어떤 관심을 갖고 있는지 파악해 그 정보에 맞게 음악을 들려주고 필요한 제품이나 서비스를 권해주는 것이 가능해진다. 개인정보 보호 문제만 잘 해결되면 충분히 가능한 서비스다. 그렇게 기분과 감정을 완전히 파악한 상태라면 ‘오늘 기분이 별로 안 좋으실 텐데, 이 경로로 운전하는 건 어떨까요? 지금 서울-양양 고속도로보다 옛 경춘가도가 단풍이 절정입니다’ 이런 식으로 말이다. 이렇게 섬세한 보조가 가능해진다. 소비자가 이런 걸 구독 서비스로 구매하면서 지갑을 열 수도 있겠지만 사실 이 정도 시스템이 되면 그냥 기업들이 엄청나게 광고를 하려 들 것이다.

꼭 비즈니스 측면만이 아니라도 정부 차원에서는 나이 드신 분들을 보조하고 도와드리는 ‘스마트 에이징’ 서비스가 가능하다. 기업의 사회공헌이나 정부의 복지 차원에서 AI 챗봇이나 음성 서비스 기능을 통해 다양한 보조, 즉 ‘머리가 아프다’고 하면 그에 대한 답을 주고 예약을 대행해주는 것 등이 가능할 것으로 본다.

마지막으로 빅데이터 분석과 감성 분석이 필수가 된 시대에 기업인들에게 해주고 싶은 조언이나 제안이 있는지.
기업 자문을 하거나 협업을 할 때 느꼈던 것들 위주로 정리해서 말씀드리겠다. 일단 ‘우리 회사가 이런 것(오피니언 마이닝/감성 분석)들을 할 준비가 돼 있나’부터 확실히 점검해보셨으면 좋겠다. 아무런 준비 없이 어떤 모임에서, 조찬 강연에서 들은 내용과 정보만으로 ‘저 회사도 하니까 우리도 해보자’라거나 ‘요새 감성 분석이 대세니까 우리도 하자’라는 생각에서 출발하면 안 된다는 얘기다. 내부적으로 데이터를 들여다보고 분류하면서 ‘아, 이런 면에서 필요하다’라는 인식과 합의에서 시작해야지 방금 말한 대로 의사결정권자가 어느 날 갑자기 지시를 내리면 실무자 입장에서는 어쩔 수 없이 하기는 하겠지만 그 필요성에 제대로 공감하지도 못한 채 일을 벌이게 된다. ‘왜’라는 질문 없이 일을 시작하니 ‘어떻게’도 꼬인다. 무슨 문제를 어떻게 해결하는 데 감성 분석이 필요한지 명확한 문제 정의를 하고, 데이터도 살펴보길 바란다. 만약 데이터가 없다면 SNS 데이터나 공공 데이터를 활용할 수는 있는데 ‘문제 정의’가 안 돼 있으면 아무리 좋은 데이터가 있어도 감성 분석은 못한다.

흥미로운 건 ‘문제를 확실히 정의한’ 회사일수록 사실 자기 회사가 가진 데이터가 무엇인지 정확히 알고 있고, 필요한 데이터가 무엇인지도 파악하고 있으며, 다른 회사는 어떻게 수집하고 있는지조차 다 알고 있더라는 것이다. 빅데이터 수집과 분석에 대한 원칙과 철학이 있어야 현실적으로 과제를 정의해 해결해나갈 수 있다. 이게 되지 않으면 아무리 뛰어난 직원을 뽑고, 아무리 대단한 데이터 분석 업체와 계약해도 좋은 결과를 얻을 수 없다.

고승연 기자 seanko@donga.com
인기기사