SR5. 감성 분석 활용 비즈니스 전략

‘감’으로 여겨졌던 영역을 수치화
확장 가능한 상상력, 새 비즈니스 기회

261호 (2018년 11월 Issue 2)

Article at a Glance
감성컴퓨팅은 ‘사람이 보는 것을 기계가 볼 수 있도록 하라’는 것부터 시작됐다. 사물의 위치를 파악하는 인지 및 지각 분야만큼이나 인간의 감성 인식 분야는 상당한 양의 데이터와 기계 학습을 필요로 한다. 하지만 최근에는 적은 양의 데이터만 가지고도 기계가 자체적으로 학습할 수 있도록 하는 연구가 진행되고 있다. 감성 인식이 일상생활 모든 곳에서 공기처럼 존재할 날이 그만큼 가까워지고 있다는 뜻이다. 기계와 사용자의 심리적 친밀도 상승은 새로운 비즈니스 기회가 될 수 있다. 보유하고 있는 데이터들에 대한 중요도를 높이고, 보안과 관련해 더 막중한 책임감을 지녀야 하며, 확장 가능한 상상력을 기반으로 ‘기계 감성시대’를 준비할 필요가 있다.


소프트뱅크에서 로봇 페퍼(Pepper)를 처음 출시한 2014년 당시, 손정의 회장은 페퍼에게 빨간 하트큐브를 건넸다. 이것이 공개 석상에서 이뤄진 인간과 로봇의 첫 감성 교류가 아니었나 싶다. 일부에서는 아톰이 현실 세계에 나타났다며 환호했다. 이때 페퍼가 손 회장에게 한 말이 있다. 슬쩍 눈웃음을 짓는 그에게 “가짜 웃음”이라고 일격을 가한 것이다. 대답을 들은 손 회장이 크게 웃자 “그것이 진짜 웃음”이라고 했다. 로봇의 감성 인식을 가장 직접적으로 보여준 사례가 아닌가 싶다. 페퍼의 가슴팍 모니터에 ‘허그’ 버튼을 누르면 상대를 꼬옥 껴안아 주는데 필자는 이 경험으로 뭉클함마저 느꼈다. (그림 1)




기계의 인간에 대한 감성 인식은 상호 공감이 가능할 정도로 아주 높은 수준까지 올라왔다. 오죽하면 인간과 로봇의 감성적 상호작용에 대한 우려까지 나오고 있다. 미국의 작가 루이자 홀(Louisa Hall)은 MIT 테크놀로지리뷰 기고문에서 ‘감성이 있는 로봇에 대한 정서적 애착’에 대해 이야기하며 상대방(인간)의 감정을 누구보다 잘 아는 로봇을 어찌 죽음에 이르게 하겠느냐고 반문했다. 미 해군 특수부대인 네이비실(Navy SEALs)의 로봇 동료를 잃은 군인의 이야기를 예시로 들면서 말이다. 이에 대한 철학적 논의는 차치하더라도 분명한 것은 ‘감정을 느끼는 로봇에 대한 사용자의 애착’이 형성될 여지가 충분해졌다는 사실이다.

기계가 인간의 감성을 지금보다도 훨씬 더 자연스럽게 인식할수록 로봇과 인간의 심리적 거리는 더욱 가까워질 것이다. 내 기계, 내 로봇, 내 상품에 대한 애정을 넘어서는 애착이 생길 것으로 보인다. 영화 ‘Her’에서 남자 주인공이 프로그래밍된 ‘그녀’에게 느꼈던 것 같은 상품의 개발은 충분히 현실적으로 가능한 스토리가 됐다. 바로, 이 감성 인식 기술을 통해서다.


감성컴퓨팅의 기초 - 인간의 얼굴을 읽다
감성컴퓨팅(Affective Computing)은 “감정과 관련이 있고, 감정으로부터 발생하며, 의도적으로 감정에 영향을 주는 컴퓨팅을 통칭”한다. 1 이는 처음 감성컴퓨팅을 주창한 매사추세츠 공과대(이하 MIT) 미디어랩 교수 로잘린드 피카드(R. Picard)의 정의로, 그에 따르면 감정은 인지적인 동시에 신체적인 요소다. 따라서 감성 인식이라는 분야는 사람의 얼굴(육체)에 감정이 드러난다는 것을 대전제로 하고 있다. 종종 ‘감정(emotion)’과 ‘감성(affectiveness)’이 혼용돼 쓰이는 경우가 많은데 후자가 전자를 포함해 포괄적인 의미를 지니기 때문에 주로 ‘감성컴퓨팅’이라고 쓰이고 있다.

연구가 본격적으로 시작된 것은 1990년대 말이다. 여기에 꽤 큰 영향을 준 연구가 심리학자 폴 에크만(P. Ekman)의 FACS(Facial Action Coding System), 즉 ‘얼굴지도’ 이론이다. 상대의 거짓말 여부를 판별하기 위해 눈썹의 오르내림, 동공의 크기, 입꼬리의 위치 등 얼굴 근육의 모든 움직임을 코드화했다는 내용이다. 에크만의 아이디어 덕분에 행복, 슬픔, 놀람과 같은 감성에 대한 코드적 표현도 손쉬워졌다. 즉, 얼굴의 모든 요소가 감성을 확인하는 변수(feature)로 다뤄질 수 있게 됐다.

이런 방법으로 피카드 연구팀은 광고의 효과나 선거 후보자에 대한 지지도 예측에서 적극적으로 기술을 활용해왔다. 이 연구진의 대표작 중 하나가 2012년 밋 롬니와 버락 오바마가 맞선 미국 대선 후보 토론회 영상을 보는 사람들의 얼굴 표정 연구다. 이를 지지도와 연결지었는데 결과적으로 75%라는 꽤 높은 적중률을 보였다. 2 (그림 2)

77-1


기본적으로 이미지나 동영상을 분석한다는 것은 상당한 컴퓨팅 파워를 필요로 한다. 마침 전 세계적으로 실시간으로 동영상 분석까지 가능할 정도의 하드웨어적 발전이 뒤따랐다. 사람의 감성을 계산을 통해 알아낼 수 있다는 자신감이 딥러닝 영역 곳곳에서 펼쳐지기 시작했다. 영상을 초 단위 프레임으로 끊어서 한 장 한 장에 대해 분석을 하고 합치던 예전 동영상 분석 방식에 더해 얼마 전에는 프레임과 프레임 사이 장면을 예측하고 짐작하는 기술도 나왔다. 토씨 하나 빼놓지 않고 사람의 아주 미묘한 감성까지 죄다 분석하겠다는 의지가 현실로 이뤄져가고 있다.

Affectiva, 감성 인식 기술의 상업화
감성컴퓨팅을 이야기하면서 절대 빼놓을 수 없는 스타트업이 있다. 미국 보스턴에 위치한 어펙티바(Affectiva)다. 개인적으로 부러움을 담아 줄곧 지켜보는 감성 인식 스타트업으로, 이집트 여성 가운데 가장 성공한 기업가라는 평을 받는 라나 엘 칼리우비(Rana el Kaliouby)가 자신의 멘토인 피카드 교수와 함께 창업한 회사다. 얼마 전 미국의 뉴요커(The Newyorker)에서도 이 기업을 대대적으로 보도했는데 여기 나온 인터뷰 중 MIT 미디어랩 전 학장인 프랭크 모스(Frank Moss)가 칼리우비에 대해 언급한 표현이 참 인상적이다. “그는 감정적 지능(emotional intelligence)이 아주 높다”는 것이었다. 3

실제로 칼리우비의 감각은 많은 사례를 통해 상당 부분 검증되고 있다. 이를테면 그는 감성 인식 기술을 활용할 수 있는 영역을 대대적으로 확장해가고 있는데 그 끝이 보이지 않을 정도다. 최근 MIT 테크놀로지리뷰 기고문에서 “현재는 (키보드와 마우스 이외의 다양한 제스처와 음성 등을 통해 전달하고 이를 컴퓨터가 인식하는) 멀티모달(multi-modal) 시스템을 어떻게 트레이닝할지, 그리고 상대적으로 발생 수가 적은 감성들(이를테면 자신감이나 영감을 얻었을 때의 느낌 같은 것)은 어떻게 데이터로 수집을 할 것인지 등의 챌린지가 남아 있다”며 “이런 과제들도 향후 5년 내로 해결돼 인간이 보는 것처럼 상대방의 인지와 감정 상태에 응답할 수 있을 것”이라고 예측했다. 4

행복과 슬픔과 분노라는 기본적인 감정을 넘어서서 피로감, 집중력, 흥미, 혼란스러움, 정신산만함 등 좀 더 복잡한 인지적 상태를 파악하는 감성 인식 인공지능(AI)이 금세 현실이 될 거라는 얘기다. (DBR minibox: ‘칼리우비가 꼽은 감성-인지(emotion-aware) 디바이스 활용의 네 가지 분야’ 참고.)

78-1


DBR mini box:
칼리우비가 꼽은 감성-인지(emotion-aware) 디바이스 활용의 네 가지 분야

1. 자율주행. 운전자의 피로감, 방해, 두려움을 감지하고 탑승자의 무드에 맞는 새로운 경험(음악 등)을 선사할 것이다.
2. 교육. 온라인 러닝에서 학습자 개개인에게 맞춰진 티칭(못 따라오는 것 같으면 학습 속도를 늦추고, 지루해 하면 농담을 던지는 식)을 제공할 수 있다.
3. 헬스케어. 우리의 심리적인 상태를 함께 트래킹해 의사에게 리포트할 수 있다. 그뿐만 아니라 파킨슨스병과 같은 질환을 미리 감지하고 선제적으로 대처할 수도 있다.
4. 커뮤니케이션. 디지털 디바이스 세대는 이전 세대에 비해 공감력을 점점 잃어갈 수도 있다. 이런 세계에서 감성 AI는 우리를 인간답게 만드는 데 꽤 중요한 역할을 할 것이다.


실제 이 회사는 스카이프(Skype)의 경쟁회사 우부(Oovoo)와 함께 화상회의 감성 분석을 통해 비즈니스 협상 성공 여부를 점쳐보는 작업을 함께했고, CBS방송국과 함께 새로운 TV쇼의 성공 여부를 예상하는 일도 진행했다. 펩시는 고객 만족도 측정 소프트웨어 개발에서 이들의 감성 인식 프로그램을 쓰고자 했고, 뱅크오브아메리카(BoA)에서도 ATM기에 기술을 임베딩해보고 싶다는 뜻을 전한 바 있다고 한다. 도요타는 운전자의 행동을 관찰하고 이해하는 방향으로 감성 인식 기술을 활용하고자 했고, 그 밖에도 마이크로소프트부터 HP, 야마하, 혼다, 깁슨, 홀마크, NASA, 노키아 등 장르를 불문하고 온갖 기업에서 감성컴퓨팅의 활용 사례를 문의해왔다고 한다. (그림 3)

79-1


‘현실’을 데이터로 활용하는 감성 인식
이렇게 ‘감’으로 여겨졌던 영역을 수치로써 표현하고 분석하는 작업이 감성컴퓨팅의 골자다. 따라서 사람의 행동 하나, 짓는 표정 하나가 모두 미래 예측을 위한 재료 내지 현재 상태(state)에 대한 정확한 분석을 위한 데이터가 된다.

직원들의 업무 스트레스를 측정하는 최신 연구를 예로 들 수 있다. 5 업무에 크게 방해되지 않는 센서를 활용해 개개인의 상태를 실시간으로 확인한 내용이다. 여기에서 상당히 의미 있는 부분은 직원 본인이 스트레스를 지각하기 전에 센서가 미리 이 사람의 멘탈 상태를 예측한다는 점이다. 교육 분야에서는 얼굴 표정을 통해 학생이 얼마나 제대로 참여를 하고 있는지 측정하는 자동 인식 기술도 소개된 바 있는데 직원 업무 스트레스 측정에 쓰인 센서를 고스란히 활용한다면 사내 교육 등에서도 활용할 수 있는 부분이 꽤 많을 것 같다. 6 물론 민주적인 절차와 그에 따른 직원들의 동의가 전제돼야 하겠지만 말이다.

취업준비생에게는 감성 분석을 토대로 합격 큐(Cue)를 줄 수도 있다. 채용 면접 시 지원자들의 비언어적 표현을 기계적으로 분석해 ‘취업 성공 방법’을 추천하는 논문이 최근 나왔는데 결과적으로 더 웃고, 더 유창하게 말을 해야 하며, ‘나’ 대신 ‘우리’를 많이 쓰고, 첫 질문에서 높은 점수를 받을 수 있어야 선발될 가능성이 높다고 한다. 7 당연한 듯한 결과인데도 수치적 증거로 받쳐주니 ‘꿀팁’이 된 듯하다. 주목할 만한 점은 흥분감, 미소처럼 얼굴에 드러나는 감성에 목소리, 참여적인 태도 등의 음성 및 동작 요소를 결합한 모델이 쓰였다는 점이다. 감성 분석에 타 요소를 녹여 더욱 확장된 분석모델로 만든 것이다. 이는 스포츠 분야에서도 활용해봄 직한 아이디어다. 선발투수가 지쳐 있는지, 의기소침해 있지는 않은지를 실시간으로 몸과 마음을 모두 분석해 불펜 가동 여부를 결정할 수 있을 것이다.

미디어에서도 활용 가능성이 무궁무진하다. 미국 방송국들의 경우처럼 어떤 프로그램이 시청자를 붙잡아 두는지, 어떤 기사가 독자의 눈을 떼지 못하게 하는지를 감성 분석을 통해 확인할 수 있다. 여기에서 더 나아가 ‘로봇저널리즘 시대’에 발맞춰 방송기사 자동 편집 등에서도 해당 기술을 유용하게 쓸 수 있다. 예컨대 한 정치인에 대한 구속영장 청구 영상이 나온다면 평소 그에 대한 수많은 자료영상 가운데 그가 울상인 것을 자동으로 찾아내서 자료화면으로 쓸 수 있을 것이다.

엄청난 흡인력을 보이는 드라마 제작에 있어서도 감성 분석과의 협업이 꽤 흥미로울 것 같다. 30분짜리 아침드라마 한 편이 흘러가는 동안 등장인물들이 보이는 감성 데이터와 시청률표를 매핑해 AI가 전략적 스토리라인을 구성해낼 수도 있다. 이미 텍스트상 연속적인 감정의 변화를 다루는 컴퓨팅 연구가 10년 전부터 이어져온 만큼 아주 뜬구름 잡는 이야기는 아니다. 8 9 영상에서도 충분히 활용 가능한 요소다. 많은 자동화의 영역에서 감성 인식은 인간 판단의 길잡이 내지는 동행자가 돼줄 수 있다.

의학 및 복지 쪽에서 쓰일 수 있는 가능성도 정말 많다. 칼리우비와 피카드 교수가 함께 진행한 연구 중 2006년에 진행한 자폐아동의 감성 학습을 위한 기기 연구가 대표적 사례다. 10 이른바 ‘마음을 읽는 기계(mind-reader)’를 만들고자 하는 것이었는데 당시에는 IoT 디바이스가 많은 편이 아니어서 가슴팍에 카메라를 달고 허리춤에 소형 컴퓨터를 차서 실시간으로 상대의 감정을 분석하는 방식을 썼다. 자폐아동이 상대방의 감정을 잘 읽지 못하는 것을 돕기 위해 이 같은 기기를 설계한 것이었다. 향후 이는 구글 글라스를 활용한 자폐아동의 감성학습 연구 등으로 이어지기도 했다. 11

더 가까워질 감성 인식의 미래
지난 5월, 프랑스 파리의 한 포럼에서 페이스북 AI리서치의 수장이자 프랑스 출신의 딥러닝 분야 세계적인 석학인 얀 르쿤(Y. LeCun)이 이런 말을 했다. “새끼 고양이도 지극히 상식적으로 단순한 관찰을 통해 중력의 존재를 알고 높은 곳을 오르내립니다. 하지만 현재 AI에 강화학습 없이는 일반적인 앎(General Knowledge)이라는 것도 없습니다.”(그림 4)

81-1


이 천재 과학자는 요즘 “AI가 지닐 수 있는 상식적인 것(Common Sense)에 도전하고 있다”고 전했다. 고양이처럼 스스로 자기지도학습이 충분히 가능한 AI를 고민하고 있다는 것이다. 이와 함께 고민 중인 도전과제는 “AI를 만들 수 있는 최소한의 데이터양은 얼마만큼인가”라고 했다. 예를 들어 아프리카 소수 부족 언어는 데이터 자체가 아주 적을 텐데 후에 AI가 이 언어를 학습함에 있어 어려움이나 잘못이 생기면 안 된다는 문제에서 시작한 이슈라고 한다. 그런 맥락에서 요즘은 적은 양의 샘플로 이미지를 인식하는 연구를 진행하고 있다고 했다. 12 그의 목표가 유독 현실로 금세 다가올 것만 같은 느낌이 강하게 들었다.

상대의 감정을 알아차리는 일은 살다 보니 눈치껏, 자연스럽게 익히게 되는 꽤 인간적인(어쩌면 동물적인) 태스크다. 엄청난 양의 사회 경험이나 촘촘한 학습이 없이도 저절로 상대의 감정을 알아차리게 된다. 지금은 누군가의 챌린지 목록에 있는 뜬구름 잡는 이야기처럼 보이지만 AI도 맞은편에 앉은 이의 마음을 눈치채는 법을 자연스레 타고나는 날이 곧 올 수도 있다. 여기에 학습량이 ‘병아리 눈물’만큼만 있어도 마음을 죄다 알아차리는 시점이 온다면 이 기술은 발끝에 차이는 콜라 캔에도 스며들 수 있다. 내친김에 더 앞서 나가 보자면 AI에 인간처럼 ‘성격’이라는 것이 생겨날 수도 있는 법이다. ‘눈치 없이 뻔뻔스런 AI’라거나 ‘소심한 AI’라거나 하는 식으로 말이다. 세상은 그만큼 빠르게, 더 효율적인 방향으로 감성 인식을 확장해가고 있다.

르쿤의 아이디어는 우리나라 상황에서도 함의가 있다. 기존 다국적 기업(MS, Amazon)의 감성 인식 프로그램을 활용하다 보면 특히 감정의 표현 방식과 관련해 의문을 제기하는 사용자가 많다. 실례로 필자가 2016년 AI가 설정한 표정, 즉 기계가 인지할 수 있는 행복감, 슬픔, 분노 등을 인간이 학습토록 하는 게임을 만든 적이 있었다. 피실험자 대부분이 일반 대학원생이었는데 하나같이 “행복은 그럭저럭 표현할 수 있지만 놀람이나 분노 같은 것은 기계가 설정한 것에 크게 공감할 수 없다”고 했다. 놀라거나 슬플 땐 오히려 무표정한 편인데 AI가 요구하는 것은 치켜 올라간 눈썹이나 내려간 입꼬리여야 했다는 것이다. 굉장히 서구적인 데이터로 학습된 것일 뿐 아니라 감정에 대한 레이블링이 다소 작위적이기 때문이라는 결론을 냈다. 그래서 최근에는 관련 업계를 중심으로 아시아인과 같이 다른 방식의 감정 표현을 하는 이들에 대한 감성컴퓨팅 연구도 지속되고 있다. 르쿤의 말처럼 소수의 데이터만으로도 자체 학습이 가능하다면 인간과 기계의 심리적 거리는 지금보다 더 가까워질 것으로 보인다.

지금까지의 논의를 토대로 비즈니스 측면에서 감성 인식 기술과 관련해 세 가지 제언을 하고자 한다. 첫째, 모든 데이터가 재산이고 쓰임새가 있다. 감성 인식 기술은 그동안 흘려보냈던 소소한 인물 사진 데이터를 진주알로 만들 수 있다. 예를 들어 불가피하게 고객이 꼭 사진 및 영상을 찍어야 하는 경우들, 특히 성형외과에서는 시술 전후 사진들을 토대로 고객의 심리상태(우울증 여부 등) 및 만족도 등을 확인할 수 있다. 방송사 및 신문사의 경우 각종 사진과 영상 속 인물들의 감정을 자동으로 레이블링해 데이터베이스를 구축할 수 있다. 영상통화로 작업을 하는 고객센터의 경우에도 고객만족도 체크를 따로 설문조사를 통하지 않고도 진행할 수 있다. 손주들의 영상을 즐기는 어른들의 행복한 표정을 스마트폰 앞면 카메라로 모을 수 있는 시스템이 보강된다면 십수 년 뒤 훌쩍 자란 아이들에게 이때의 사랑을 고스란히 전해줄 수 있는 서비스가 나올 수도 있을 것이다.

둘째, 사람에 대한 관찰은 동의를 필요로 한다. 사람들은 대개 자신의 얼굴에 초점을 맞춘다고 하면 거부감을 보인다. 고객으로부터 기꺼이 얼굴 데이터를 제공받을 수 있을 만한 요인을 탐색해야 한다. 이를테면 ARS 상담 시 “상품 품질 향상을 위해 통화 내용이 저장될 수 있다”고 통지하는 식처럼 분명한 문구로 상대방의 감성 데이터가 수집됨을 고지할 필요가 있다. 사람들이 가장 적극적으로 얼굴을 들이미는 셀프카메라 앱을 예로 들어보자. 만일 셀피를 찍으면 그 사람이 짓는 표정에 대한 감성 수치들이 서버로 전송된다고 할 때 이에 대한 내용을 앱 설치 시부터 고지를 해야 한다. “얼굴은 수집되지 않지만 고객의 감정 등 상태에 대한 데이터는 전송된다”는 식으로 말이다. 감시, 보안 이슈에서 특히 민감한 영역이기 때문에 본 기술을 활용하려면 그만큼 신중한 접근과 강한 책임감이 필요하다.

마지막으로, 더 풍부한 상상력을 동원하면 더 많은 활용이 가능하다는 것을 이야기하고 싶다. 기술의 기반에는 이를 뒷받침하는 인문학적 상상력이 분명히 수반돼야 한다. 철학, 심리학, 언어학, 인지과학 등에서는 끊임없이 마음 읽기에 대한 논의가 지속되고 있다. 표정과 음성에만 그쳤던 감성 인식 기술의 해석 대상이 훨씬 더 넓은 영역으로 확장될 여지가 충분하다. 얼굴로는 표현을 잘하지 못하는 아이들에 대해, 그들의 몸가짐이나 발걸음, 어깨의 각도 등등을 활용해 새로이 감정을 해석할 수도 있다. 이들의 감정을 해석해 상대방에게 제공하는 특수한 감성 인식 시스템이 나올 수 있다면 이 시절의 많은 오해가 조금은 사그라들 수 있지 않을까 싶다.

필자소개 유재연 서울대 융합과학기술대학원 연구원 you.jae@snu.ac.kr
필자는 서울대 융합과학기술대학원에서 석사 학위를 받고 동 대학원에서 박사 과정에 재학 중이다. 인간과컴퓨터상호작용(HCI) 분야에서 데이터사이언스를 공부하고 있고 그중에서도 미디어 영상 데이터를 활용한 딥러닝 연구를 진행하고 있다. 진학 전까지 언론인으로 일했다.
동아비즈니스리뷰 350호 Smart Worcation 2022년 08월 Issue 1 목차보기