Data Science in Practice

말하는 기계, 사람을 대체할 수 있을까?

284호 (2019년 11월 Issue 1)

Article at a Glance
목소리를 분석하고 이를 통해 사람을 파악하는 음성기술 시장은 점점 커지고 있다. 미국 IT 전문 매체에 따르면 2029년에는 이 시장이 150억 달러에 이를 것이다. 현재 한국에서 음성 인식 스피커를 쓰는 사람들은 한정된 기능과 성능에 실망을 많이 했지만 미국에서는 훨씬 발전한 상태로 많은 이가 일상에서 스피커를 활용 중이다. 최근 구글에서 출시한 스마트폰 픽셀4와 페이스북이 발표한 인공지능 비서 ‘자비스’는 머지않은 미래에 진짜 영화 ‘아이언맨’에 나오는 인간보다 뛰어난 인공지능 비서와 함께 살게 될지도 모른다는 생각을 하게 만든다.



얼마 전 외할머니가 돌아가셨다. 인간과 컴퓨터의 상호작용(HCI)을 공부하는 손녀딸을 뒀지만 1934년생인 내 외할머니는 기계를 잘 다루지 못했다. 특히 휴대전화를 잘 못 써서 전화를 받지 못하는 일이 비일비재했다. 그래서 필자는 이번 가을에 스마트 스피커를 가져다 드리기로 결심을 했었다. 시니어 유저(사용자)의 특성을 고려해 다음과 같은 조건을 중심으로 상품을 탐색했다.


(1) 한국말을 잘 알아듣고, 잘 응답할 것(사투리도 알아들을 것)
(2) 가장 기본적인 기능(전화 연결, 음악 재생 정도) 에 충실할 것
(3) 유저의 목소리가 작아도 알아들을 것. 그러나 느닷없이 켜지는 일은 없어야 함
(4) 아마존 ‘에코닷’처럼 두세 개쯤 구입하면 거실, 방, 화장실에서 연동될 수 있을 것


시니어 음성 인식 기술을 연구하는 동료들 덕분에 완벽하지는 않지만 비교적 적합한 상품 한 개를 찾아냈고, 결제를 하려던 차에 외할머니가 세상을 떠나셨다는 소식을 들었다. 나는 조건의 맨 마지막에 다음을 추가하게 됐다.


(5) 기계가 못 알아들어도 좋다. 유언이든 얕은 숨소리든, 그의 마지막 언어 내지 신호를 남겨줄 것.


사람들은 기술을 잘 안다. 매일매일 뉴스도 쏟아진다. 하지만 생각보다 기술을 생활 속에 빠르게 들여놓지는 못한다. 필자가 시도하고자 했지만 결국 진행하지는 못한, 말로써 기술 그 자체와 소통하는 ‘음성 인식 기술’의 사례들을, 기술을 삶에 가까이 들이는 방법 중 하나로 꺼내어 보고자 한다.


실시간 발화를 파악해 사람을 파악하는 조직들

미국의 보험회사 메트라이프는 콜센터 직원의 목소리와 말투를 실시간으로 분석해 그들이 좀 더 나은 고객 응대를 할 수 있도록 발화분석 솔루션을 도입했다. 반복되는 업무로 피로감이 높아지다 보면 목소리의 톤이 달라지거나 에티켓을 저버리는 경우가 종종 발생하는 법. 이에 대해 실시간으로 알람을 줌으로써 고객과 직원의 라포(rapport, 유대감)를 형성하고, 나아가 고객들의 만족감도 증진할 수 있다는 점이 솔루션의 효과로 거론됐다. 이 소식을 보도한 월스트리트저널은 ‘컴퓨터 프로그램이 사람을 더욱 사람답게 만든다’는 표현을 쓰기도 했다. 1



해당 프로그램을 제공하는 업체 코기토(Cogito)는 미국 매사추세츠공과대학(MIT)의 인간공학 연구실에서부터 시작된 스타트업이다. 미 국방성 소속 연구기관인 DARPA로부터 지원을 받아 사람 간 소통을 해석하고, 그 안에서 심리적인 상태를 자동으로 탐지할 수 있는 AI 플랫폼 개발 연구를 진행해 온 곳이다. 이를 기반으로 현재 코기토 프로그램은 상업적 사용뿐 아니라 미 육군사관학교 생도들의 훈련에도 적극적으로 활용되고 있다. 특히 협상과 관련한 교육에서 주로 쓰이고 있다고 한다. 2


의학 분야에서는 음성 인식 기술의 활용 가능성이 더욱 확장되고 있다. 특히 겉으로 잘 드러나지 않는 정신적 스트레스를 파악하는 데 용이하다. 일상적인 전화 통화 속 목소리를 분석해 자살 가능성을 사전에 인지하는 연구를 예로 들 수 있다. 자살 사전 탐지는 예방에 있어 가장 중요한 척도다. 하지만 실제 예측을 위해 사용할 수 있는 데이터의 양이나 종류가 턱없이 부족해 해결책이 많지 않은 상황이라 한다. 이에 대해 미국 미시간대 연구진은 일반적인 전화 통화 데이터에 대해 딥러닝 분석을 활용해 감정의 추이를 뽑아내는 모델을 만들고, 이를 자살에 대한 생각 여부와 연계해 해석할 수 있다는 가능성을 밝혀냈다. 3


이렇듯 목소리를 분석하고, 이를 통해 사람을 파악하는 음성 기술 시장은 점점 커지고 있다. 미국 IT 전문 매체 더 버지(The Verge)는 2029년에는 해당 시장이 150억 달러(한화 17조7000억 원) 수준까지 성장할 것이라는 전망을 보도하며 음성은 그만큼 개인적이고, 위조가 힘들며, 우리 생활 속에 아주 친숙하게 녹아들어 있다는 점을 강조했다. 하지만 인사 관리 시 ‘떠날 직원’과 ‘남을 직원’을 분류하는 일이나 대출 심사에서 ‘갚을 수 있는 자’와 ‘못 갚을 자’를 구분하는 일 같은 데에 음성 인식 기술이 다소 악용될 가능성이 있다는 지적도 함께 보도했다. 4



못 알아듣는다고 방심 말자, 훅 들어온다

그런데 사실 개인적으로 스마트폰의 음성 비서 기능, AI 스피커, 스마트TV의 음성 인식 기술을 써본 사람이라면 알 것이다. 일단 현재 나온 기계들은 내 말귀를 그렇게까지 잘 알아듣지는 못한다. 그러니 저렇게까지 기술력이 올라갔을 것이라고는 상상하기 힘들 것이다. 실제로 국내 한 언론사에서 최근 실시한 설문조사에 따르면 인공지능 스피커 실사용자들이 주변 사람들에게 해당 기기를 ‘강력 추천’하지는 않는다. 5 이 사용자들이 가장 많이 쓰는 기능도 말 그대로 ‘스피커’적인, 음악 듣기였다고 한다. 기능도 한정되고 인식률도 떨어지기 때문에 굳이 권하지는 않는다는 게 그들의 답변이었다. 인공지능 스피커를 사지 않는 이들 사이에서는 행동 자체에 대한 거부감을 드러내는 응답도 나왔다. 혼잣말을 하는 것 같아서, 또는 기계에 대고 말하고 싶지 않아서 구입하지 않고 있다는 게 그들의 답변이었다. 6

필자는 이 같은 현상이 다소 국내에 한정된 인식임을 언급하고 싶다. 개인적으로는 2015년 겨울, 미국 마이애미에서 겪은 일이 생생하다. 그때 필자는 어느 전시장 앞에 선 채로 현지 주민들이 아이폰에 대고 음성으로 지시하는 모습을 너무 쉽게 볼 수 있었다. 당시는 ‘한국말을 알아듣는 기술’이 상용화되기 전이라 모든 장면이 몹시 생경했다. 애플의 시리(siri)를 시작으로 이미 영어권의 음성 인식은 빠르게 성장하고 있던 때였다. 2018년 봄, 미국 뉴욕의 한 숙소에서도 그랬다. 그 집 주인은 예술가였는데 아마존 에코닷을 부엌 벽에 붙여놓고 그 동그란 음성 인식 기기에 레서피를 묻고, 거기에 대고 아침마다 불어 공부를 했다. 처음엔 그들에게도 그저 신기한 기계였을 것이다. 그리고 몇 년 만에 일상 속에 깊이 침투한 기술이 된 것이다. 마치 초기의 아이폰처럼 말이다.

얼마 전 발매된 구글의 스마트폰 픽셀 4(Pixel 4)는 말을 알아듣는 것을 넘어서서 주변 환경의 음성 요소까지도 구분해내는 기능을 탑재했다. 현재는 음악과 박수소리와 말처럼 패턴을 각각 인지할 수 있고, 나아가 차량 사고 발생음을 인식하게 되면 911로 연결 되는 기능도 가능하다고 한다. 7 (그림 1) 이미 산업계와 학계의 연구들은 더욱 구체적으로, 부엌의 기기들이 내는 진동(소음)을 학습해 전자레인지, 냉장고, 토스터기를 구분하는 정도까지 올라와 있다. 단지 생활 속에서 상용화되지 않은 상태다. 픽셀 폰을 시작으로 어쩌면 우리 생활 속 소음이 낱낱이 구분되고, 우리는 그 증거물을 토대로 내 생활을 되짚어 떠올리는 ‘소리 일기장’ 같은 것을 갖게 될지도 모른다. 그만큼 음성을 인식하는 기술은 우리 삶 속 깊은 곳까지 들어올 수 있다.



사람의 말도 대체할 수 있을까?

기계가 말을 알아듣는 것까지는 해낼 수 있다고 해도 과연 사람의 말을 대체할 수 있는지에 대해서는 아직 의문이다. 다만 그 기반 기술인 자연어 처리가 이미 수준급으로 올라와 있고 발화의 뉘앙스나 억양, 음색에 대한 연구도 빠르게 발전하고 있다. 기존의 내비게이션이 이미 입력된 음성을 조합하는 수준이었다면 지금은 알고리즘적인 판단에 의한 문장 발화가 가능한 수준이다.

통역과 같이 기능적인 발화에 있어서는 조금 더 급격하게 혁신이 이뤄지는 분위기다. 통역은 정밀한 감정표현 없이도 기능적으로 말과 말을 정확하게 옮기는 데 목적이 있다. 그런데 이제 ‘이 정도면 됐다’는 수준의, 기능 중심의 바운더리 자체도 뛰어넘으려는 시도가 나오고 있다. 말 그대로 ‘사람의 말’을 그대로 옮기겠다는 것이다. 지난 6월 구글이 발표한 ‘직접적 발화 대 발화 통역’ 연구가 그 시발점이다. 기존에는 ① 나의 말을 기계가 듣고 텍스트로 옮긴 뒤 ② 거기에 맞는 외국어 표현으로 텍스트 번역을 하고 ③ 그것을 기계가 읽어 발화하는 식의 크게 세 단계에 걸친 작업이 있어야 했다. 그 정도면 충분했다.

하지만 구글의 새로운 통역 모델은 발화된 음성이 그대로 옮겨지는 것을 목표로 하고 있다. 알고리즘 구조에는 해당 언어의 음소(phonemes)가 고스란히 대상 외국어 음소로 옮겨지는 과정만이 남았다. 이렇게 되면 중간에 텍스트로 번역이 되는 과정이 사라지고, 대신 원발화자의 말투와 뉘앙스, 목소리와 감정이 그대로 남는다. 8 아직 번역 정확도는 다소 떨어지지만 정말 내가 말하는 것 같은, 내 목소리 그대로 외국어가 줄줄 흘러나오는 진기한 경험을 할 날이 가까워진 것이다.



기계와 말해도, 혼잣말을 해도 부끄럽지 않은 환경이 온다

페이스북의 CEO 마크 저커버그는 ‘100시간 개발기’를 통해 말귀 알아듣는 인공지능 비서의 인간 생활 침투 가능성을 몸소 선보였다. 2016년 12월20일 16분 분량의 영상에서 그가 소개한 인공지능 비서 ‘자비스(Jarvis)’가 바로 그 주인공. (그림 2) 영화 ‘아이언맨’ 속 자비스처럼 상대방 말을 토대로 행동을 예측하는 것까지는 아니었지만 인간 사용자의 환경을 구성하는 기술(IoT)을 통합적으로 관리하는 플랫폼을 만들고, 여기에 음성인식을 입혀 마치 기술과 직접 말로 소통하는 듯한 모습을 보여줬다. 자신의 집에서 보내는 하루 동안 해당 음성 비서를 어떻게 사용할 수 있는지 그 가능성을 모두 그려냈다. 영화 ‘HER’의 사만다가 얼핏 보일 정도였다. 9 [그림 3]의 인공지능 비서 설계도를 보면 음성뿐 아니라 얼굴 인식과 자연어 처리 등의 기술이 들어가 있지만 사실 이 모든 연계된 기능을 조정하는 것은 저커버그의 발화다. 저커버그는 향후 5∼10년 사이 더 정교한 인간의 감각을 지닐 AI가 나올 것이라고 전망했다. 지금이 2019년임을 생각하면 그가 예측한 그날 또한 가까워지는 셈이다.



음성은 그만큼 침투적이다. 언젠가부터 TV를 켤 때 리모컨을 쓰게 됐듯, 수화기를 드는 대신에 카카오톡을 켜게 됐듯 우리는 생활 속에서 자연스럽게 내 목소리를 먼저 꺼내 들게 될 것이다. 그리고는 아무렇지 않게 기계와 대화할 것이다. 혼잣말이 아닌, 대화로써 기계와 소통할 것이다. 그리고 인식 기술은 한 사람의 일생을 그 시작부터 끝까지, 고스란히 기록할 수 있는 힘을 지니게 될 것이다.


필자소개 유재연 서울대 융합과학기술대학원 연구원 you.jae@snu.ac.kr
필자는 서울대 융합과학기술대학원에서 석사 학위를 받고 동 대학원에서 박사 과정에 재학 중이다. 인간과컴퓨터상호작용(HCI) 분야에서 데이터사이언스를 공부하고 있고 그중에서도 미디어 영상 데이터를 활용한 딥러닝 연구를 진행하고 있다. 진학 전까지 언론인으로 일했다.
동아비즈니스리뷰 289호 Boosting Creativity 2020년 1월 Issue 2 목차보기