Data Science in Practice

AI의 결정에 ‘감정적 거리감’ 느낀다면…

277호 (2019년 7월 Issue 2)

Article at a Glance
곳곳에서 인공지능(AI)이 곧 인간을 대체할 것이라고 말한다. 하지만 지금 AI 기반인 딥러닝을 활용해 기업 데이터를 다루어 본들 그것이 과연 사람보다 더 나은 결정을 했다고 확신할 수 있냐는 질문들이 나오는 상황이다. AI가 내린 결정에 대해 친절한 설명이 곁들여지더라도 인간 사용자는 여전히 ‘감정적’ 거리감을 느낄 수 있다. 이 같은 감정의 벽을 허물기 위해 엔비디아(NVIDIA), 에어버스 등 글로벌 기업들은 설령 100% 완벽하지는 않더라도 ‘그럴듯한 느낌’을 줄 수 있는 방향으로 AI 기술을 발전시키기 위해 노력하고 있다.


산업 또는 공공 부문과 함께 자사 데이터를 활용한 딥러닝 모형 설계 연구를 하다 보면 늘 생기는 딜레마가 하나 있다. “정확도가 70∼80% 정도 됩니다”라고 결과 보고를 내놓고 나면 “그래서 쓸 만한가요?”라는 답이 돌아오는 것이다. 기존의 공학적 상식으로는 이전 모델보다 3% 정도 예측도가 높아졌고 효율 측면에서 봐도 성능이 나아졌다. 하지만 실제 상황에서 인간을 대신해 기대 매출이나 성공 여부를 이 데이터 분석 모형만으로 가늠해야 한다면 클라이언트에게 얼마만큼의 확신을 어떻게 줘야 할 것인가에 대해선 “음… 잘 모르겠습니다”라고 꽤 솔직하게 답하게 된다. 수치상으로는 나쁘지 않지만 이것이 과연 인간을 대체할 만한가에 대해서는 ‘질적으로’ 답하기 어려운 부분이 있다. 인간의 직감이라고 하는, 개발자의 책임감을 넘어서는 부분이 있기 때문이다. 그래서 “참고용으로 보시지요”라는 선에서 이 모형을 보조적 역할로 삼게끔 하는 게 대부분이다.

꼭 개발자만이, 이 인공지능(AI) 모델을 실제 상황에 쓰는 것에 대해 은근한 공포를 느끼는 것만은 아닌 것 같다. 실사용자들은 더한 것 같다. 사람보다 결정을 기가 막힐 정도로 더 잘해내는 모델이 있을지언정 혹시 그 모델이 어딘가 잘못된 것은 아닐까 의심부터 하게 된다고 한다. 학계에서 모델의 성능이 너무 좋게 나온 논문에 대해서는 유독 재차 검토를 하는 것과 비슷한 이슈다. 그래서 정보기술(IT) 업계가 아닌 일부 분야들은 컨설팅을 받아 딥러닝 모델링을 시도했다가 ‘좋은 경험이었다’는 정도로 마무리 짓는 경우가 꽤 된다.



숫자는 명확해도 감정은 완전히 다른 문제

이런 분위기 속에서 사용자의 AI에 대한 불신을 극복하기 위한 IBM의 행보는 눈여겨볼 만하다. 그들은 프로젝트 제목부터 ‘믿을 만한 AI(Trusted-AI)’라고 내걸었다. 일반 사용자의 감정적인 부분이 극복돼야 실제 자신들의 제품도 더 적극적으로 판매할 수 있기 때문이다. 이 주제 아래 총 네 가지 콘셉트를 제시하고 있는데 에러 및 보안 등으로부터의 강건함(Robustness) / 편향 없이 공정함(Fairness) / 판단에 대한 설명가능성(Explainability) / 추적이 가능한 계보성(Lineage) 등이 여기에 속한다. 1

이 중 AI 편향과 관련한 사용자 참여 퀴즈 프로젝트는 한 번 해볼 만하다. 인공지능이 결정한 판단에 대해서 어떻게 생각하는지 사람들에게 직접 퀴즈를 내고 자신들이 제공하는 설명 방식이 사용자의 판단에 어떤 영향을 미쳤는지 물어보기도 한다. (그림 1) 모든 SNS 게임과 플랫폼 퀴즈가 그러하듯 우리가 게임에서 답한 내용들은 이들의 AI 서비스 설계에 귀한 데이터로 작용할 것이다.



오라클(Oracle)이 내놓은 앱도 흥미롭다. 적응형 지능 앱(Adaptive AI Apps)이라는 애플리케이션인데 AI 앱이 사용자의 데이터를 지속적으로 학습해 나가며 점점 그 사용자에게 맞는 예측을 해내는 방식의 서비스다. 이 경우 사용자는 자신의 활동이 어떤 식으로 학습되고, 예측이 돼 가는지 그 과정을 꽤 투명하게 체감할 수 있을 것으로 기대된다. 개인 또는 집단에 대해 그 패턴과 선호도를 학습해가는 ‘반완성형 느낌’의 AI를 통해, 어느 정도 친밀도를 높여가는 전략이 아닐까 생각된다. (그림 2)



AI 결과물의 실제 사용은 보는 이의 ‘기분’으로 완성

순수 사용자의 입장으로 돌아와 보자. AI가 만들어내는 결정에 대해 우리는 얼마나 합리적이고 이성적으로 옳고 그름을 판별하고 있을까? 가장 직관적인 예로 최근 나오고 있는 이미지 생성 기술에 대한 반응들을 살펴보자. AI가 만들어냈거나 합성한 이미지들이 얼마나 현실성이 있는지를 따져보면 사람도 깜빡 속아 넘어갈 정도다. 아주 꼼꼼하게 따져보면 가짜임을 충분히 알 수 있다. 하지만 ‘이 정도면 굉장하다’ ‘공포스럽다’는 등의 반응이 나온다.

예를 들어, 엔비디아(NVIDI)A의 ‘인물 간 스타일 합성 알고리즘(StyleGAN)’의 결과물을 보면 사진 속 사람의 머리카락 부분이 뭉쳐 있거나 배경이 묘하게 뭉그러진 경우들을 볼 수 있다. 수치적으로 100% 구현이 됐기 때문에 사람들이 깜짝 놀라며 신기술에 열광하는 것이 아니다. 정말 사람이 만들어진 것만 같은 ‘자연스러운 느낌’ ‘묘한 기분’이 핵심이다.

실제 출시된 상품 사례를 하나 더 보자. 요즘 임신부들이 아주 관심 있게 보는 아이템인데 태아의 초음파사진을 기반으로 한 아기의 실제 얼굴 예측 사진 상품이다. 사진은 부모 얼굴 사진과 25주 이후 태아의 입체초음파를 기반으로 AI 이미지 생성모델을 통해 만들어진다. 오래전부터 있어왔던 ‘연예인 부부 2세 사진 합성’ 같은 것과는 비교도 안 될 만큼 성능도 좋아 보인다. 실제로 아기가 태어난 뒤의 사진 비교 평도 슬슬 올라오고 있는데 사용자들은 ‘닮은 것도 같고, 아닌 것도 같은데, 볼수록 꽤 닮은 것 같다’는 재미있는 반응들이 나오고 있다. 말 그대로 ‘느낌’이 중요한 것이다.

사람들은 완벽한 합성 및 생성에만 넘어가지 않는다. 어쩐지 믿을 수 있다는 느낌을 주면 충분히 그 결과물을 받아들인다. AI가 만들어낸 수많은 결정은 이렇듯 완벽함의 영역과는 다른 결에서 ‘그럴듯한 느낌’ 내지는 신뢰 같은 감정적 요소가 꽤 중요하게 작용하는 것으로 보인다. 이미지 영역뿐 아니라 데이터를 활용해 알고리즘 모형을 짜서 실생활에 적용할 때도 이는 마찬가지다.

아주 최근에 나온 기술 하나를 더 보자. 지난 5월 말, 삼성 모스크바 AI센터에서 발표한 ‘말하는 머리 모델(talking head model)’을 먼저 들여다보자. 이 연구의 의의는 사실 몇 장 없는 사진 가지고도 딥러닝을 활용해 동영상처럼 움직이게 만들 수 있다는 데 있다. [그림 3]에서처럼 모나리자는 그 자체로 한 장뿐이지만 여러 각도에서 그가 말하는 모습을 만들어낼 수 있다. (영화 ‘해리포터’에서처럼 말이다!) ‘완벽한 리얼리즘’이 단 몇 장의 사진으로 구현된 것이다. 2



순수하게 결과물만 놓고 봤을 때, 이 동영상에는 어색한 부분이 꽤 많다. 기술적으로 극복해야 할 점이 분명 존재한다. 그러나 이들의 유튜브 발표 영상(2019년 6월 현재, 약 100만 뷰)에 달린 댓글에는 “앞으로 AI가 ‘페이크 뉴스(가짜 뉴스)’나 ‘프로파간다(정치 선전)’를 무한히 만들어 낼 것”이라는 우려의 목소리가 많다. 사람들이 이렇게 부정적 의견을 많이 내놓는 것은 그만큼 이 영상이 그럴 듯해 보인다는 걸 뜻한다. 설령 기술적으로 어색한 부분이 많다 해도 말이다. 3


해외 기업들의 AI 도입을 위한 ‘문화적 접근’

그래서 AI를 도입하는 데 있어 문화적 접근은 더욱 중요하다. 자동화를 통해 이미 한 차례 기계에 대한 문화적 신뢰가 싹 터 있다거나, 혹은 데이터의 양이나 데이터의 변수가 너무 많아 한눈에 살펴보기가 힘든 산업계에 대해서는 비교적 손쉽게 접근할 수 있다. 프랑스의 항공기 제작업체인 에어버스(Airbus)의 사례가 눈에 띄는데 이 업체는 AI짐(AI GYM)이라는 플랫폼을 만들어 항공업계로선 도전적이고도 중요한 문제들을 풀어가는 시도를 진행하고 있다. 지난해 12월 내놓은 프로젝트 중 하나가 헬리콥터, 위성, 상업용 항공기의 데이터세트를 활용해 비정상을 탐지(anomaly detection)하는 것을 목표로 하는데 좋은 성과를 내는 알고리즘 개발 학교/연구소/개인 등과 협업을 하겠다는 것이 이 프로젝트의 골자다.

이 프로젝트에는 두 가지 비즈니스적 함의가 있다. 첫째, 인간의 실수나 인지능력 바깥의 비정상 탐지이기 때문에 적극적으로 AI 도입을 고려한다는 점이다. 그것이 설령 인간과 ‘AI 동료’의 공동 작업이 될지언정 기계의 판단이 괜찮은 참고서가 될 것은 분명하다는 판단이 있었기 때문이다. 여기에서 일단 알고리즘에 대한 일차적인 신뢰를 볼 수 있다. 둘째, 데이터 기반(data-driven) 접근으로 이미 성공한 사례가 있을 것이라는 점이다. 이 프로젝트에서는 자사의 데이터를 (제한된) 외부 전문가들에게 공개하는 것을 큰 이득이자 장점으로 소개한다. 데이터 과학자들이라면 당연히 솔깃한 제안이다. 업계의 장부나 다름없는 이런 중요한 팁을 일정 부분 내어준다는 것은 그만큼 파일럿스터디나 선행 연구를 통해 어느 정도의 가능성을 경험했기 때문인 것으로 보인다. 해볼 만할 뿐 아니라 실제 쓰겠다는 의지의 표명이라고도 볼 수 있는 부분이다.

보스턴컨설팅그룹(BCG)의 리포트에 따르면 에어버스뿐 아니라 벨기에 통신업체 프록시무스(Proximus), 인도 RBL은행 등도 문화적인 차원에서 인간과 기술의 협업에 접근하고 있다. 4 그 방법으로 애자일(Agile) 프로그램 등을 활용하는 사례도 적지 않다고 한다. 나아가 개방형 혁신을 위해 새로운 생태계를 선택하는 것도 중요하다. 에어버스의 경우 디지털 항공 플랫폼 스카이와이즈(Skywise)를 활용하고 있는데 이 플랫폼의 예측 유지보수 서비스를 통해 에어버스 자체 시스템보다 더 나은 성능과 안정성을 얻었다는 게 BCG의 분석이다.



STEP BY STEP: 믿어가는 과정이 필요하다

다시 돌아가서, 알고리즘을 활용해 자사의 데이터를 학습한 뒤 꽤 예측 정확도가 높은 모형을 만들어 보는 것부터가 사실은 AI 도입의 시발점이다. ‘좋은 시도였다’고 자평하고 마무리하는 것에서 끝나면 안 된다. 세상은 지속적으로 비즈니스의 AI 도입을 유도하고, 또 의무화해갈 것이다. 바로 얼마 전, 경제협력개발기구(OECD) 가입국들은 더 안전하고 바른 AI를 만들 수 있는 가이드라인을 내어 놓기도 했다. 5 공급자(개발자) 입장에서는 공공의 가이드라인을 토대로 인공지능의 결정에 대한 설명력을 높이려 할 것이다. 실시간 편향성 체크도 진행해 신뢰도를 높일 것이다. IBM의 연구 결과(Factsheets for AI Services) 6 를 토대로 AI 프로그램에 대한 사용자의 심리적 거리감을 좁힌 상품을 계속해 만들어낼 것이다. 더 나은 결정을 향해 지속적으로 유저의 데이터를 학습할 것이다.

사용자(기업) 입장에서도 AI에 대한 감정적인 벽을 허무는 준비를 차근차근 해야 한다. 에어버스처럼 지속적으로 프로토타이핑을 만들어가도 좋다. 작게라도 성공을 경험하면 더 좋을 것이다. 조직 자체적으로는 애자일 방식을 활용할 수도 있을 것이다. AI의 정확도, 성과, 숫자를 넘어서는 ‘감정적’인 접근을 통해 AI를 받아들여 가보길 추천한다. 정확한 AI의 결정이 나왔을 때 그것을 믿음직하다고 느끼려면 사용자 입장에서의 과정도 분명히 필요하다.

필자소개 유재연 서울대 융합과학기술대학원 연구원 you.jae@snu.ac.kr
필자는 서울대 융합과학기술대학원에서 석사 학위를 받고 동 대학원에서 박사 과정에 재학 중이다. 인간과컴퓨터상호작용(HCI) 분야에서 데이터사이언스를 공부하고 있고 그중에서도 미디어 영상 데이터를 활용한 딥러닝 연구를 진행하고 있다. 진학 전까지 언론인으로 일했다.
동아비즈니스리뷰 290호 오프라인 매장의 반격 2020년 2월 Issue 1 목차보기