Top
검색버튼 메뉴버튼

Interview: 샤오우엔 혼 마이크로소프트 아시아 R&D그룹 총괄

인간 창의성이 100이면 AI는 0 두 개체가 함께 가야 하는 이유가 여기에

김윤진 | 288호 (2020년 1월 Issue 1)
Article at a Glance
1998년 베이징에 설립된 마이크로소프트(MS) 아시아태평양 연구소는 지난 21년간 음성, 안면 인식을 비롯한 AI 기술의 비약적 성장을 견인해 왔다. 이 연구소가 만든 AI는 최근 바둑보다 어렵다는 중국 게임 ‘마작’ 10단에 오르고, 스탠퍼드대가 개발한 독해 능력 시험에서 평균적인 인간 점수를 가볍게 뛰어넘는 등 뛰어난 지능을 자랑한다. 또 연구소는 디지털 트랜스포메이션에 어려움을 겪는 아시아 기업들과 협력해 AI 기반의 제품 피드백 순환구조를 만들어주고 있다. 그런데 이런 혁신의 한가운데 있는 샤오우엔 혼 MS 아시아 R&D그룹 총괄은 AI가 아무리 발달해도 인간 지능의 고(高)층위는 절대 따라잡을 수 없다고 단언한다. 그에 따르면 인간의 창의성이 100이라면 AI의 창의성은 0이다. 인간과 AI의 공진화(coevolution·共進化)를 도모해야 하는 이유다.


최근 매섭게 치고 올라오며 미국과 패권 경쟁을 벌이고 있는 중국의 인공지능(AI) 기술. 실리콘밸리를 바짝 긴장케 하는 첨단 ICT 생태계가 중국에서 꽃피게 된 배경에는 정부의 전폭적인 지원을 비롯한 여러 요인이 있지만 민간 연구소들의 역할도 결코 빼놓을 수 없다. 1998년 중국 베이징에 설립된 마이크로소프트(MS) 아시아태평양 연구소(MSRA, Microsoft Research Asia)도 그중 하나다. 이 연구소는 지난 21년간 AI 기초 및 응용연구의 산실로서 기상천외한 연구개발(R&D) 프로젝트를 지원하는 한편, 고도로 훈련받은 이공계 STEM 인력들을 배출해 아시아 학계와 산업계 곳곳에 심어 왔다. 기업의 지속가능한 혁신을 도모하려면 당장 상용화가 가능한 기술에만 매달리기보다는 불가능한 꿈에 도전해야 한다고 본 빌 게이츠가 아시아의 우수한 두뇌를 흡수하려 세운 일종의 ‘싱크탱크(think-tank)’였다. 그리고 이곳을 거쳐 간 브레인들은 척박했던 중국 기초연구 토양에 뿌리 내려 현재 안면, 음성 인식 및 데이터 분석 기술 등을 고도화하고 아시아를 넘어 글로벌 산업 지형을 바꾸고 있다.

연구소 설립 초기부터 AI 관련 프로젝트를 최전선에서 진두지휘해 온 샤오우엔 혼 MS 부사장(아시아 R&D그룹 총괄)은 현재 300명 가까운 과학자로 구성된 아시아 연구소를 이끄는 수장이다. 전 세계 11개 연구소 가운데 미국에 이어 두 번째로 크며 총 1000여 명인 MS R&D그룹 인력의 약 4분의 1이 이곳 소속이다. AI가 머지않아 인간의 지능을 뛰어넘고, 사람의 일자리까지 대체해버릴 것이라는 비관론이 팽배한 오늘, DBR이 20년 넘게 현장에서 아시아 과학기술의 비약적인 진보를 목격한 혼 부사장을 직접 만나 AI의 현재와 미래에 대한 견해를 들어봤다. 아울러 AI가 어떻게 각 기업의 디지털 트랜스포메이션을 가속화하고 생산성을 높일 수 있을지 그 방향도 물었다.



MS 연구소는 주로 기초연구에 주력하나.
꼭 그렇지는 않다. 우리의 사명은 크게 세 가지고, 그중 첫 번째가 기초연구(fundamental research)다. 약 5∼10년 후에 대한 대략적인 아이디어를 갖고 도전하는 과제, 실패의 위험을 감수하는 장기 과제들이 여기에 해당한다. 그리고 두 번째가 상용화, 수익화를 염두에 둔 기술 이전(technology transfer)이다. 이런 과제들은 MS의 핵심 제품, 서비스의 경쟁력을 높이고 기업에 직접적인 혜택을 줄 기술적 솔루션들을 탐색한다. 세 번째는 인큐베이션(incubation)으로 정말 미래의 가능성과 잠재력에 투자하는 과제들을 뜻한다. 영리 기업이 왜 내부 제품의 경쟁력과 직결되지 않는 연구까지 하는지 의아할 수도 있겠지만 사람들이 생각하는 것보다는 각국, 각 기업이 AI 관련해 공동 연구를 많이 한다. 물론 경쟁도 하지만 협업에 상당히 개방돼 있다.

다른 지역과 구별되는 아시아태평양 연구소의 강점은.
2000년 이후 아시아태평양 지역에서는 중국과 한국이 첨단 과학 분야에 있어 가장 중요한 두 국가라 생각한다. 특히 중국에는 전 세계 인구의 5분의 1, STEM 인재의 4분의 1이 있다. 두 나라의 인력은 수적으로 우세할 뿐만 아니라 질적으로도 우수하다. 미국에서도 STEM 진학 비중은 아시아인이 단연 높지 않나. 한국에서 5G 사용자가 이미 100만 명 넘어섰듯 모바일, 인터넷 기술이 발달한 한국이나 중국이 ‘모바일 퍼스트’ ‘클라우드 퍼스트’로 전 세계 트렌드를 주도할 수밖에 없다. 위챗이나 카카오가 떨치는 위세만 봐도 알 수 있지 않나.



미래를 위해 투자하는 인큐베이션 과제로는 뭐가 있나.
헬스케어 산업을 예로 들면 우리는 ‘고품질의 보건의료 서비스를 저렴하게 제공하려면 어떻게 해야 할까’라는 추상적인 질문을 던지고, 그 해답을 찾기 위해 다양한 시도를 한다. MS가 헬스케어 기업은 아니지만 플랫폼 기업으로서 헬스케어 파트너들과 손잡고 함께 고민하는 것이다. 최근에는 ‘의료진의 생산성을 어떻게 높일 것인가’란 질문의 답을 구하기 위해 ‘뉘앙스(Nuance Communications)’란 기업과 공동 프로젝트를 진행했다. 의료진이 환자 데이터를 전산에 입력하는 데 지나치게 많은 시간을 소모하느라 막상 진단, 치료에 집중하기 어렵다는 문제의식에서 출발했다. 물론 환자 빅데이터는 중요하고, 개인의 진료 기록이나 수술 이력 등의 정보가 많이 쌓이면 쌓일수록 당사자뿐 아니라 다른 환자에게 도움이 된다. 하지만 케이스를 일일이 입력하는 게 너무 수고로우면 오히려 본업에 방해가 된다. 이런 수고를 덜어주고자 음성 인식과 자연어 처리 기술로 의사와 환자의 대화를 자동 기록하는 시스템을 개발했다. 이 시스템은 의사가 진료하는 사이에 환자에게 어떤 증상이 있는지, 의사가 어떤 약을 처방했는지 등의 정보를 자동 인식해 저장해준다. 이런 데이터는 향후 보험사나 신약 개발하는 제약사, 임상 연구를 바탕으로 논문을 쓰려는 학자 등에게 유용하게 쓰일 수 있다.

어떻게 일선 현장에서 AI를 활용해 생산성을 높일 수 있을까.
AI 기반의 비즈니스 활동을 보면 모두 피드백 순환 구조로 이뤄져 있다. 제품을 배포하고, 센서와 액추에이터로 데이터를 수집해 분석한 다음 의사 결정을 내리고, 피드백 내용을 바탕으로 제품을 개선한다. 과거에는 이를 사람이 했다면 지금은 AI가 대체했다. 제조 분야만 봐도 엘리베이터에 센서를 달아두면 평상시 데이터가 축적된다. 따라서 이상 징후가 감지되면 엘리베이터가 고장 나기도 전에 미리 수리하라고 알려준다. 이에 따라 불시에 일어나는 사고를 예방할 수 있다. 또 헬스케어 분야에서도 환자가 아프거나 신체가 박테리아의 공격을 인지하기도 전에 웨어러블 기기에 달린 센서가 먼저 알고 치료하라고 경고한다. 이제 물리적인 공간에 있던 모든 것의 정보가 디지털 세계에도 존재하기 때문에 이 ‘디지털 트윈(digital twin)’이 사물이 언제 고장 날지, 사람들이 언제 아플지를 알려주는 것이다.

자동차 제조사 롤스로이스의 예를 들어보자. 이 회사는 자동차뿐 아니라 비행기용 제트엔진도 만들고, 이제는 엔진 제품과 더불어 예측/정비 및 부가가치 서비스까지 판매한다. AI를 통해 엔진 고장을 예측해 정비해주는 서비스다. 이런 사전 예측 서비스는 정시 출발을 원칙으로 하는 항공기 지연을 막는 데 효과적이다. 또 롤스로이스는 AI를 이용해 기상 및 엔진 성능 데이터나 관제탑 관측 데이터 등을 취합하고, 이를 토대로 연료량을 최적화해 전체 항공비의 40%에 육박하는 연료비를 절감한다.



기업들의 디지털 트랜스포메이션이 어느 정도 진행된 것 같나.
MS가 기업 대상으로 디지털 트랜스포메이션 수행 의지나 진척 상황을 묻는 설문 조사에서 응답자의 30%가 이미 디지털 전환 작업에 착수했다고 답했다. 다만 이 중 절반인 15%만이 기존 인력만으로도 성공적인 전환이 가능하다고 말했다. 이는 곧 디지털 트랜스포메이션을 위해서는 직원들의 재교육이 필요하고, 플랫폼이나 기술, 문화의 변화를 도와줄 파트너를 찾아야 한다는 의미다. MS도 기업들의 파트너사로서 이런 기업들의 체질 개선을 지원하고 있다. 홍콩의 해운사 오리엔탈 오버시스(OOCL)와 협력해 유휴 컨테이너 배치 최적화를 돕기도 하고, 교육서비스업체 피어슨과 협력해 교사와 학생의 생산성 및 수업 효과를 높이기도 했다. 피어슨의 경우 우리와 협력해 영어 발음과 억양을 실시간 피드백으로 교정하는 AI 학습 도구를 개발하기도 했다.

AI 기술이 발달하면 사람들이 설 자리가 있을까.
AI는 많은 데이터(big data)와 적은 지능(small intelligence)을 가진 존재다. 반대로 인간은 적은 데이터(small data)와 높은 지능(big intelligence)을 가졌다. 사실 데이터가 많으면 지능은 필요 없다. 주식시장만 봐도 내부 정보를 이용해 투자하면 막대한 돈을 벌고 높은 수익률을 거둘 수 있지만, 그 사람을 두고 똑똑하거나 현명하다 하진 않지 않나. 그런 의미에서 기계는 지능이 그다지 높지 않아도 된다. 반면 아인슈타인은 데이터 하나 없이도 100년 전에 블랙홀과 중력파 등의 개념을 이야기했다. 그런데 지금에서야 실제 블랙홀과 중력파를 관찰할 수 있게 되지 않나. 이게 지능이다. 이론 물리학이 먼저 나오고, 실험 물리학이 100∼200년 뒤에야 따라잡는 것만 봐도 인간의 지능을 알 수 있다.

올해는 아폴로호가 달에 착륙한 지 50년이 된 해다. 그러나 달 착륙에 필요한 모든 이론적 배경은 이미 아이작 뉴턴 시대에 완성됐다. 1960년에 이르러서야 실제 달 탐사가 이뤄질 수 있었던 건 맨해튼 프로젝트 덕분에 컴퓨터 연산능력이 발달하고, 로켓을 정확한 각도와 속도로 쏘는 데 필요한 검증 시뮬레이션이 가능해졌기 때문이다. 그래서 AI와 인간은 공진화하고 협업해야 한다. 인간이 빨리 달리거나 날지 못해 자동차와 비행기를 발명했듯이 인간이 연산을 빠르게 못 하니 이를 대신해줄 기계와 함께 일해야 한다.



그렇다면 현재 AI 지능의 수준은 어느 정도라고 보나.
지능을 5단계로 나눈다면 1∼3단계는 이미 인간과 맞먹거나 인간을 뛰어넘었다.(그림 1) 1단계가 바로 연산 기억(computation&memory)이다. 사람들은 자기 기억이 정확한 줄 착각하지만 막상 스마트폰 없이는 자기 집 전화번호조차 헷갈리거나 모를 정도로 허술하다. 계산, 암기 능력으로는 컴퓨터를 절대 넘어설 수 없다. 2단계가 바로 지각(perception), 즉 안면과 음성 인식이다. 지난 2∼3년간 가장 빠르게 성장하면서 AI 르네상스를 가져온 분야이기도 하다. 2015년 말 MSRA가 개발한 ‘레즈넷(ResNet)’의 안면 인식이나 MS 코타나, 애플 시리(Siri), 구글 어시스턴트 등의 음성 인식 기술만 봐도 사람보다 정확하다. 우리는 한 번 본 사람의 얼굴을 금세 잊어버리지만 레즈넷은 공항을 통과하는 수많은 군중 속에서 범죄 용의자 얼굴을 식별할 수도 있다. 3단계 인지(cognition) 능력도 이제 기계가 인간을 따라잡았다. 비즈니스, 금융, 과학기술 분야 종사자들에게 요구되는 생산적인 지능 활동이 인지의 영역에 속한다. 가령, 기업이 인수합병(M&A)을 할지 말지 판단하려면 다수의 전문가를 인터뷰해 기업 가치나 핵심 비즈니스의 상호 보완성, 시너지 등을 종합적으로 따져야 한다. 입찰 경쟁자까지 고려해 인수가격을 정해야 하고, 승자의 저주도 피해야 한다. 그런데 오늘날 AI는 이런 인지 측면에서도 충분히 평균적인 인간 정도의 의사 결정을 내릴 수 있다.

AI와 인간의 인지 능력은 어떻게 측정해 비교하나.
스탠퍼드대에서 개발한 스쿼드(SQuAD) 시험이 있다. 대학 입시 때 치르는 수학능력시험 SAT나 GRE와 유사한 독해 능력 테스트다. 사람이라고 다 만점을 받는 것도 아니고 개인마다 점수가 다 다른데 MS의 AI가 학생들의 평균 읽기 점수보다 높게 나왔다.(그림 2) 그리고 구글 알파고가 둔 바둑 역시 적을 파악하고 전략과 계획을 세워야 하는 인지 활동인데, 알파고가 사람을 이기지 않았나. 아울러 몇 달 전에는 MS의 AI가 세상에서 제일 복잡한 게임인 ‘마작’ 10단에 오르며 AI 기술의 새 이정표를 세우기도 했다. 인류 역사상 10단을 달성한 사람은 30명 정도밖에 안 되는데 AI가 그 반열에 오른 것이다. 마작은 바둑이나 텍사스홀덤 포커와 비슷하지만 불완전 정보게임이라 훨씬 어렵다. 바둑에서는 나와 적이 번갈아 수를 두기 때문에 서로의 수를 확인하고 움직일 수 있다. 이에 반해 마작은 모든 정보가 숨겨져 있고, 4명이 게임을 할 때 다른 3명은 수를 볼 수 없다 보니 불확실성이 크다. 또 한 라운드에서 지더라도 자기 패를 노출하지 않으면 전체 라운드에서 더 높은 상금을 획득할 수 있는 등 보상 체계가 복잡하다. 이렇게 결과 예측이 힘든 마작에서조차 AI가 딥러닝 강화학습을 통해 10단이 됐다는 건 기계의 인지 활동이 수준급이라는 뜻이다.



기계가 인간을 따라올 수 없는 마지막 4∼5단계는 무엇인가.
창의성(creativity, 4단계)과 지혜(wisdom, 5단계)다. AI의 창의성이 0이라면 인간은 100이다. 물론 AI 시인이 키워드를 기반으로 시집을 발간하고, AI 작곡가가 힙합과 K팝 스타일의 곡을 쓰고, AI 화가가 추상화나 인상화를 그리면서 창작의 영역에 관여하고 있다. 그러나 이건 창의성으로 보기 어렵다. 컴퓨터가 심층 신경망을 활용해 특정 키워드나 멜로디, 픽셀 크기나 밝기/채도 등으로 스타일을 이전(transfer)할 뿐이다.

영국의 대시인 T.S. 엘리엇은 ‘어설픈 시인은 모방하지만 원숙한 시인은 훔친다’고 말했다. 비슷한 시기, 피카소도 ‘좋은 예술가는 베끼고, 훌륭한 예술가는 훔친다’고 했다. 그런데 컴퓨터가 쓴 시, 음악, 회화는 훔쳐서 일류의 것을 창조한 결과가 아니라 이미 짜인 알고리즘을 바탕으로 빠르게 연산해 내놓은 모방의 결과다. 인간 없이 기계가 스스로 프로그래밍하거나 새로운 알고리즘을 떠올릴 수 없다. 내가 생각하는 창의성은 독일 수학자 가우스가 1부터 N까지 연속한 자연수의 합을 구하기 위해 N(N+1)/2의 공식을 만들었듯 기존에 없던 공식과 없던 문제를 발견해 해결하는 것이다. 나아가 지능의 궁극적 단계인 지혜의 경우 기계에는 없는 인간의 의식과 연결된 부분이라고 생각한다.

AI의 창의성이 0이라고 단언하는 이유가 무엇인가.
뇌신경학자들과 심리학자들은 대개 인간이 의식이 희미한 상태(low spectrum)일 때 창의성이 발현된다고 분석한다. 아침에 커피를 마시고 기억이 또렷해진 각성 상태(high spectrum)일 때보다 점심 먹고 졸음을 느끼거나 공상에 빠졌을 때, 밤에 잠들기 전이나 술에 취했을 때처럼 약간은 환각 상태일 때 더 창의적이라 보는 것이다. 베토벤은 청각이 마비된 채 교향곡 9번을 만들었으며, 고흐는 귀를 자르고 난 뒤 고통 속에서 명작을 탄생시켰다. 기계에 이런 흐릿한 의식 상태를 만들어줄 수 있는 것도 아니고, 암기와 셈을 더 잘하고, 잘 보고 듣는 것과 창의적 지능이 있는 것은 별개라고 생각한다.



최근 AI의 지각 능력이 너무 발전하면서 사생활 침해 이슈가 연일 제기된다.
전 세계적으로 공공 안전이냐, 사생활 침해냐에 대한 논란이 활발하고, 양쪽 의견 다 일리 있다. 어떤 사람은 공공장소에 감시카메라가 비치돼 있으면 악의적인 사람들의 범법 행동을 막을 수 있어 더 안전하다고 느끼기도 하고, 어떤 사람은 정부가 나의 일거수일투족을 지켜봐서 더 위험하다고 느끼기도 한다. 결국, 이건 정부나 기업 등 주체별로 결정할 문제다. 가령, 상식적인 수준에서 호텔이 감시카메라를 화장실이나 객실에 둬서는 안 되겠지만 로비에 설치할지, 엘리베이터에도 설치할지 등은 해당 호텔이 정할 문제다. MS 회사 안에도 카메라가 곳곳에 있지만 직원들이 이를 받아들인다. 다만 수집한 데이터를 얼마나 오래 저장 및 보관할 것인지, 얼굴을 안 보이게 가릴 것인지의 원칙이 있어야 한다. 그리고 이 원칙의 번복을 허용할 것인지 등에 대한 사회적 합의는 필요하다. 사용자 관점에서도 더 편리한 서비스를 받으려면 정보를 더 많이 제공해야 하는데 그러다 보면 사생활 침해의 여지가 있고 편리성과 사생활 보호가 어느 정도 충돌하는 건 불가피한 것 같다.

플랫폼 기업으로서 MS도 이런 윤리적 문제에 책임을 느끼나.
우리는 플랫폼을 제공한다. 기술을 응용하는 것은 파트너사들이다. 그러나 플랫폼 기업이라고 모든 책임으로부터 자유로울 수는 없다고 생각한다. 가령, 범죄 의도를 가진 사람들이 MS 워드를 사용해 협박 메시지를 보낸다는 걸 우리가 알 수는 없지만 만약에 안다면 방지할 의무가 있다. 기술이라는 칼이 요리에 쓰일지, 범죄에 잘못 쓰일지 알 수는 없더라도 기술 기업으로서 반드시 지켜야 할 AI 원칙은 세웠다. 그중 하나가 투명성이다. 공공장소에 카메라를 설치한다든지, 사생활 침해 여지가 있는 기술은 설치에 앞서 이를 숨기지 않고 투명하게 공지해야 한다.

신뢰성과 안전도 중요하다. 다중 인증 절차(multiple form authentication)를 반드시 둬야 한다. 기술에는 한계가 있고 100% 완전한 AI 시스템은 없기 때문이다. MS, 구글, 페이스북도 마찬가지다. AI의 실수로 잘못된 범죄 용의자를 체포해 감옥에 보내거나 본인이 아닌데 금융 결제를 허용하면 안 되지 않나. 자율주행차가 99.5% 완벽하다고 해도 0.5%는 사고가 날 확률이 있다. 데이터센터가 99.9999% 안전해도 0.0001%의 전력 오류를 배제할 수 없다. 이 때문에 데이터를 늘 중복으로 백업하고 안면, 음성 인식 오류에 대비해 더블 체크를 해야 한다.

MS 플랫폼의 악용을 방지하기 위해 어떤 노력을 하나.
일단은 각 국가 정부 법규나 제도를 따르고, 법제화가 아직 미비한 경우에는 악용이 의심될 때 곧바로 플랫폼 사용을 차단해 버린다. 의도가 분명히 확인되지 않더라도 의심만으로도 차단한다. 회사 내부 책임 AI 위원회(responsible ai committee)가 이런 판단을 한다. 앞서 투명성, 신뢰성 외에 공정성도 고려한다. 예를 들어, AI의 선입견을 최대한 배제하려 노력한다. 사람마다 피부색이 다르고, 성별, 나이 등 인구 구성이 다양한데 데이터의 편중으로 AI가 특정 인종집단에 차별적으로 작용할 수 있다. 가령, 소수민족이나 장애인들의 경우 데이터가 적기 때문에 인식 정확도가 떨어지고 의도치 않게 차별적 결과가 초래될 수 있다. 반대로 지불 능력과 구매력이 높아 데이터가 많은 계층은 수혜를 입을지 모른다. 이는 사회의 포용성(inclusiveness)과 직결되기 때문에 이런 문제를 방지하고 ‘모두를 위한 AI’를 만들기 위해 끊임없이 노력해야 한다.

AI 기술을 두려워하는 사람들에게 하고 싶은 말은.
200년 전, 전 세계 인구의 95%가 농업에 종사했지만 이제는 5%만이 농사를 짓는다. 그렇다고 해서 나머지 95%가 직장을 잃었을까? 그렇지 않다. 리테일, 금융, 보건, 하이테크 등의 산업으로 이동했다. 인간은 교육과 학습을 통해 스스로 발전한다. MS 역시 대학을 비롯한 다양한 교육기관과 협력하고 있으며 점점 평생학습이 중요한 시대로 가고 있다. 5년 전 배운 기술은 이제 의미가 없는 만큼 계속해서 학습하고 교육받아야 한다. MS가 링크트인을 인수한 이유도 사람들이 어떤 교육과 학습을 해야 하는지, 어떤 직장 이동 기회를 원하는지 규명해야만 그에 맞는 서비스를 제공할 수 있기 때문이다. 이런 수요와 공급을 잘 연결한다면 AI 기술은 모든 사람에게 새로운 기회를 열어줄 것이다.

김윤진 기자 truth311@donga.com
관련기사