Top
검색버튼 메뉴버튼

SR3. Interview: ‘엔비디아 코리아’ 기술 마케팅 책임자 김선욱 이사

“현실 데이터로는 메타버스 구현 못해
AI 딥러닝에 합성 데이터는 필수”

김윤진 | 345호 (2022년 05월 Issue 2)
Article at a Glance

AI 컴퓨팅 기술 분야의 대표 기업인 엔비디아는 지난해 AI 훈련용 합성 데이터 생성 엔진을 선보이고 이를 기반으로 자율주행 자동차, 스마트 공장 로봇, 물류 로봇 등을 훈련하는 합성 데이터들을 생성하고 있다. 가상 시뮬레이션 세계에서 미끄러운 도로, 갑작스럽게 끼어드는 보행자 등 일상에서 자주 경험하기 어려운 특수한 상황까지 연출하면서 현실에 없는 데이터들을 만들어내는 중이다. 로봇이 인식하는 물류 바코드의 소재 변화나 사물의 위치 변화 등 조건에도 다양한 변주를 줄 수 있다. 이런 가상 데이터는 더욱 실감 나는 게임 환경은 물론 모든 사물을 3D 그래픽으로 전환해야 하는 메타버스 세상을 구현하는 데 있어서도 필수적이다.



“시간이 지나면 전체 데이터의 99% 이상이 합성 데이터가 될지 모른다. 과장을 조금 보태면 인공지능(AI)이 학습하는 거의 모든 데이터가 합성으로 만들어지고, 현실이 시뮬레이션의 일부가 될 것이다.”

-김선욱 엔비디아 코리아 이사

미국 정보기술 자문 기업인 가트너는 2021년 6월 발간한 합성 데이터에 대한 보고서에서 2030년이 되면 AI에 사용되는 데이터 대부분이 ‘인위적으로’ 생성될 것이라고 예측했다. 합성 데이터를 사용하지 않고서 더는 고품질의 고부가가치 AI 모델을 만들 수 없을 것이라는 공격적인 예측을 내놓은 것이다. AI의 선구자인 앤드루 응(Andrew Ng) 스탠퍼드대 교수가 머신러닝에 있어 ‘데이터 중심 접근(Data-centric Approach)’으로의 전환을 촉구한 이래로 합성 데이터의 활용이 빠른 속도로 늘고 있다. 과거에는 ‘모델 중심 접근(Model-centric Approach)’, 즉 어떻게 프로그래밍 코드를 잘 짜고 알고리즘을 개선할 것인지가 AI 개발자들의 최대 고민이었다면 최근에는 같은 알고리즘을 가지고도 데이터의 양과 질을 높이면 얼마든지 AI 성능이 개선될 수 있다는 공감대가 생겨났기 때문이다. 점점 가속화되는 데이터 경쟁 속에서 고심하던 학계와 산업계가 찾은 새로운 대안이 바로 합성 데이터다.

043


미국의 컴퓨터 GPU 설계 회사로 AI 컴퓨팅 기술 분야의 선두 주자인 엔비디아는 지난해 11월 AI 훈련용 합성 데이터 생성 엔진인 ‘옴니버스 리플리케이터’를 선보이고, 이를 기반으로 자율주행 자동차가 다니는 가상 시뮬레이션 세계인 ‘드라이브 심(DRIVE Sim)’과 공장용 로봇이 다니는 가상 세계인 ‘아이작 심(ISSAC Sim)’을 선보였다. 현실을 가상으로 옮겨 놓은 이 세계에서는 실제로 사람이 경험하거나 수집할 수 없는 희귀하고 위험한 상황도 연출될 수 있다. 이곳에서 생성되는 데이터는 실제 데이터보다도 더 크고 다양하며, 애초에 컴퓨터가 만들었기 때문에 사람이 관측해 분류한 데이터보다 물리적으로 정확하다.

엔비디아 코리아의 기술 마케팅 책임자인 김선욱 이사는 “AI를 훈련할 때 모든 연산과 학습은 컴퓨터가 알아서 하기 때문에 사실 사람의 가장 중요한 역할은 데이터를 제공하는 일”이라며 “사람이 아닌 데이터가 프로그래밍을 한다고 말해도 과언이 아니며 기존 데이터가 못하던 부분까지 합성 데이터는 해줄 수 있다”고 강조했다. 앞으로 합성 데이터가 딥러닝 발전에 미칠 영향은 무궁무진하다는 설명이다. 현재 엔비디아가 주력하고 있는 자율주행, 로보틱스 분야를 넘어 향후 메타버스 세상에서 합성 데이터가 어떤 변화를 가져올 수 있는지 김 이사를 통해 들어봤다.

자율주행차 훈련을 위해 가상 세계에서
합성 데이터를 생성하는 이유를 설명해달라.

쉬운 예부터 들어보겠다. 도로 공사를 할 때나 위험 지역에 세워놓는 ‘꼬깔콘’ 모양의 안전 고깔(일명 라바콘)을 떠올려보자. 인간은 생활하면서 고깔이 도로 여기저기에 서 있는 모습을 봤기 때문에 이 사물이 통행을 제한하는 용도이고 그 위치도 얼마든지 달라질 수 있다는 걸 경험적으로 알고 있다. 하지만 자율주행 자동차 시범 주행 환경에서는 고깔이 도로 중앙에 있는 경우가 많다. 그러다 보니 실제 관측한 데이터만 학습한 AI는 이 물체가 도로 가장자리에 있을 수도 있다는 사실을 모른다. 사람과 달리 직접 차에서 내려서 고깔을 옮겨보거나 발로 차본 적도 없고, 이 물체가 도로 가운데 붙어 있는 건지, 움직이는 건지 알 턱이 없다. 즉, 인간은 도로 주행 교육을 1시간만 받아도 이미 일상생활에서의 경험치가 암묵지로 작용하지만 AI는 배경지식 없이 자동차 카메라만 보고 환경을 학습한다. 따라서 실제 카메라로 촬영한 이미지만으로 포착할 수 없는 다양한 경우의 수, 시나리오를 AI에 학습시키려면 고깔을 여기저기 재배치해 보기도 하고, 쓰러뜨리기도 하는 등 실제 관측이 어려운 이미지까지 인위적으로 만들어낼 필요가 있다. 이렇게 가상으로 만든 데이터가 합성 데이터다.

044


합성 데이터가 실제 데이터보다도 정확하다는 건
무슨 의미인가?

앞서 설명한 안전 고깔이 짙은 안개 속이나 빗길에 놓여 있다고 상상해보자. 이런 날씨에는 사람도 시야가 제한되므로 멀리 흐릿하게 보이는 빨간 삼각형 모양의 물체가 표지판인지, 야생동물인지 헷갈릴 수 있다. 이렇게 식별이 어려우면 고깔이라고 데이터에 라벨링(labelling)1 을 할 수 없으니 해당 데이터를 사용하기도 어렵다. 그런데 컴퓨터에 안개 속에 있는 고깔부터 빗길에 있는 고깔까지 여러 상황을 무작위로 생성하라고(randomization) 주문한다고 가정해보자. 이미지 속 물체가 아무리 흐릿하고 장애물에 가려져 있어도 최소한 컴퓨터는 그게 고깔이라는 걸 안다. 애당초 스스로 만들어 낸 데이터이기 때문이다. 사람도 남이 세워놓은 고깔은 못 알아보더라도 내가 직접 세워놓은 고깔은 알아보지 않나. 이처럼 합성 데이터의 경우 아무리 복잡한 도로 환경을 구현해도 이미 라벨링이 완료된 상태로 나오기 때문에 수동으로 라벨링한 실제 데이터보다 정확하다. 횡단보도를 건너는 보행자 키나 옷부터 제한속도 표시 등에 이르기까지 세부 사항을 바꿔가면서 복잡한 데이터를 만들어 내고 AI를 학습시키면 인식 정확도를 끌어올릴 수 있다.

045


시뮬레이터를 활용해 도로 환경뿐 아니라
자동차 행동도 모델링할 수 있다는데?

시뮬레이터의 역할은 차들이 지나다니는 환경을 현실과 똑같이 ‘디지털 트윈(digital twin)’으로 구현하는 것이다. 이미 수년 전부터 엔비디아는 시뮬레이터를 활용해 도로, 건물, 나무, 보행자, 교통 표지판 및 신호등 등을 똑같이 활용해 만들고 매핑(mapping)해 왔다. 여기에 차량 행동을 모델링한다는 의미는 교통 체증 등 복잡한 환경을 제작하는 것을 넘어 그 환경에서 일어나는 시나리오에도 변주를 주는 것을 뜻한다. 가령 “좌회전했을 때 갑자기 다른 차가 끼어들거나 보행자가 나타난다면?” “갑자기 눈이 내린다면?” “길이 미끄럽다면?” 같은 질문을 던지면서 상황을 조금씩 바꿔보는 식이다. 즉, 현실과 똑같은 환경을 만드는 데서 나아가 똑같지 않은 환경까지도 만듦으로써 자율주행 차가 여러 변수에 대처할 수 있는 능력을 키워준다. 타이어나 브레이크의 마모, 화물의 하중, 바퀴의 정렬 등이 달라지더라도 안전을 보장하려면 이런 알고리즘 검증 모델이 필요하다. 과거에도 비슷한 시도는 있었지만 이런 상황을 사람이 일일이 구현하는 게 힘들고 귀찮다 보니 컴퓨터를 시키기 시작했다고 이해하면 된다. 알파고 둘이 바둑을 반복해서 두면서 정확도가 올라가듯 컴퓨터가 혼자 이 길도 가보고, 저 길도 가보면서 자율적으로 학습하도록 맡긴 셈이다.

이처럼 자동차가 주변 환경에 반응하는 방식을 재현하기 위해 광범위한 차량 역학 모델 공급 업체들과 협업하고 있고 카메라, 레이더 및 라이더 공급 업체들이 제공한 센서를 통합하고 있다. 이렇게 개발된 정교한 센서 모델과 물리적으로 정확한 시뮬레이션은 햇빛이 카메라에 직접 비치는 일출이나 일몰 시간 등 특수한 ‘에지 케이스(edge case)’2 를 검증하는 데 매우 유용하다.

046


로보틱스 분야에서는 합성 데이터가
어떻게 이용되는가?

예를 들어 미국 아마존에서는 상품 재고에 붙은 바코드 스티커의 인식률을 높이기 위해 합성 데이터를 사용한다. 아마존 물류 창고의 경우 재고가 워낙 밀집된 상태로 다닥다닥 붙어 있기 때문에 사람이 일일이 찾아 나를 수 없고, 로봇이 바코드를 찍어 분류하고 옮긴다. 그런데 이 스티커를 반짝이는 소재로 바꿨더니 로봇이 인식하지 못하는 문제가 발생한 적이 있다. 이에 아마존은 가상 세계에서 스티커 소재나 모양이 바뀌었을 때, 혹은 스티커가 다른 각도에서 빛을 받았을 때 어떻게 비치는지 등 다양한 경우의 수를 고려해 합성 데이터를 만들었다. 포장 박스 모양도 여러 가지로 변형해가면서 실제 데이터와 흡사한 합성 데이터를 생성한 결과 로봇의 바코드 인식률이 크게 개선됐다.

엔비디아의 ‘아이작 심’ 시뮬레이터는 이처럼 미래형 공장이나 물류 창고용 로봇 관련 합성 데이터를 생성한다. 공장 로봇의 활동과 관련된 모든 가상 환경을 만들어낸다고 보면 된다. 물론 공장 자동화와 관계없는 에어컨이라든지, 가구라든지 잡동사니까지 구현할 필요는 없겠지만 AI 훈련에 필요한 환경들은 얼마든지 꾸며낼 수 있다. 빨래를 하는 로봇을 훈련시켜야 한다면 옷가지의 색상이나 소재 등 세탁물 종류를 다양하게 변형한 합성 데이터를 만들어내면 된다.

메타버스 세상에서는 이런 합성 데이터가
더 중요해질 수 있다고 들었다.

메타버스 세상이 도래하면 현실에 존재하는 모든 사물을 가상으로 만들어내야 하므로 도메인별 합성 데이터를 한곳에 모아야 한다. 가령 지금은 내가 의자나 전등 이미지를 쓰고 싶으면 인터넷 검색창을 뒤져서 예쁜 2D 의자, 전등 사진을 다운로드받지 않나. 이런 이미지는 주로 실제 쇼핑몰이나 블로그 등에 등록돼 있다 보니 저작권 문제를 피하기 어렵다. 그런데 궁극적으로 메타버스에서는 일상에서 접하는 모든 사물이 3D 그래픽 형태로 필요해질 것이고, 저작권에 걸리지 않는 3D 데이터 수요가 폭발할 것이다. 이때 현실에는 없지만 실제 사물과 거의 똑같이 합성한 데이터의 가치가 높아지는 동시에 이런 데이터를 파는 업체가 늘어날 수 있다. 추측해보건대 메타(구 페이스북)가 합성 데이터에 주목하는 까닭도 메타버스에 배치하는 모든 그래픽 이미지를 사람이 작업해 만들 수는 없으니 컴퓨터가 만들어내게 하려는 의도로 풀이된다.

메타버스에 있는 사물은 정밀하게 만들 필요가 없어 보이는데 굳이 AI의 인식 정확도를 높여야 하나?

메타버스에서 사람만 다니는 게 아니라 로봇도 다닐 것이고, 로봇이 다니려면 물체를 인식해서 반응하고 움직일 수 있어야 한다. 컴퓨터 게임을 떠올려보더라도 NPC(Non Playable Character), 즉 실제 플레이어가 아닌 뭔가 답답한 가상 캐릭터들이 혼자 돌아다니지 않나. 이런 캐릭터들이 스마트해지고 즉각적으로 리액션을 해줄 수 있어야 더욱 실감 나는 게임이 가능해질 것이다. 지금은 NPC가 단순히 총싸움만 하는 단계라면 나중에는 정해진 액션 외에도 상호작용을 통해 다양한 활동을 하는 단계로 나아가야 한다. 마찬가지로 메타버스에서도 실제 플레이어와 NPC가 구별이 안 되고 잘 섞일수록 양질의 서비스가 가능하므로 AI가 사물을 학습하고 정확하게 인식하는 능력은 중요하다.

엔비디아는 합성 데이터 생성 엔진인 ‘옴니버스 리플리케이터’를 통해 어떤 비즈니스를 구상하고 있는가?

단기적인 비즈니스 관점에서 접근했다기보다는 합성 데이터 생태계 파이를 넓히려 했다고 봐야 한다. 엔비디아의 필요에 의해 자동차 시뮬레이션을 오래 진행해 왔고, 이 과정에서 수많은 합성 데이터가 만들어졌으니 옴니버스3 플랫폼 이용자들도 사용할 수 있게 공개한 것이다. 그동안 엔비디아는 자동차가 현실에서만 주행해서는 원하는 수준으로 AI 성능을 개선하기 어렵기 때문에 자동차 카메라에 게임 같은 가상 화면을 보여주면서 훈련시켜 왔다. 그런데 이런 게임 같은 화면을 하나하나 사람이 그리기가 버겁다 보니 자동화의 필요성이 커졌고, 복잡하면서도 현실과 흡사한 가상 화면을 자동으로 만들기 시작했다. 그 애플리케이션이 바로 합성 데이터 생성 엔진인 리플리케이터다. 옴니버스 리플리케이터는 이 엔진의 기능을 옴니버스에 합친 것이라고 보면 된다. 향후 플랫폼 이용자가 더 많아지면 엔비디아뿐 아니라 자율주행 외 도메인별 전문 합성 데이터 생성 업체들도 자신들이 생성한 데이터를 옴니버스에 등록할 유인이 생길 수 있고, 생태계가 커지면 이용자들이 이런 플랫폼에서 분야별로 원하는 가상 데이터를 가져다 바로바로 메타버스 환경을 구현할 수 있게 될 것이다.

합성 데이터 생성에는 어떤 기술이 적용되나?

딥러닝 기술 가운데 GAN(Generative Adver-sarial Network)이 가장 많이 쓰인다. 이 GAN은 가짜 얼굴, 딥페이크를 만드는 데 많이 사용되는 기술이다. 가령 머리가 길고 웃는 얼굴의 여성이 있으면 머리가 짧거나 우는 얼굴로 바꿔줄 수도 있고, 서양인으로 만들거나 요정 느낌을 내줄 수도 있다. 이 기술에 대해 간단히 설명하자면 컴퓨터 안에 두뇌가 두 개 있는데 한 뇌가 가짜 얼굴을 그리면 다른 한 뇌가 “이거 가짜인데?”라고 판정해주는 원리다. 그렇게 “이거 진짜야!”라는 최종 판정을 받기까지 두 뇌가 서로 신호를 주고받는 과정에서 얼굴은 점점 더 실제와 근접해지고, 없는 데이터도 만들어진다.

예를 들어 자동차에 햇빛이 반사되는 이미지를 그리고 싶다고 할 때 사람은 날씨나 해가 떠 있는 위치 등을 고려해 대강 그려내지 않나. 마찬가지로 GAN 기술을 쓰면 AI도 면밀한 수치 계산 없이 대강 현실과 비슷하게 그려낸다. 물론 GAN 외에 사진을 찍어 3D로 전환하는 기술로도 합성 데이터를 만들 수 있다. 이때 AI의 강점은 보이는 면뿐만 아니라 보이지 않는 면까지 예측해서 그려준다는 것이다. 가령 드론으로 숲의 전경을 촬영하고 3D로 바꿀 때 정확도야 떨어지겠지만 AI가 드론이 촬영하지 못한 부분까지 다 알아서 채워준다. 정확도가 떨어진 부분이 사용 목적과 직결되는 정보가 아니라면 충분히 가치 있는 데이터가 생성될 수 있다.

048


이 기술이 이미지 인식 분야에서 다양하게
활용되고 있는 것 같다.

예를 들어 내 얼굴에 멋진 모델의 얼굴을 입히는 합성도 GAN 기술 기반이다. 그리고 화상회의를 할 때 디지털 아바타인 ‘토킹 헤드(talking head)’가 실제 사용자가 말하는 것처럼 보이도록 합성할 때도 활용될 수 있다. 가령 ‘엔비디아 비드 투 비드 카메오’의 경우 사용자가 2D 사진 하나만 등록해 놓으면 AI가 사용자의 움직임을 실시간으로 포착해 이를 기존 사진과 합성한다. 만약 정장을 입은 사진을 올려놓으면 실제 화상회의할 때 옷을 갖춰 입지 않았더라도 화면에는 정장을 입은 모습이 노출된다. 사용자가 언제, 어디서나 증명사진과 같은 완벽한 모습으로 화상회의에 참여할 수 있는 셈이다. 얼굴에서 20개의 중심 포인트를 추출하고, 이 포인트를 중심으로 간소화된 데이터만 주고받으면서 전송되지 않은 데이터, 즉 포인트 사이의 공백을 AI가 알아서 메워준다. 사용자가 측면으로 얼굴을 돌려도 정면으로 시선 처리를 해주기도 한다.

049


이 밖에 AI 페인팅 툴 역시 이 GAN 기술을 기반으로 한다. 간단한 윤곽선을 그리거나 땅, 하늘, ‘눈 덮인 산맥’ 등 짧은 문구만 입력해도 주요 특징과 테마를 반영한 사실적인 예술품이 탄생한다. 이처럼 사람의 콘셉트를 시각화해주는 도구가 향후 포토샵, 그림판 등과 합쳐지면 앞으로 소설 내용에 맞는 삽화가 자동으로 완성되는 등 다양한 응용이 가능할 전망이다.

최대한 사진처럼(photorealistic) 그럴 듯한 데이터를 만드는 것과 최대한 다양한 시나리오를 시뮬레이션하는 것 중 뭐가 더 중요한가?

둘 다 중요하다. 앞서 말한 무작위 생성(randomization) 기술을 활용해 다양한 환경을 만들고 실제 테스트할 수 없는 환경을 미리 보는 것이 중요하긴 하지만 엄연히 학습용 데이터인데 너무 현실과 동떨어지고 사진과 차이가 크면 품질이 문제가 될 수 있다. 어느 정도 현실에 있을 법하게 그럴 듯해야지 아무리 가상 시뮬레이션이라고 해도 손오공이 타는 근두운 같은 게 자동차 길에 떠다니면 안 되지 않겠나. 너무 사진과 다른 데이터는 AI의 혼동만 가중시킬 수 있다. 간혹 시뮬레이터를 활용해 생성한 데이터를 사용했더니 정확도가 오히려 떨어지는 경우도 있는데 이런 것이 특정 상황을 연출하려다 현실적이지 않은 데이터로 훈련을 하게 되면서 발생하는 문제다. 아직까지 컴퓨터 게임도 현실과 조금 다르고 어색한 느낌이 있지 않나. 그런데 이제는 현실과 거의 구분하기 힘든 정도의 그래픽이 나오고 있고 앞으로의 합성 데이터는 더 사실적인 방향으로 갈 것이다.

엔비디아는 합성 데이터를 가지고
어떻게 파트너사와 제휴, 협력하고 있나?

가령 BMW의 경우 자동차 제조 과정을 최적화하기 위해 엠비디아 옴니버스를 기반으로 가상 공장을 지었다. 리플리케이터를 활용해 BMW가 생성한 데이터는 조립 작업자와 로봇이 가장 효율적인 방식으로 협업하고 역할을 세부 조정할 수 있도록 AI를 학습시킨다. 가령 공장에서 로봇 팔은 뭔가 사물을 집는 동작을 무한히 반복해야 한다. 환경이 바뀌더라도 이런 무한 반복이 계속되려면 이 로봇 팔을 훈련시키는 단계에서부터 빛, 사물의 위치 등을 달리하면서 훈련을 거듭해야 한다.

실제 데이터보다 가상 데이터가 더 많아질 수 있는지, 단점은 없는지 궁금하다.

이미 실제 데이터보다 가짜 데이터가 훨씬 많다. 알다시피 실측 데이터는 그렇게 많지 않고 늘 부족하다. 자율주행 자동차가 도로 학습할 때 사용할 만한 사거리(crossroad) 이미지가 몇 개나 있겠나. 이 장소의 사거리, 저 장소의 삼거리 등등을 찾아다닐 수는 있겠지만 정해진 로케이션, 즉 한 사거리에서 다양한 상황의 이미지를 연출하긴 쉽지 않다. 고난도로 AI를 훈련하려면 결국 이런 상황들까지 재현한 합성 데이터에 의존할 수밖에 없고 디지털 환경에서 시험해야 한다. 소매업계 스타트업인 미국 캐퍼(Caper)의 경우도 진짜 제품 이미지 5개만으로 1000개 이미지의 합성 데이터세트를 만들었다고 할 정도다.

합성 데이터의 단점이라면 결국 실제 데이터가 아니라는 것인데 시간이 지날수록 실제처럼 만들게 될 것이고 자연히 해결될 문제다. 그 대신 실제 데이터 구매나 라벨링에 드는 비용을 자동화를 통해 크게 낮출 수 있다. 합성 데이터를 만드는 업체들이 돈을 벌 수 있는 이유도 바로 기업들 입장에서 합성 데이터를 구매하는 게 훨씬 싸기 때문이다. 더욱이 초상권이나 저작권에 저촉되지 않는지 일일이 확인할 필요도 없다.

050

합성 데이터의 사용으로 인한
윤리적 문제들에 대한 우려는 없나?

개별 기업이 고민하기보다는 인류가 법적으로, 사회적으로 풀어야 하는 문제다. 윤리적인 딜레마에 관한 유명한 이야기지만 자율주행 자동차가 왼쪽으로 가면 10명의 보행자를 치고, 오른쪽으로 가면 보행자 1명이 다치거나 차에 탄 사람이 죽을 때 AI는 어떻게 선택하는지를 묻는 질문들을 많이 한다. 하지만 이런 의사결정은 AI가 선택하는 게 아니라 사람이 결정해서 입력하면 되는 문제다. 즉, 사회적으로 합의할 문제임을 명심해야 한다. 합성 데이터도 딥페이크로 인한 사회적 문제를 유발할 수 있지만 사람이 규칙을 정하는 거지 로봇한테 정해달라고 책임을 떠넘겨서는 안 된다. 합성 데이터 역시 현실에 부족한 데이터를 채워주는 역할이고, 엔비디아가 필요에 의해 먼저 만들어 썼듯 앞으로 필요로 하는 업체들이 훨씬 많아질 것이다. 궁극적으로는 더 많은 회사가 옴니버스 리플리케이터를 사용해 자체적으로 다양한 도메인에서 데이터 생성 엔진을 구축하고 방대한 합성 데이터세트를 만들 수 있길 기대해 본다.


김윤진 기자 truth311@donga.com


관련기사