AI 컴퓨팅 기술 분야의 대표 기업인 엔비디아는 지난해 AI 훈련용 합성 데이터 생성 엔진을 선보이고 이를 기반으로 자율주행 자동차, 스마트 공장 로봇, 물류 로봇 등을 훈련하는 합성 데이터들을 생성하고 있다. 가상 시뮬레이션 세계에서 미끄러운 도로, 갑작스럽게 끼어드는 보행자 등 일상에서 자주 경험하기 어려운 특수한 상황까지 연출하면서 현실에 없는 데이터들을 만들어내는 중이다. 로봇이 인식하는 물류 바코드의 소재 변화나 사물의 위치 변화 등 조건에도 다양한 변주를 줄 수 있다. 이런 가상 데이터는 더욱 실감 나는 게임 환경은 물론 모든 사물을 3D 그래픽으로 전환해야 하는 메타버스 세상을 구현하는 데 있어서도 필수적이다.
“시간이 지나면 전체 데이터의 99% 이상이 합성 데이터가 될지 모른다. 과장을 조금 보태면 인공지능(AI)이 학습하는 거의 모든 데이터가 합성으로 만들어지고, 현실이 시뮬레이션의 일부가 될 것이다.”
-김선욱 엔비디아 코리아 이사
미국 정보기술 자문 기업인 가트너는 2021년 6월 발간한 합성 데이터에 대한 보고서에서 2030년이 되면 AI에 사용되는 데이터 대부분이 ‘인위적으로’ 생성될 것이라고 예측했다. 합성 데이터를 사용하지 않고서 더는 고품질의 고부가가치 AI 모델을 만들 수 없을 것이라는 공격적인 예측을 내놓은 것이다. AI의 선구자인 앤드루 응(Andrew Ng) 스탠퍼드대 교수가 머신러닝에 있어 ‘데이터 중심 접근(Data-centric Approach)’으로의 전환을 촉구한 이래로 합성 데이터의 활용이 빠른 속도로 늘고 있다. 과거에는 ‘모델 중심 접근(Model-centric Approach)’, 즉 어떻게 프로그래밍 코드를 잘 짜고 알고리즘을 개선할 것인지가 AI 개발자들의 최대 고민이었다면 최근에는 같은 알고리즘을 가지고도 데이터의 양과 질을 높이면 얼마든지 AI 성능이 개선될 수 있다는 공감대가 생겨났기 때문이다. 점점 가속화되는 데이터 경쟁 속에서 고심하던 학계와 산업계가 찾은 새로운 대안이 바로 합성 데이터다.