SR1. Interview: ‘씨앤에이아이(CN.AI)’ 이원섭 CEO, 김보형 CTO

더 싸게, 더 많이, 더 빨리
‘With AI’ 시대 앞당길 ‘가짜’의 힘

345호 (2022년 05월 Issue 2)

Article at a Glance

데이터가 넘쳐나는 시대에 기업들은 역설적으로 데이터 부족에 시달리고 있다. 데이터가 있다 한들 AI가 학습할 수 있도록 데이터에 표시를 하는 라벨링이 인간의 수작업으로 이뤄지기 때문에 가공하는 데만 많은 시간과 비용이 든다. 이런 데이터 수급의 불안정은 AI의 정확도를 개선하고 상용화하는 데 있어 가장 큰 병목으로 작용한다. 그런데 인공적으로 합성 데이터를 생성하면 데이터 한 개당 약 6달러인 라벨링 비용을 6센트까지 낮출 수 있다. 또한 환자 개인의 동의를 일일이 받느라 구하기 힘든 의료 데이터를 합성 데이터로 생성하면 8개월 걸릴 작업을 이틀 만에 끝낼 수도 있다. 합성 데이터가 AI 개발 및 운영상의 한계에 봉착한 기업들의 페인포인트를 해소하고 ‘With AI’ 시대를 앞당겨 줄 대안으로 부상하고 있는 이유다.


‘데이터에 굶주리고 있다(Data Hungry).’

2022년 MIT테크놀로지리뷰가 선정한 ‘10대 혁신 기술’에는 ‘인공지능을 위한 합성 데이터(Synthetic Data for AI)’가 등재됐다. AI가 학계와 산업계의 주요 테마로 거론돼 온 것은 하루 이틀 일이 아니다. 하지만 올해 특별히 주목할 점은 AI 응용을 위한 핵심 기술로 ‘합성 데이터’가 꼽혔다는 점이다. 이런 흐름은 AI가 진화할수록 AI 훈련에 필요한 데이터양이 천문학적으로 불어나고 있는 현상과 관련이 깊다. 똑똑한 자식을 키우기 위해 교육비가 늘어나는 것과 비슷한 이치다. 이처럼 데이터의 양이 AI의 학습 속도를 따라가지 못하게 되면서 데이터에 굶주린 빅테크들이 돌파구를 찾기 시작했고, 이들이 눈을 돌린 곳이 바로 합성 데이터다. 다르게 말하면 진짜를 모방한 ‘가짜 데이터’로 진짜 데이터를 대체해보려는 시도가 본격화됐다는 의미다.

이 새로운 기술에 대한 시장의 높은 관심은 거대 자본의 이동을 통해서도 확인된다. 2021년 10월, 메타(구 페이스북)는 합성 데이터 생성 기업인 ‘AI 레버리(AI.Reverie)’를 조용히 인수한 뒤 그해 12월 이 회사를 메타버스사업부인 리얼리티 랩스와 통합했다. 메타버스 세계를 구현하는 데 합성 데이터를 활용하겠다는 의중을 암암리에 드러낸 것이다. 메타와 같은 시기인 2021년 10월, 북미의 최대 식료품 배달 업체인 인스타카트 역시 ‘캐퍼(Caper)’라는 합성 데이터 생성 기업을 품었다. 인스타카트는 이 인수합병을 계기로 모든 고객이 계산대에서 줄을 서지 않을 수 있도록 최신 AI 기반의 스마트 쇼핑 카트, 자동 결제 기술을 탑재하고 오프라인과 온라인 쇼핑 경험을 유기적으로 연결하겠다는 포부를 밝혔다.

023


이처럼 두 IT 공룡이 잇달아 2017년, 2016년께 설립된 신생 스타트업을 인수했다는 것은 업종을 불문하고 고급 머신러닝 알고리즘을 훈련하는 데 있어 ‘합성 데이터’의 중요성에 주목하고 있음을 보여준다. 이 같은 변화를 간파하고 국내에서도 재빨리 이 시장에 뛰어드는 기업들이 생겨나고 있다. 2019년 삼성 출신의 젊은 엔지니어들이 의기투합해 창업한 합성 데이터 전문 기업 ‘씨앤에이아이(CN.AI)’가 대표적이다. 씨앤에이아이도 초기에는 생소한 기술로 투자자를 이해시키는 데 어려움을 겪었지만 글로벌 시장 변화와 함께 2022년 상반기 KB인베스트먼트와 IMM인베스트먼트에서 50억 원 규모의 투자를 유치하며 시장에서 존재감을 드러내기 시작했다. 국내 유일의 합성 데이터 전문 기업으로서 의료, 금융, 가상 휴먼 등 전방위로 활동 영역을 넓히며 기업들의 AI 엔진을 고도화하고 있는 CN.AI의 창업자 이원섭 CEO, 김보형 CTO를 DBR(동아비즈니스리뷰)가 만났다. 이들에게서 합성 데이터가 무엇이고, 왜 주목받고 있는지, 향후 합성 데이터가 실제 데이터를 능가할 만한 ‘게임 체인저(Game Changer)’로서 잠재력이 있는지 전망을 들어봤다.

합성 데이터가 무엇인지 설명해달라.

실제로 촬영한 이미지 등 현실의 데이터가 아니라 AI 학습용으로 만들어낸 가상 데이터를 말한다. 통계적 방법이나 기계학습 방법을 써서 생성한 데이터라고 이해하면 된다. 정교한 머신러닝 모델을 만들기 위해서는 데이터가 많으면 많을수록, 다양하면 다양할수록 좋다. 예를 들어, 의료 분야에서 위암을 진단하는 AI 엔진이 전문가보다 뛰어난, 약 95%의 정확도를 보이기 위해서는 20만 개 이상의 위암 환자 내시경 이미지가 필요하다. 그런데 환자의 개인정보 민감성 등의 이유로 이렇게 많은 수의 데이터를 확보하기 어려울 뿐만 아니라 어렵게 구한다 하더라도 어디가 위암 부위이고, 어디가 정상 부위인지 등을 사람이 일일이 라벨링(labelling)1 해야 한다. 또한 암이 잘 발생하지 않는 예외적인 구간에서 병변이 발견되는 등 희소성이 높은 환자 케이스의 경우 데이터가 더 부족할 수밖에 없다. 이렇게 수천 혹은 수만 개의 데이터를 확보하기까지 엄청난 인건비와 시간이 든다. 그런데 인공적으로 데이터를 생성할 경우 이 비용과 시간을 크게 단축하면서도 편향되지 않은 다양한 케이스의 데이터를 만들어 낼 수 있다.

비용과 시간을 얼마나 줄일 수 있나?

2021년 9월 메타에 인수된 합성 데이터 생성 플랫폼 ‘AI 레버리(AI Reverie)’의 공동 설립자인 폴 월보르스키(Paul Walborsky)는 인간이 수작업으로 하는 라벨링 서비스를 이용하면 데이터 한 개당 약 6달러의 비용이 들지만 인공적으로 데이터를 생성하면 6센트까지 비용을 낮출 수 있다고 주장했다. 약 100분의 1 수준으로 가격이 저렴해지는 것이다. 물론 분야별로 차이는 있겠지만 아무리 기술 개발에 대한 투자 비용이 필요하고 최근 컴퓨팅 파워(GPU)가 비싸다고 해도 사람을 쓰는 것만큼 비싸지는 않다. 미국 등지에선 AI 학습용 데이터 라벨링을 위해 베트남, 인도 등 개발도상국 인력을 쓰고 아르바이트를 고용하고 있지만 아무리 허리띠를 졸라매도 인건비가 많이 든다. 그런데 합성 데이터 생성은 컴퓨팅을 위한 전기료까지 다 합쳐도 인건비보다 싸기 때문에 시장성이 확실히 있는 분야다.

합성 데이터를 생성하면 사람의 노동이
관여할 필요가 없나?

일단 수동으로 하던 라벨링 작업 대부분이 필요 없어진다. 예를 들어보겠다. 합성 데이터의 품질을 높이는 CN.AI의 대표적인 기술로 ‘이미지 인페인팅(Image Inpainting)’이란 게 있다. 인페인팅이란 원본 이미지나 영상에 있는 특정 사람, 사물, 사건을 감쪽같이 지운 뒤 배경을 채워 자연스럽게 복원하는 기술이다. 의료 분야에서 암의 병변 부분을 지워서 인공적으로 ‘정상 데이터’를 만들 때 이 기술이 쓰인다. 이렇게 합성된 정상 데이터를 학습한 AI는 암이 생겼을 때 병변을 탐지할 수 있는 것은 물론 이미 병변과 정상 영역을 식별할 수 있기 때문에 사람이 별도로 알려주지 않아도 스스로 라벨링을 한다. 물론 100%는 아니고 여전히 사람의 교차 검증이 필요한 경우도 있다. 병변을 지우는 데 쓰이는 인페이팅 기술과 달리 ‘이미지 생성(Image Generation)’ 기술은 정상 데이터와 병변 데이터의 영역을 지정한 뒤 이미지를 합성해 새로운 ‘병변 데이터’를 생성할 때 주로 쓰이는데 이 경우에는 합성한 이미지가 실제 암처럼 보이는지를 전문의가 판별해줘야 하기 때문에 아직까지는 사람의 확인을 거친다.

025


아무리 정교하게 만들어도 결국 ‘가짜 데이터’인데
가짜를 학습한 AI 모델을 신뢰할 수 있나?

합성 데이터는 수학적으로나 통계적으로 실제 데이터를 반영하고 AI 모델 훈련에 최적화된 형태로 만들어진 데이터다. 또한 최종적인 AI 모델의 정확도를 검증할 때는 진짜 데이터를 활용하기 때문에 가짜 데이터를 섞었다고 해서 완성된 모델까지 가짜인 것은 아니다. 오히려 모델의 정확도가 올라가니 더 신뢰할 수 있다. 예를 들어 5000장 정도의 위암 데이터를 보유한 강북삼성병원이 우리에게 위암 진단 AI 엔진 개발을 의뢰한 적이 있다. 그때 병원 직원들이 5000장의 데이터에 일일이 위암 병변 영역을 표시하고 환자 동의를 받는 데만 무려 8개월이 걸렸다. 하지만 그렇게 8개월을 기다려서 훈련한 AI의 첫 진단 정확도는 81%에 불과했다. 그런데 이 5000장의 실제 데이터에 5000장의 합성 데이터를 추가해 1만 장으로 훈련을 하자 AI의 정확도가 89.1%로 상승했다. 심지어 이 합성 데이터 5000장을 생성하는 데는 불과 이틀밖에 걸리지 않았다.

그 정도로 충분히 의미 있는 정확도라고 볼 수 있나?

앞서 의료 AI가 95%의 정확도를 달성하려면 20만 장의 데이터가 있어야 한다고 말했는데 ‘5000장+5000장’의 1만 장으로 89%에 도달했다는 것은 적은 데이터로도 빠르게 AI를 상용화 수준까지 끌어올릴 수 있는 엄청난 가능성을 보여준다. 의료 시장에서 기대하는 상용화 수준의 AI 진단율은 최소 90%인데 이 정확도를 달성하는 데 필요한 최소 데이터인 14만∼20만 장의 라벨링된 이미지를 가진 기업은 국내에는 스타트업 ‘루닛’2 정도밖에 없다. 당연히 모든 기업이 20만 장을 가지고 있으면 문제가 없겠지만 그렇지 않을 때 합성 데이터가 대안이 될 수 있다. 나아가 단순히 암의 유무가 아니라 암의 초기∼말기의 진행 단계까지 진단하는 능력을 평가해봤을 때 합성 데이터로 훈련한 AI 탐지 모델의 정확도(mAP=0.713) 수준이 숙련된 교수(mAP=0.75)보다는 낮았지만 대학병원 레지던트(mAP=0.67) 수준보다는 높게 나오는 등 성과가 있었다.

원본 데이터가 적고 편향돼 있을 때도
합성 데이터를 많이, 다양하게 만들 수 있나?

적고 편향된 데이터를 가지고도 다양한 데이터를 생성할 수 있는 기술 노하우가 있다. 물론 무(無)에서 유(有)를 창조하는 게 아니고 원(original) 데이터에서 공통된 특징들을 추출해 새로운 데이터를 만드는 과정이기 때문에 당연히 실제 데이터가 많고 균등하게 분포돼 있을수록 좋다. 원데이터가 너무 적거나 편향돼 있으면 합성 데이터 품질도 떨어진다. 이론적으로는 합성 데이터를 무한히 생성할 수 있지만 이 경우 전문가 검수를 거치는 과정에서 탈락하는 비율이 높아진다. 산업 분야나 데이터 유형별로 다르지만 현 기술 수준으로는 최소 약 2000장 정도의 실제 데이터가 있어야 AI를 학습시킬 수 있다고 본다. 의료 분야의 경우 AI가 탐지했으면 하는 질환 케이스가 10가지라고 할 때 10가지 케이스가 골고루 반영돼 있는 질환 데이터 1000장, 정상 데이터 1000장 정도는 있을 때 나머지를 합성 데이터로 대체할 수 있다고 보고 있다.

합성 데이터 플랫폼을 만들어
비즈니스에 뛰어든 계기가 궁금하다.

우리도 대기업 출신이지만 AI 과제를 하다 보면 충분한 양의 데이터를 보유한 기업을 찾아보기 힘들다. 삼성 같은 굴지의 기업에서도 AI 학습에 쓸 만한 데이터양이 터무니없이 적거나 없고, 있더라도 질이 좋지 않아 골머리를 앓는다. 대부분의 AI 프로젝트가 유야무야 끝나는 이유다. AI 엔진은 오픈소스로 공개되면서 구하기가 점점 쉬워지고 있는 반면 극소수의 기업을 제외하고는 AI 엔진이 학습할 데이터를 구하지 못해 애를 먹고 있는 게 현실이다. 애초에 데이터가 적은 희귀질환 진단 분야는 AI가 접근조차 할 수 없고 데이터 확보가 쉬운 질병과 장기 위주로 AI 진단 소프트웨어 개발이 활성화돼 있다. 특히 의료 외에도 자율주행, 로봇, 스마트시티처럼 AI 학습을 위해 방대한 양의 데이터를 무작위(random)로 얻어야 하는 분야, 동영상이나 사진 등 비정형 데이터(unstructured data)를 취급하는 분야는 데이터 수급에 난항을 겪고 있다. 이런 문제를 합성 데이터를 생성해 해결할 수 있다면 기업들의 애로사항을 해결하고 사업적으로도 충분히 기회가 있을 것이라고 봤다.

027


자율주행 자동차 분야에서도
이미 합성 데이터가 활발히 도입되고 있다는데.

이미 자율주행 자동차의 가상 도로 학습에 광범위하게 이용되고 있고 테슬라도 자율주행에 합성 데이터를 이용한 사례를 ‘테슬라 AI 데이’에 공개한 바 있다. 이런 업체들은 대개 시뮬레이터를 만들어 가상 환경에서 자율주행 차가 사람을 치는 사고 상황, 눈이나 비가 내리는 위험 상황 등 현실에서 얻기 힘든 케이스의 이미지들을 생성한다. 원래는 자율주행 차 몇십 대에 카메라를 달고 달리게 해야 얻을 수 있는 데이터를 시뮬레이터에서 전부 뽑아낼 수 있다. 단, 테슬라의 3D 시뮬레이터 기반 합성 데이터는 다양한 시나리오를 발굴하고 학습시키는 데는 적합하지만 이미지의 현실성이 떨어져 오히려 AI 엔진의 전체적인 정확도를 낮추는 문제를 노출하기도 했다. 가상 환경이 아무래도 100% 현실 같지 않고 3D 게임 애니메이션과 흡사하다 보니 부자연스럽다는 단점이 있다. 이에 우리는 이 합성 데이터를 애니메이션보다도 실사판에 가깝게, 사진처럼 정교하고 자연스럽게(photo-realistic) 모사하는 데 주력하고 있다. 도로, 차, 신호등, 건물 등 위치를 지도로 만들고, 그 지도에 실제 이미지를 합성하면서 최대한 사실에 가깝게 구현한다. 궁극적으로 자동차는 3D 게임 속이 아니라 현실에서 주행해야 하는 만큼 정확도가 생명이다.

합성 데이터를 구매하는 해외 고객사들도 있나?

아직 해외 고객사들이 많지는 않지만 ‘차량 내(in-cabin)’ 이미지를 분석하는 아일랜드의 한 회사에서 최근에 합성 데이터 생성을 의뢰했다. 가령 차량 내 카메라로 촬영한 이미지를 가지고 운전자가 졸고 있는지 아닌지 등을 확인하려면 다양한 연령대, 성별, 인종의 데이터가 필요하다. 그리고 승용차, 트럭, 버스 등 차종마다 다른 차내 구조도 감안해야 한다. 머리가 희끗희끗한 할아버지부터 대학생, 긴 생머리의 젊은 여성에 이르기까지 여러 케이스를 원하는데 이런 데이터를 모두 확보하기가 어렵고 비싸기 때문에 우리에게 서로 다른 생김새를 가진 합성 이미지를 최대한 많이 만들어 달라고 요청한 것이다. 자동차 내 기능은 밤에도 잘 작동해야 하는데 흑인 등 어두운 피부 색깔을 가진 운전자의 모습은 야간에는 카메라가 RGB(빨간색, 초록색, 파란색의 조합)로 잘 탐지하지 못하기 때문에 이런 가상 데이터세트를 많이 학습시켜야 불의의 사고를 예방할 수 있다.

금융 분야에서는 합성 데이터를
어떻게 적용할 수 있는지 궁금하다.

사기 감지(Fraud Detection) AI의 정확도를 높이는 데 이용될 수 있다. 현재 AI는 주로 고객이 통장 잔고에서 갑자기 1억 원씩 거액을 인출하거나 보이스피싱에 취약한 고연령층이 갑자기 많은 현금을 인출할 때 이를 이상 거래로 감지한다. 출입국 기록이 없는 개인이 해외에서 카드 결제를 해도 이상 거래로 적발해 낸다. 그런데 갈수록 사기 수법이 교묘해지고 다양해지다 보니 실제 거래 이력들만 학습해서는 이상 신호를 감지하는 게 점점 더 어려워지고 있다. 더욱이 이런 예외적인 이상 거래가 매일 수시로 발생하는 게 아니고 대부분 방어막에 걸려 승인이 거절되기 때문에 데이터가 충분하지도 않다. 간혹 방어막이 뚫리면서 놓칠 수 있는 한두 가지 희귀 케이스나 고도의 사기 수법까지 효과적으로 막으려면 여러 가지 발생 가능한 시나리오를 섞어서 합성 데이터를 만들어 둬야 한다.

정리하자면, AI의 이상 거래 탐지율을 높이기 위해서는 기존에 없던 최신 기술을 가지고 AI 알고리즘을 업그레이드하거나 여러 카드, 금융사에 흩어져 있는 거래 데이터들을 공유해 한곳에 집적한 뒤 학습시키거나 합성 데이터를 만들어 데이터의 양을 인위적으로 늘려야 한다. 그런데 앞의 두 가지는 개별 금융사의 힘만으로 하긴 쉽지 않다. 이에 따라 다양한 데이터를 확보하기 위해 합성 데이터의 가치가 더 커질 수밖에 없다. 금융사들이 아직은 보수적으로 접근하고 있어 상용화가 요원하긴 하지만 개인 혹은 기업의 신용평가나 FDS(이상금융거래탐지시스템)의 AI 모형을 개발할 때도 누락된 거래 내역 정보에 대한 합성 데이터를 생성해 부족한 데이터양을 보충하거나 여러 신용평가 시나리오를 합성 데이터로 생성해 학습시킬 수 있다.

028


메타와 인스타카트 같은 글로벌 빅테크가 지난해
합성 데이터 생성 기업들을 잇달아 인수한 배경은?

합성 데이터란 기본적으로 소량의 협소한 데이터를 증폭해 만들어낸 대량의 다양한 데이터다. 이들 기업의 의중을 정확히 알 수는 없지만 메타의 경우도 메타버스에서 각양각색의 사물, 사람 등 환경을 구현해야 하는데 데이터는 제한돼 있을 테니 AI 레버리를 인수하지 않았을까 추측해 볼 수 있다. 또한 인스타카트는 합성 데이터 기업인 캐퍼를 인수했는데 이 기업은 진열대에 있는 여러 상품 데이터를 확보하고 상품 인식 기능을 높이는 것을 주력으로 하던 회사다. 그런 의미에서 인스타카트 역시 스마트 카트 셀프 결제 서비스의 개선 등을 염두에 뒀을 것으로 볼 수 있다.

음성 합성 기술은 꾸준히 개발돼 온 반면 이미지나
영상 합성 기술은 최근 들어 더 빠르게 발전하고 있는 것 같다.

이미지, 영상 합성이 기술적으로 더 복잡하기 때문이다. 성우의 목소리 등 음성은 구역이 단순하고 음성 신호의 주파수대역만 조절해도 웬만큼 합성이 되고 기술도 다 공개돼 있었다. 반면 이미지, 영상 등 비전(Vision) 분야의 합성은 지금까지 상용화가 굉장히 힘든 분야였다. 가짜 이미지와 영상을 합성하는 GAN(적대적 생성 신경망)의 생성 모델을 가지고 사업하면 무조건 망한다는 속설이 있을 정도였다. 몇 년 전만 해도 엔진의 품질이 굉장히 낮아 피카소나 모네풍으로 이미지의 그림체를 바꾸는 정도가 기술적 한계였다.

이전에는 사람의 얼굴 생김새를 똑같이 생성하기도 어려웠다면 요새는 기술이 발전하면서 사람의 뒷모습, 옆모습, 15도 각도 등도 완벽하게 구현해내는 단계까지 왔다. 데이터 품질이 급격히 향상되면서 산업계에서 응용할 수 있는 영역도 무궁무진해지고 있다. GAN의 생성 모델이 마치 ‘위조화폐를 만드는 사기꾼’이라면 GAN의 분류 모델은 ‘위변조를 적발하는 경찰’의 역할이다. 이 두 가지 모델을 동시에 학습하면서 AI가 진화하고 있기 때문에 데이터 합성뿐 아니라 역으로 데이터 위변조 방지, 즉 가짜와 진짜를 분류하는 기술도 고도화되고 상용화되고 있다.

딥페이크(Deep fake)와 같은 기술이라고
보면 되나?

기술을 활용하는 목적이 다를 뿐 AI 휴먼 영상을 만드는 딥페이크도 합성 기술이라는 점에서는 같다. 우리도 기존 사람의 얼굴에 다른 사람의 얼굴을 입히는 기술을 갖고 있고, 최근에는 배우 송진우의 얼굴에 가수 싸이의 얼굴을 합성한 영상을 제작하기도 했다. 완전히 싸이 얼굴로 바꿀 수도, 아니면 일부 얼굴만 섞을 수도 있다. 최근에는 여러 미녀 배우의 얼굴을 조합한 새로운 얼굴을 만들어 기업 홍보물에 활용한 적도 있다. 다만 딥페이크는 실존하는 인물의 얼굴을 합성하다 보니까 초상권 문제를 유발하는 경우가 많은데 AI 휴먼을 만들 때 단일 화자가 아닌 다중 화자를 합성하면 이런 문제를 피해 갈 수 있다.

실제로 고객사 중에도 직원의 얼굴을 AI로 합성해 홍보 자료로 만들었다가 직원이 도중에 촬영을 거부하기도 하고, 게재할 때마다 허락을 구하느라 진땀을 뺀 사례가 있다. 신원이 특정되면 직원이 퇴사할 경우 더는 영상을 쓸 수 없다는 문제도 있다. 최근에는 이런 문제를 피하기 위해 다중 화자를 합성해 맞춤형 가상 휴먼을 만드는 기술이 각광을 받는 추세다. 이런 다중화자 합성은 ‘눈꼬리가 내려간 얼굴’ ‘볼터치를 한 얼굴’ ‘순한 얼굴’ 등 구체적, 추상적 요구들에 부응할 수 있다는 점에서도 활용도가 높다.

진짜 AI 학습에서 합성 데이터의 사용 비율이
실제 데이터를 능가할까?

결국은 합성 데이터 사용 비율이 실제 데이터 사용 규모를 능가할 것이고, 그럴 수밖에 없다고 확신한다. ‘With AI’ 사회로의 전환은 거스를 수 없는 흐름이다. 집 앞 슈퍼에선 신제품 동향과 단골손님의 취향을 분석해 제품을 진열하고, 집에선 AI 냉장고가 남은 재료와 식구들의 선호를 반영해 레서피를 추천해주는 그림이 충분히 실현될 수 있다. 이런 서비스를 어느 플랫폼이, 어느 대기업이 공급하게 될지는 모르겠지만 궁극적으로 각 현장의 니즈에 따라 AI를 손쉽게 적용하고 최적화할 수 있는 게 진정한 ‘With AI’ 사회의 모습일 것이다. 하지만 아직까지는 전문 연구자가 아니면 AI 개발에 범접하기 힘들고, 어렵사리 AI 기술을 익힌다 한들 데이터 수급이라는 장벽에 가로막혀 옴짝달싹 못하는 게 현실이다. 이런 현실의 어려움을 해소해주고 ‘With AI’로의 전환을 돕는 게 우리의 역할이자 합성 데이터의 가치다.

처음 기업들이 AI에 대한 이해가 부족했을 때는 알고리즘을 개선하기 위해 갖은 노력을 해봤지만 점점 기술 때문이 아니라 데이터 수급이 문제임을 깨닫고 있다. 더욱이 데이터 생성뿐 아니라 보관, 압축 기술 등이 함께 따라가야 하고 품질이 낮은 데이터의 해상도를 높이고 복원하는 등 일련의 정제 과정이 동반돼야 한다. 그래서 데이터양을 증폭시키되 이런 합성 기술과 함께 앞단과 뒷단의 처리 과정을 대신해주는 기업들에 대한 수요가 많아질 것이고, 그럴수록 AI의 민감도와 정확도는 살아날 것이라고 믿는다.

030


합성 데이터 플랫폼의 비즈니스 모델이 궁금하다.

창업 초기에는 주로 프로젝트 단위로 고객사로부터 계약금과 기본 데이터를 받고 합성 데이터를 생성해 AI 엔진을 학습시켜준 뒤 라이선스는 넘겼다. 예를 들어, 삼성SDS와는 사진에서 자연스럽게 특정 사물을 지워주는 삭제 기술(Object Eraser)을 함께 개발했고, 한 중고 거래 플랫폼을 위해서는 허위 매물을 잡아내는 기술을 개발하는 프로젝트를 진행했다. 보통 허위 매물을 올리는 사용자들은 구글 화면을 휴대폰으로 찍은 뒤 게재하는데 AI에 이런 이미지 데이터를 학습시키면 화면 촬영 시 발생하는 미묘한 굴절이나 왜곡 현상을 포착해 매물의 진위와 사기 여부를 판별할 수 있다.

이런 모델에서 한발 나아가 최근에는 일회성으로 AI 엔진을 개발해주고 끝나는 계약보다는 합성 데이터 생성 서비스를 지속적으로 제공하고 유지보수에까지 관여하는 식의 서비스 이용 계약을 맺고 있다. 가령 금융사나 보안 업체들이 CCTV로 기존 고객에게 피해를 끼칠 수 있는 이상 행동을 탐지하고 피해를 예방하는 프로젝트들을 진행 중인데 이런 모델의 성능을 높이거나 탐지 가능한 사례들을 확대하기 위해서 여러 가지 합성 데이터를 요청하고 있다. 이런 경우 우리는 먼저 다양한 통계 기법으로 테스트를 진행하고 모델을 분석해 기존 프로젝트의 약점을 찾아준다. 그다음 정확도가 낮은 사례들을 모아 이들의 정확도를 높일 수 있는 합성 데이터를 만들어 공급하고, 데이터의 양과 질에 따라 서비스 이용료를 받는다. 이렇게 모델 고도화가 아니라 데이터 고도화를 통해 프로젝트를 성공시킬 수 있다는 것을 경험한 회사들을 중심으로 합성 데이터를 안정적으로 확보, 관리하기 위한 라이선스 계약을 맺고 있는 추세다.

향후 비즈니스 전략 혹은 목표는?

우리는 비즈니스의 핵심 전략을 세 가지로 정의하고 있다. 첫 번째는 ‘고품질의 합성 데이터 확보’다. AI 연구를 위해 다양하고 풍부한 데이터가 필수적이지만 개인정보 이슈, 특수한 케이스에 대한 데이터 부족, 과거 데이터의 불완전한 부분 등의 이유로 많은 기업, 기관, 연구자들이 데이터 확보에 어려움을 겪고 있다. CN.AI가 독자적인 데이터 합성 알고리즘을 개발해 우수한 AI 학습 데이터로 데이터 수집 비용을 현실화하고 데이터 다양성을 확보해준다면 여러 기업의 페인포인트를 해소해줄 수 있을 것으로 기대한다. 두 번째는 ‘데이터 웨어하우스(warehouse) 구축’이다. 데이터를 충분히 확보하는 것도 중요하지만 이를 빠르고 안정적으로, 안전하게 사용할 수 있는 인프라를 구축하는 것 또한 중요하다. 여러 분야에서 수집하거나 자체 생산한 합성 데이터를 고객사들이 기술 도메인에 구애받지 않고 사용할 수 있는 편리하고 안전한 저장소를 만들기 위해 준비 중이다.

마지막은 ‘MLOps 파이프라인 정비’다. MLOPs란 머신러닝 모델의 개발, 안정적이고 효율적인 배포, 유지 및 관리에 방점을 둔 일종의 개발 문화이자 개발 관행이다.3 사실 개별 기업이 개인들의 연구 역량에만 의존해서는 AI에 대한 접근성을 높이기 힘들다. 이에 회사 내부의 니즈만이 아니라 추후 CN.AI의 AI 알고리즘을 이용하게 될 고객사의 니즈까지 고려해 머신러닝 생산과 운영을 최적화할 수 있도록 개발 프로세스를 고도화할 계획이다.


김윤진 기자 truth311@donga.com

동아비즈니스리뷰 350호 Smart Worcation 2022년 08월 Issue 1 목차보기