로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

SR2. 합성 데이터가 바꾸는 세상

자료 편향 바로잡고 법적 규제 안 받고 날것 데이터 리스크 줄일 ‘금쪽 데이터’

김영욱 | 345호 (2022년 05월 Issue 2)
Article at a Glance

합성 데이터가 실제 데이터를 대체하고 있는 시대에 기업들은 다음을 명심해야 한다. 첫째, 새로운 수요와 변화를 준비해야 한다. 합성 데이터는 제품 및 서비스 개발과 테스트를 가속화하고, AI의 편향으로 인한 기업의 잠재적 리스크를 완화할 수 있으며, 개인정보 보호로 인한 법적 규제에서 해방시켜줄 수 있다. 둘째, 비즈니스 인사이트를 선점해야 한다. 합성 데이터는 한 분야 산업이 아닌 여러 산업에 영향력을 행사한다. 예를 들어, 금융 데이터의 올바른 분석만으로 웰빙, 심리적 건강 및 재정적 건강 사이의 상관관계를 파악할 수 있으며, 이런 관계는 새로운 비즈니스 기회를 제시해줄 수 있다. 셋째, 달라질 글로벌 표준에 대비해야 한다. AI의 공정성과 안전을 보장하기 위한 거버넌스의 변화는 엄격한 문서화, 투명성 기준을 요구할 것이기 때문에 합성 데이터의 적극적 도입을 통해 이에 대비해야 한다.



합성 데이터가 바꾸는 세상

우리는 해가 갈수록 점점 더 많은 데이터가 생성되는 빅데이터 시대에 살고 있다. 앞으로 이 데이터 유니버스가 놀라운 속도로 팽창할 것임을 의심하는 사람은 없다. 향후 5년 동안 생성될 디지털 데이터의 양은 디지털 스토리지 출현 이후 이제껏 생성된 데이터의 양보다 두 배 이상 많을 것이다.1 하지만 이렇게 많은 데이터가 생산되고 복제된다는 게 반드시 우리가 이 데이터를 의미 있는 방식으로 사용할 수 있음을 뜻하는 것은 아니다.

2021년 6월 약 4억8000건의 1페타바이트가 넘는 대규모 인공지능(AI) 학습용 데이터 170종이 과학기술정보통신부와 한국지능정보사회진흥원의 주도로 ‘인공지능 허브(aihub.co.kr)’를 통해 개방됐다. 공개된 지 3개월 만에 데이터가 약 3만5000회에 걸쳐 다운로드됐다. 이는 정부 주도로 대규모 AI 학습용 데이터를 구축해 시장에 공급한 세계 최초의 사례다. 본격적인 AI 데이터의 공급은 산업 발전에 필요한 양질의 공업용수를 직접 공급하는 것에 비할 만하다. 이 학습용 데이터 가공에만 4만 명이 넘는 일자리가 창출됐으며 주로 취업 준비 청년, 경력 단절 여성, 은퇴자, 장애인 등 취약 계층이 이 작업에 참여했다.

033


2022년이 되자마자 1월과 2월에 연달아 AI 학습용 데이터 구축 사업 공모가 나오고 있다. 310종 분야의 데이터 신규 구축을 위해 5797억 원 에 달하는 정부 지원이 예정돼 있다. AI 학습용 데이터의 수집, 가공, 검수에는 대부분 대규모의 반복 수작업이 수반된다. 인간의 반복 노동이 AI 개발 프로젝트의 80%를 차지한다고 해도 과언이 아니다. 이 사업의 목표는 기업이나 개인이 이런 노동집약적인 과정에 드는 시간, 비용으로 인해 접근하지 못했던 AI 학습용 데이터를 대규모로 구축해 AI 허브를 통해 개방하는 데 있다.

이처럼 AI 학습용 데이터 구축에는 엄청난 인력과 예산이 소요된다. 그런데 집적된 데이터의 품질이 AI의 통찰력을 높여줄 만큼 충분히 우수한지는 둘째 치고, 데이터세트를 구축하는 과정조차 시작 단계부터 녹록지 않다.

• 데이터 획득의 어려움: 소비자는 개인정보 공개에 매우 소극적이다. 더욱이 공개적으로 사용 가능한 데이터세트는 획득하는 데 비용이 많이 들고 항상 통찰력을 전달하는 것도 아니다.

• 데이터 익명화: 일반적으로 소송을 방지하기 위해 익명화를 하지만 정보를 특정 개인의 특성과 다시 연결할 수 있어야 한다. 이런 세밀한 작업은 시간과 비용이 많이 소요되고 매우 어렵다. 또한 익명화 과정에서 데이터의 유용성과 가치가 상당 부분 제거된다.

• 법적 처리와 보호: 소비자 정보를 부서와 국경을 넘어 또는 제3자 데이터베이스와 공유하는 것은 법적으로 금지돼 있다. 엄청나게 비싼 벌금을 감수하면서 이 일을 할 수 있는 기업은 없다.

• 실생활 데이터 부족: 머신러닝에는 다양하고 많은 데이터가 필요하지만 기존 데이터에는 편향성이 동반되기 쉽다. 이것이 실제 세계에서 데이터의 가치를 낮춘다.

지금까지 네 가지 어려움을 나열했지만 기업이나 조직이 실제 데이터를 얻는 과정은 이보다 훨씬 더 복잡하다. 소비자 데이터를 손에 넣지 못하게 하는 각종 개인정보 보호 규정, 조직 내 데이터의 자유로운 흐름을 방해하는 보안 문제 등은 통찰력 있는 데이터의 상당수를 구하지 못하도록 방해한다. 특히 개인정보 규정이 가장 까다로운 건강 병력 데이터들은 접근이 매우 제한적이다. 경쟁이 치열한 시장에서 우위를 점하기 위해 빅데이터 분석에 의존하고 AI를 학습시키려는 기업으로서는 대안이 필요할 수밖에 없다. 이런 데이터세트 구축의 어려움을 해결하기 위해 등장한 것이 바로 ‘합성 데이터’다.

합성 데이터란

합성 데이터를 쉽게 설명하면 실제 데이터를 바탕으로 훈련된 AI가 생성한 데이터를 말한다. AI 및 머신러닝 알고리즘을 사용해 모든 측면에서 실제 데이터만큼의 복잡성을 띠도록 만들어진다. 이에 따라 합성 데이터는 원데이터(raw data)의 모양, 느낌, 의미를 고스란히 담아낼 수 있다. 원본에 대한 완벽한 프락시(proxy, 대리 지표)인 셈이다. 나아가 원본 데이터를 보정하거나 보강할 수 있음은 물론 편향을 수정할 수도 있다. 희귀한 이벤트, 원본에 없는 극단적인 경우까지 생성하기도 한다. 이처럼 합성 데이터 생성은 데이터 분석 주기를 가속화하고, 규제 이슈를 줄이며, 데이터 수집 비용을 낮추기 때문에 조직의 성공적인 데이터 프로젝트를 위한 필수 요소다.

합성 데이터가 이처럼 우수한 대체물로서 관심을 받는 까닭은 현실 데이터가 갖는 여러 문제점 때문이다. 딜로이트(Deloitte) 조사2 에 따르면 개인정보 보호, 접근 권한, 통합과 같은 ‘데이터 이슈’는 AI 이니셔티브를 구현하는 데 있어 가장 큰 장벽으로 꼽힌다. 그런데 현실 데이터에는 개인정보가 담겨 있는 데 반해 합성 데이터는 원데이터로 역추적할 수 없기 때문에 특정 사람의 신원과 연결할 수 없다. 이는 식별할 수 없는 데이터로 취급되고, 실제 소비자 데이터에 따라오는 수많은 관련된 법적 요구 사항과 규제 장벽을 우회할 수 있게 해준다. 자연히 자유로운 공유와 분석이 가능하고, 개인정보 보호 환경에서도 사용이 가능하다. 개발자가 민감 정보 공개에 대한 우려 없이 접근할 수 있다는 것은 합성 데이터 사용의 큰 이점이다.

또한 합성 데이터는 원본 데이터의 통계적 특징을 보존하는 동시에 완전히 새로운 데이터, 특정 시나리오 생성에 사용할 수 있는 고품질 데이터를 양산한다. 실제 데이터가 제한적이고 불완전하거나 쉽게 얻을 수 없는 경우에도 최적의 훈련 조건을 조성해주는, 편리하면서도 비용 효율적인 솔루션이다. 따라서 합성 데이터를 생성하고 사용하는 것은 기업의 경쟁력 제고에 매우 유리하게 작용한다.

이제 기업은 데이터가 알고리즘에 적합한 모델을 제공하기에 충분하지 않다고 해서 의사결정 프로세스를 멈추거나 취소할 필요가 없다. 합성 데이터가 복제하려는 기본 데이터만큼의 복잡성을 띠고 있다면 어떤 영역이든 적용할 수 있기 때문이다. 합성 텍스트, 합성 미디어(영상, 이미지, 사운드 등) 및 합성 샘플 장표 등 합성 데이터의 형태도 매우 다양하다.

합성 데이터를 가장 잘 활용하는 업종은 금융 서비스 분야다. 이미 많은 금융사가 직불 및 신용카드 지불 거래 데이터에서 생성된 합성 데이터세트를 활용해 운영을 개선하고 사기 행위를 식별하고 있다. 2020년 영국 금융 규제 기관인 FCA(Financial Conduct Authority)는 개인 데이터를 공개하지 않고 더 나은 사기 방지 모델을 구축하기 위해 실제 지불 데이터인 500만 개 기록으로부터 합성 지불 데이터를 만들어냈다.3 코로나19 상황에서 취약 계층이 재정적으로 일어날 수 있도록 돕고 중소기업들의 자금난을 해결하기 위해서라도 디지털 전환을 가속화할 수 있는 이런 금융 합성 데이터 자산이 필수적이라고 본 것이다. 금융 합성 데이터의 생태계를 구축하는 이 FCA의 프로젝트에는 하버드비즈니스스쿨 등 학계는 물론이고 HSBC 등 금융사와 핀테크 회사를 포함한 50곳이 참여했다.

이처럼 합성 데이터가 있으면 풍부한 데이터 저장소(repository)를 가지게 되는 셈이기 때문에 기본 소프트웨어 개발과 테스트를 가속화, 최적화할 수 있다. 새로운 앱의 코딩, 테스트, 개선 업무도 훨씬 빨라질 수 있고, 아주 작은 표본을 가지고도 바로 머신러닝 애플리케이션에 적용해 볼 수 있다. 예를 들어 보험사가 생명보험 상품의 가격을 책정하는 AI 소프트웨어를 개발한다고 할 때 원래는 고객 데이터 정보 보호를 위해 일일이 각 고객과 기밀 유지 계약 혹은 정보 비공개 계약(NDA)을 체결해야 한다. 이 작업에만 통상적으로 최대 6개월이 소요된다. 더욱이 데이터를 내부적으로 공유하거나 보유할 수도 없다. 반면 이에 상응하는 합성 데이터세트를 생성하는 데 걸리는 시간은 24시간 미만이다. 즉시 사용도 가능하다.

의료 역시 합성 데이터의 사용으로 큰 이익을 얻을 또 다른 산업 분야다. 예를 들어, 다양한 의료 사례에 대해 현재는 데이터가 충분하지 않은데 이 부분을 합성 데이터가 보강해줄 수 있다. 또한 실제 의료 기록 데이터를 대체할 수 있으므로 건강 데이터 전문가가 환자 기밀성을 손상시키지 않고 액세스 권한을 부여받을 수도 있다. 2020년 11월 네이처(Nature)지에 발표4 된 브루넬대 런던(Brunel University)의 앨런 터커(Allan Tucker) 교수의 연구는 합성 데이터를 실제 의료 데이터의 대체물로 사용하는 접근법이 타당함을 입증했다.

가트너는 2024년까지 AI 및 분석 프로젝트를 개발하는 데 사용되는 데이터의 60%가 합성 데이터일 것이라고 예측한다.5 이처럼 합성 데이터의 미래는 매우 밝으며 실제 데이터를 최대한 활용하지 못하도록 가로막는 각종 한계와 법적 장벽들을 감안할 때, 합성 데이터의 개입은 기업 의사결정 프로세스를 최적화해주는 수단이 될 것이다.

036


합성 데이터의 생성 방법

불과 몇 년 전까지만 해도 합성 데이터란 표현은 무작위로 생성된 가짜 데이터를 설명하는 데 사용됐다. 오늘날 사용되는 생성적 AI(Generative AI) 기술이 상용화되기 전까지 합성 데이터란 용어는 랜덤 데이터나 규칙 기반 데이터(Rule-based Data)처럼 모든 종류의 가짜 또는 모의 데이터를 일컬었다. 하지만 이런 데이터 생성 방법은 AI 기반 심층 생성 모델을 통해 차원이 다른 수준에 도달했다. 오늘날의 알고리즘이 실제 데이터를 소화하고 그 정교한 특징, 상관관계와 패턴을 매우 자세히 학습한 다음 원래 수집된 데이터세트의 통계적 품질과 일치하는 데이터를 생성한다. 나아가 이렇게 현실에 가까운 합성 데이터가 무한한 양으로 생성될 수 있다.

가장 기초적인 형태부터 최첨단 방법에 이르기까지 다양한 합성 데이터 생성 방법을 살펴보고 기술이 얼마나 발전했는지 알아보자. 세 가지 중요한 주요 방법이 있다. (그림 1)

• 확률적 프로세스(stochastic process): 임의의 랜덤 데이터가 생성되며 실제 데이터의 구조만 모방한다.

• 규칙 기반 데이터 생성(Rule-based data generation): 사람이 미리 정의한 특정 규칙에 따라 더미 데이터가 생성된다.

• 심층 생성 모델(Deep generative models): 실제 데이터에 대해 훈련된 머신러닝 모델에 의해 풍부하고 사실적인 데이터가 생성되고 구조뿐 아니라 모든 정보를 복제한다.

037


어떤 상황에, 어떤 방법을 선택해야 하는지는 사용 사례에 따라 다르다. 이때는 데이터 합성 전문가와 데이터 자체에 해박한 해당 산업 종사자, 즉 도메인 전문가가 함께 평가해야 한다. 일반적으로 평가할 때는 다음의 4가지 기준을 적용하는 게 표준적인 접근법이라고 할 수 있다.

• 계산: 데이터를 생성하거나 모델을 구축하는 데 필요한 계산의 양은 얼마나 되는가?

• 인간 노동량: 생성 과정에 인간의 전문성과 노동력이 얼마나 들어가는가?

• 시스템 복잡성: 그러한 데이터 생성 시스템을 구축하는 것이 얼마나 어려운가?

• 정보 내용: 합성 데이터에 존재하는 정보의 양은 얼마나 되는가?

이 4가지 기준으로 생성 방법을 비교해 보면 다음과 같은 결과를 얻을 수 있다.

그렇다면 어떤 방법을 선택하는 것이 가장 좋을까? 먼저, 자체적으로 기업 내부에 합성 데이터 생성 시스템을 구축할 만큼의 인력 자원과 전문 지식이 있는지를 질문해봐야 한다. 다음으로 기업이 필요로 하는 합성 데이터가 얼마나 현실적이고 대표성이 있어야 할지를 점검해야 한다. 이미 원하는 데이터의 모양이 명확하고 해당 설명을 코드로 작성하는 데 어려움이 없다면 규칙 기반 시스템도 의미가 있을 수 있다. 하지만 자체 시스템을 구축할 인적 역량이 있고 정형화되지 않으면서 현실적이고 대표성 있는 데이터를 생성하고 싶다면 심층 생성 모델을 사용하는 게 최선이다.

비즈니스 편향을 바로잡는 합성 데이터

AI 훈련을 위한 학습용 합성 데이터는 실제 데이터보다 낫고, 합성 데이터로 학습한 AI가 15% 더 나은 성능을 보인다는 연구 결과도 있다. 대부분 기업의 AI 프로젝트는 고품질 교육 데이터의 부족으로 인해 생산에 적용되지 않고 중간에 사라지거나 묻힌다. 조직마다 데이터가 넘쳐 나는 현실이라고 반문할지 모른다. 하지만 ‘정보(intelligence)’라는 관점에서 디테일한 가공 작업이 돼 있지 않으면 AI 입장에선 쓸모없는 데이터나 다름이 없다. 또한 데이터 소유자가 보안 및 규정 준수를 위해 필요한 학습 데이터를 제공하는 것을 꺼리는 경우가 많다. 설령 동의를 얻어 내도 데이터 준비를 위한 익명화 과정 중에 그 데이터의 효용이 파괴된다. 결국 유용한 정보는 제거돼 궁극적으로 잘못된 비즈니스 결정을 이끈다.

038

설상가상으로 데이터 세계에서 가장 큰 문제로 떠오르고 있는 게 바로 자동화된 편향이다. 가트너는 2022년까지 알고리즘의 85%가 편향으로 인해 오류가 발생할 것으로 예측했다.6 현재 많은 기업이 단순히 성별, 인종 정보가 포함된 데이터를 삭제하면서 편향을 바로잡으려고 애쓰고 있지만 이런 접근 방법은 궁극적으로 편향을 제거하는 데 도움이 되지 않는다.

예를 들어, 앞서 언급한 금융 분야 사기 탐지에서의 편향을 예로 들어보자. 이런 변칙을 탐지하는 것은 매우 복잡한 임무인 만큼 알고리즘 훈련에 사용된 데이터가 우수한 상태여야만 AI가 좋은 성과를 낼 수 있다. 그런데 전통적으로 사용된 규칙 기반 시스템은 많은 수의 ‘거짓 양성(False-Positive)’ 결과를 내놓았다. 즉, 사기가 아닌 정상 거래까지 사기라고 적발하고, 이로 인한 노동집약적인 후속 프로세스를 낳아 직원들이 헛수고하게 만드는 일이 부지기수였다. 수많은 신종 케이스와 거래에 대한 유연한 대응이 어렵다는 뜻이다. 이코노미스트에 따르면 잠재적인 사기에 대비해 단일 고객을 조사하는 데 최대 2만4000달러의 비용이 든다.7 이렇게 많은 낭비를 초래하는 거짓 양성 결과를 줄이고 AI 알고리즘이 신종 사기를 잘 감지할 수 있도록 하려면 교육 데이터의 품질이 가장 중요하다. 막상 예외적이고 지능적인 사기는 놓치면서 사기 행위를 경고하는 거짓 신호만 날린다면 AI의 오류가 오히려 비용 부담을 가중시킬 위험이 있다.

이 경우 합성 훈련 데이터로 여러 사기 패턴을 만들어내 머신러닝 성능을 높이는 것이 최적의 방법일 수 있다. AI 모델이 자연적으로 발생할 가능성이 낮은 데이터까지 학습해야 하는 경우 혹은 이런 충격이나 사고에 대비한 스트레스 테스트8 에 합성 데이터를 활용할 수 있다는 얘기다. 자칫 편향될 수 있는 데이터세트의 균형을 합성을 통해 바로잡아주면 모델이 사기 사례를 보다 효율적으로 감지할 수 있고, 결과적으로 일관되게 높은 AUC(Area Under the Curve) 수치를 얻을 수 있게 된다. AUC란 사기 탐지 알고리즘 같은 이진 머신러닝 분류기의 성능을 평가하는 데 사용되는 주요 지표로 거짓 양성(위양성) 비율에 대한 진짜 양성(참양성)의 비율로 계산된다. 알고리즘을 보정하고 새로운 패턴과 신호를 포착하기 위해서는 정상 거래 데이터세트를 기초로 다양한 이상 거래 합성 데이터를 생성하는 것이 도움이 될 수 있다.

039


글로벌 AI 거버넌스

정리하자면 공정하고 설명 가능한 AI 시스템을 위한 합성 데이터는 모든 머신러닝 개발의 필수 부분이 돼야 한다. 편향된 데이터는 비즈니스뿐만 아니라 사회에 영구적인 손해를 입힌다. 채용 AI 데이터에 편향이 생기면 차별적인 고용 알고리즘을 낳고, 신용평가 AI 데이터에 편향이 생기면 성차별적인 신용 평가로 귀결된다. 수많은 공정성 스캔은 데이터의 편향성이라는 아주 작은 부분에서 시작해 본질적으로 회복할 수 없는 사회, 재정적 확증 편향을 가져온다. 즉, 기업들이 간과하기 쉬운 데이터세트의 편향이 관계 데이터에 영향을 미치고, 그 관계성을 이용하는 비즈니스 자동화 프로세스에 영향을 미치며, 한번 프로세스에 입력된 값은 상호 교환돼 확증 편향 값을 생성하는 악순환 구조를 만든다. (그림 2) 이런 악순환 구조를 막기 위해서라도 올바른 데이터세트를 구축하는 일에 가장 집중해야 한다.

AI 규정을 정비하기 위해 전 세계가 움직이고 있다. 유럽연합(EU)은 이미 공정성과 안전 표준을 시행하기 위해 AI를 훈련하는 데 사용되는 데이터세트와 AI를 규제할 것을 제안한 상태다.9 이런 규제 감독 과정은 곧 국가 수준이 아닌 기업 수준으로 내려올 것이다. 그런데도 AI를 사용하는 대부분의 기업은 규정 준수를 입증하고 규제 기관에 그 이행 가능성을 증빙할 준비가 돼 있지 않은 게 현실이다.

이미 운영 중이거나 새롭게 출시 준비 중인 AI 알고리즘이 수백만 개에 달하지만 이 중 극히 일부만이 공정성 감사를 받았다. 테스트되지 않은 편향된 알고리즘을 제품, 서비스의 생산에 적용하는 회사는 PR 관점에서는 물론이고 잘못된 비즈니스 결정을 내리는 방식으로 심각한 문제에 빠질 위험이 있다. 결국 편향된 데이터는 소수자 집단을 소외시키는 방향의 비즈니스 결정 등 설명할 수 없는 결과로 이어질 것이다. 보험의 잘못된 가격 책정 모델부터 의료 분야의 차선책 예측 결과에 이르기까지 알고리즘은 점점 공정성과 거리가 멀어질 수 있다. 아직 대부분 기업의 AI 모델 개발자들은 데이터 수준에서 편견을 정면으로 다루는 대신 인종, 민족, 종교 등과 관련된 민감한 개인 데이터를 그냥 삭제해버리는 방식으로 현 상황에 대처하고 있다. 하지만 이렇게 민감 정보를 없애는 접근 방식으로는 절대 내재된 편견을 제거할 수 없다. 인종, 민족, 종교와 직결된 데이터가 아니더라도 이를 반영한 프락시(대리 변수)들이 차별화된 패턴을 생성해 모델의 동작에 지속적인 영향을 미치기 때문이다. 오히려 데이터 삭제는 편향된 결정이 나오게 된 원인을 설명하는 일을 더욱 어렵게 만들어 문제를 키운다.

040


이처럼 양질의 AI 생성 합성 데이터는 적절한 균형, 밀도, 분포 및 기타 중요한 매개변수를 가지고 대표성 있는 데이터를 표현함으로써 데이터세트의 편향을 줄인다. 나아가 합성 데이터는 ‘설명 가능한 AI(explainable AI, XAI)’의 기반도 제공한다. 다시 말해, AI 모델이 특정 결정을 내린 원인은 무엇인지, 작동 원리는 무엇인지를 사람이 쉽게 파악할 수 있도록 도와준다. 원래는 개발자 스스로도 AI가 내린 판단의 이유를 설명할 수 없어 ‘블랙박스’에 비유됐다면 설명 가능한 AI는 어느 지점에서 편향에 노출될 수 있는지 등의 불확실성을 해소함으로써 AI의 신뢰도를 높여줄 수 있다. 만약 수준 높은 합성 데이터가 있으면 규제 기관의 알고리즘 감사 때도 이를 쉽게 공유할 수 있고, 모델을 문서화하고 검증하고 인증할 수 있다. 최근 발표된 합성 데이터 제공 기업 ‘모스틀리에이아이(Mostly.ai)’의 리포트에 따르면 합성 데이터는 범죄 예측의 인종 편향을 24%에서 단 1%로 줄이고 미국 인구 조사 데이터세트에서 남성의 고소득 비중과 여성의 고소득 비중 간 격차를 20%p에서 2%p로 좁혔다.10

기업의 올바른 의사결정을 위한 제언

디지털 전환을 지원하고, 효율성을 높이고, 혁신을 가속화하고, 편향을 제거하는 합성 데이터의 능력은 더 많은 산업에서 비즈니스 경쟁 우위의 원천이 될 것이다. 이 전망은 점차 구체적인 현상으로 나타나고 있기에 리더 그룹에 속하기를 원하는 기업이라면 합성 데이터라는 새로운 물결을 선도적으로 검토하길 제안한다.

• 새로운 수요와 변화를 준비하라: 경영 리더십을 중심으로 합성 데이터에 대한 이해가 높아짐에 따라 AI 학습을 지원하고 사용 사례를 늘리는 것을 넘어 합성 데이터 운영에 관한 새로운 수요가 생길 것이다. 합성 데이터에 대한 이해 증가는 제품 및 서비스 개발과 테스트를 가속화하고, AI의 편향으로 인한 기업의 잠재적 리스크를 완화해줄 수 있으며, 개인정보 보호로 인한 법적 규제 등으로부터 해방시켜줄 수 있다. 앞으로는 기업이 이런 데이터의 생성과 공유를 통해 사회에 영향력을 행사할 수도 있다. 이런 사회적 임팩트가 표준으로 자리 잡을 가능성도 머지않았다.

• 비즈니스 인사이트를 선점하라: 합성 데이터는 한 분야 산업이 아닌 비즈니스 간 상호 영향력을 행사할 것이다. 예를 들어, 금융 데이터의 올바른 분석만으로 웰빙, 심리적 건강 및 재정적 건강 사이의 관계를 파악할 수 있으며 이 상관관계로부터 새로운 비즈니스 기회에 관한 인사이트를 얻을 수 있게 된다.

• 달라질 글로벌 표준에 대비하라: 유럽연합집행위원회(European Commission)가 2021년 4월에 제안한 AI 규정은 합성 데이터에 대한 수요를 증가시킬 것이다. 그 규정에는 기계 학습, 규칙 기반 AI 접근 방식 및 모델 생성에 사용되는 전통적인 통계 기법을 활용하는 소프트웨어에 대한 각종 규제가 포함돼 있다. 그리고 공급자의 위치, 즉 기업의 국적과 관계없이 해당 시스템에서 생성된 데이터가 유럽연합 국가에서 사용된다면 규정의 적용 대상이 된다. 이 규정이 요구하는 수준의 엄격한 문서화, 투명성 기준들을 준수하려면 실제 데이터에 복잡성이 추가될 것이다. 이는 합성 데이터 생성을 훨씬 더 매력적으로 만든다.

합성 데이터는 시간이 지남에 따라 더욱 정교해질 것이고 특정 분야에서는 실제 데이터를 완전히 대체하게 될 수도 있다. 이 데이터를 사용하기 위해 어느 누구의 동의도 필요하지 않기 때문에 부지불식간에, 개인의 동의 여부와 관계없이 발전할 혁신 분야 중 하나이기도 하다. 합성 데이터를 적극적으로 도입하는 것은 현재와 같은 디지털 전환 시기 기업의 경쟁력을 좌우하는 핵심 열쇠가 될 것이다.


김영욱 SAP 프랑스 시니어 프로그램 매니저 ywkim36@hotmail.com
김영욱 매니저는 한국에서 컴퓨터공학을 전공한 후 LG와 한국후지쯔에서 개발자로 근무했다. 1998년 프랑스 파리로 이주해 비즈니스 오브젝트(Business Objects)의 개발/프로그램 매니저를 거쳐 현재 SAP 엔지니어링 UX 부문의 프로덕트/ 프로그램 매니저로 근무 중이다.
인기기사