합성 데이터가 실제 데이터를 대체하고 있는 시대에 기업들은 다음을 명심해야 한다. 첫째, 새로운 수요와 변화를 준비해야 한다. 합성 데이터는 제품 및 서비스 개발과 테스트를 가속화하고, AI의 편향으로 인한 기업의 잠재적 리스크를 완화할 수 있으며, 개인정보 보호로 인한 법적 규제에서 해방시켜줄 수 있다. 둘째, 비즈니스 인사이트를 선점해야 한다. 합성 데이터는 한 분야 산업이 아닌 여러 산업에 영향력을 행사한다. 예를 들어, 금융 데이터의 올바른 분석만으로 웰빙, 심리적 건강 및 재정적 건강 사이의 상관관계를 파악할 수 있으며, 이런 관계는 새로운 비즈니스 기회를 제시해줄 수 있다. 셋째, 달라질 글로벌 표준에 대비해야 한다. AI의 공정성과 안전을 보장하기 위한 거버넌스의 변화는 엄격한 문서화, 투명성 기준을 요구할 것이기 때문에 합성 데이터의 적극적 도입을 통해 이에 대비해야 한다.
합성 데이터가 바꾸는 세상
우리는 해가 갈수록 점점 더 많은 데이터가 생성되는 빅데이터 시대에 살고 있다. 앞으로 이 데이터 유니버스가 놀라운 속도로 팽창할 것임을 의심하는 사람은 없다. 향후 5년 동안 생성될 디지털 데이터의 양은 디지털 스토리지 출현 이후 이제껏 생성된 데이터의 양보다 두 배 이상 많을 것이다.11IDC, “Data Creation and Replication Will Grow at a Faster Rate…”, Mar 24, 2021
닫기 하지만 이렇게 많은 데이터가 생산되고 복제된다는 게 반드시 우리가 이 데이터를 의미 있는 방식으로 사용할 수 있음을 뜻하는 것은 아니다.
2021년 6월 약 4억8000건의 1페타바이트가 넘는 대규모 인공지능(AI) 학습용 데이터 170종이 과학기술정보통신부와 한국지능정보사회진흥원의 주도로 ‘인공지능 허브(aihub.co.kr)’를 통해 개방됐다. 공개된 지 3개월 만에 데이터가 약 3만5000회에 걸쳐 다운로드됐다. 이는 정부 주도로 대규모 AI 학습용 데이터를 구축해 시장에 공급한 세계 최초의 사례다. 본격적인 AI 데이터의 공급은 산업 발전에 필요한 양질의 공업용수를 직접 공급하는 것에 비할 만하다. 이 학습용 데이터 가공에만 4만 명이 넘는 일자리가 창출됐으며 주로 취업 준비 청년, 경력 단절 여성, 은퇴자, 장애인 등 취약 계층이 이 작업에 참여했다.