완벽한 데이터는 없다 정보 유출, 편...

SR5. MIT Sloan Management Review

완벽한 데이터는 없다
정보 유출, 편향 등 부작용도 주의해야

페르난도 루치니(Fernado Lucini) | 345호 (2022년 05월 Issue 2)

- 아티클
  
  스페셜 리포트 케이스 스터디
  경영전략/경영일반 인사/조직 마케팅/세일즈 리더십/자기계발 인문 AI/DT
  전체 기사 보기 호수별 Case Study HubENG audio DBR PDF 전체보기
- 구독
  
  월정액 서비스 연간 서비스 낱권 PDF 대량/법인
- 이벤트
  
  이벤트
- 고객센터
  
  공지사항 FAQ 1:1문의 이용권/상품권 인증
공유
스크랩

+ 새로운 폴더 생성
폴더명

메모입력

스크랩
아티클요약

편집자주

이 글은 MIT 슬론 매니지먼트 리뷰(SMR) 2022년 겨울 호에 실린 ‘The Real Deal About Synthetic Data’를 번역한 것입니다.

Article at a Glance

합성 데이터의 뚜렷한 이점에도 불구하고 실제 이용하는 건 까다롭다. 합성 데이터 생성 프로세스가 극도로 어렵고 AI 분야의 최신 지식으로 무장한 전문가들을 필요로 하기 때문이다. 또한 합성 데이터를 평가하는 일도 매우 복잡하고, 데이터에 어떤 변수가 포함돼 있는지에 따라 평가 기준이 모두 달라져야 한다. 합성 데이터의 정확성을 평가하는 데 도구, 체계, 기준이 필요한 이유다. 부정확한 합성 데이터를 사용할 경우 심각한 부작용이 생길 수 있다. 규제당국이 문제 삼을 여지도 있고, 악의적 주체가 취약점을 파고들어 원데이터에 담긴 특정 인물 정보를 식별할 수 있으며, 데이터의 편향이 오히려 강화될 수도 있다.

인공지능 모델을 훈련하거나 인사이트를 얻기 위해 데이터가 필요할 때 현실의 데이터에 접근하는 게 늘 쉽지만은 않다. 하지만 원데이터를 꼭 빼닮은 데이터세트를 생성하는 신기술을 이용하면 이런 어려움을 해소할 수 있다.

데이터는 고급 애널리틱스와 머신러닝 이니셔티브의 발전을 이끄는 핵심 연료다. 하지만 개인정보 보호와 프로세스 문제를 둘 다 고려해야 하기 때문에 필요한 데이터를 손에 넣는 게 결코 쉬운 일은 아니다. 그런데 여기 합성 데이터라는 새로운 돌파구가 열렸다. 합성 데이터는 실제 세계에서 얻은 데이터와는 다른 방식으로 공유되고 활용된다. 물론 합성 데이터 이용에는 여러 위험이 따르고, 단점도 없지 않다. 또한 회사의 자원을 어디에, 어떻게 투자할지도 심사숙고해야 한다.