SR7. AI-빅데이터 포럼: 디지털 혁신을 위한 데이터 구축 노하우

데이터의 양보다 ‘어떻게 활용’이 핵심
빅데이터에서 굿 데이터로 인식 전환을

336호 (2022년 01월 Issue 1)

Article at a Glance

데이터 통합의 핵심은 인간과 컴퓨터의 공생(Symbiosis)적 협업, 즉 현장 전문가가 필요로 하는 정보를 얻고 더 나은 의사결정을 할 수 있도록 돕는 것이다. 작은 유스 케이스에서 출발해 그로부터 실질적인 데이터 자산을 확보하고 보다 다양한 케이스에 응용하는 방식으로 데이터 플랫폼을 확장시킬 수 있다. 다른 한편, 빅데이터에서 굿 데이터로의 인식 전환이 필요하다. 데이터의 양이 아니라 현재 보유한 데이터를 활용해 기존 프로세스를 얼마나 개선시킬 수 있는지를 기준으로 AI 프로젝트를 평가해야 한다. 굿 데이터를 준비하는 과정에는 도메인 전문가, 특히 AI를 이해하는 양손잡이형 인재가 필요하다.



079



팔란티어의 기원은 1990년대 말 실리콘밸리에서 탄생한 페이팔에서 팔란티어의 창업자들이 처음 만난 순간으로 거슬러 올라간다.1 온라인 결제 서비스를 제공하는 페이팔의 창업 초기 리스크 요인은 수많은 사기(fraud) 및 잠재적인 사이버 공격을 받을 수 있다는 점이었다. 처음에는 사람(human) 분석가가 잠재적인 사기 계좌 혹은 거래를 감지해 이를 막았다. 하지만 기업이 성장할수록 사기 규모가 사람이 관리할 수 없을 정도로 커지면서 이상 행동을 감지하는 알고리즘과 모델을 만들어 문제를 해결하는 방향으로 전략을 바꿨다. 하지만 이런 시스템을 결국 알아챈 사이버 공격자들이 또다시 교묘하게 공격해오자 다시 전략을 바꿀 수밖에 없었다. 이러한 공격과 방어 과정을 통해 배운 교훈은 오직 기술(computer technology)만으로 혹은 인간(human skill) 혼자서는 복잡한 문제를 완벽하게 해결할 수 없다는 것이었다. 즉, 인간과 컴퓨터의 공생(symbiosis)이 필요하다는 깨달음을 얻었다. 그래서 창업자들은 현장에 대한 통찰력과 직관을 갖춘 인간 분석가가 주어진 시간 내에 필요한 정보를 찾고, 모든 거래를 관리하고, 사기 행위가 무엇인지를 알아내 처리할 수 있도록 도와주는 도구를 만들었다. 이것이 팔란티어의 출발점이었다. 2003년 창업한 팔란티어의 첫 과제는 당시 9•11 테러를 겪은 미국에 가장 큰 실존적 위협이 됐던 대테러의 척결이었다. 이 문제 해결의 핵심도 결국 현장의 전문가에게 필요한 정보를 적시에 제공함으로써 그들이 업무를 더 효과적으로 할 수 있도록 지원하는 방법을 알아내는 것이었다. 팔란티어란 회사의 이름은 소설 『반지의 제왕』에 나오는 마법 구슬의 이름을 따서 만들었는데 이 마법 구슬은 필요한 정보를 수집해 미래를 예측하는 능력을 갖고 있다. 팔란티어도 그런 데이터 통합 능력을 갖춘 회사라고 볼 수 있다. 현재 팔란티어에는 20여 개 국가에서 2500명이 넘는 직원이 데이터를 기반으로 다양한 산업의 문제를 해결하고 있다.

080


앨리스 유 팔란티어 테크 리드
MIT를 졸업하고 Third Sector Capital Partner, J.P. Morgan에서 일했다. 현재 팔란티어의 북미 개인정보 보호 및 시민 권익 증진팀(Privacy and Civil Liberties) 총괄부문장으로 데이터 보호를 촉진하는 기술 및 모범 사례를 설계 구축하는 작업을 주도하고 있다. 2020년 팔란티어가 수행한 ‘미국 Covid19 대응을 위한 HHS Protect 시스템 구축 프로젝트’의 총괄 팀장을 맡았다.

파운드리, 인간과 컴퓨터의 공생을 돕는 플랫폼

팔란티어의 주력(flagship) 제품인 파운드리(Foundry)는 기업과 정부가 디지털 트랜스포메이션을 추진하는 데 필요한 플랫폼이다. 파운드리는 한마디로 요약해 조직의 구성원, 즉 플랫폼 사용자의 업무 현장의 문제 해결을 도와주는 운영체제라고 보면 된다. 파운드리를 통해 많은 조직이 인간과 컴퓨터의 공생적 협업으로부터 배운 교훈을 바탕으로 운영체제를 만들고 이를 전 산업군에 적용해 다양한 문제를 해결하고 있다. 어떻게 파운드리가 다양한 종류의 문제를 다룰 수 있을까? 팔란티어 방식으로 말하자면 사람 분석가에게 매일 현장에서 의사결정하는 데 필요한 적확한 정보를 제공하면 된다.

파운드리의 개념을 보다 상세히 살펴보자. 세상은 엔트로피라는 열역학 법칙으로 움직인다. 즉 사물에 구조를 부여해 혼돈을 최소화하는 데 더 많은 에너지를 쓰게 된다. 데이터 시스템도 마찬가지다. 팔란티어가 생각하는 방식은 엔트로피와 싸우는 것이 아니라 그것을 현실로 인정하는 것이다. 조직은 성장하면서 서로 다른 여러 시스템을 갖게 되는데, 예컨대 처음에는 엑셀 시트 하나밖에 없었는데 팀이 늘어나면서 데이터베이스도 추가로 설치하게 되고, 시스템의 숫자가 늘어나는 식이다. 그러나 조직에 필요한 것은 사용자가 사용하는 개별 시스템이 아니라 조직 전체가 학습하는 데 실제 도움이 되는 통합 시스템이다. 기업 또한 엔트로피의 법칙에 따라 운영된다. 그래서 팔란티어는 인간이 야기하는 혼돈을 해석할 수 있는 시스템을 구축하고자 한다. 조직 전체에 분산된 시스템을 연결해 하나의 공통 플랫폼으로 통합한다. 그리고 개별 분석 툴이 그들의 시스템에서만 작동하게 하는 대신에 그것을 하나의 플랫폼에 통합시킨다. 데이터 분석가뿐 아니라 현장 직원, 운영 담당 직원 모두를 한 플랫폼에 모은다. 이는 기업이 오랫동안 일해온 전통적 방식, 예컨대 한 팀이 다른 팀에 데이터를 분석해 보내고, 또 다른 팀이 데이터를 분석해 경영진에게 전달하는 방식에 도전한다. 팔란티어의 파운드리는 서로 다른 조직과 데이터의 상부에서 모든 사람이 같은 사실에 기반해 일할 수 있도록 통합된 시각을 제공하고자 한다. 기존 일하는 방식에서는 누가, 왜 그런 결정을 내렸는지, 어떤 정보가 그런 결정으로 인도했는지에 대한 메타 데이터를 알기 어렵다. 예컨대 동료가 회사를 떠나면 그가 갖고 있던 업무 관련 지식이 조직에서 모두 사라지는 경험을 해본 적이 있을 것이다. 하지만 플랫폼을 활용해 의사결정하면 해당 정보가 시스템에 입력돼 미래의 사용자가 과거의 결정으로부터 학습해 더 나은 의사결정을 할 수 있게 된다.

미국의 코로나19 대응 사례

지금까지의 내용이 다소 추상적이거나 개념적이었다면 실제 사례를 통해 이런 플랫폼이 실제로 어떻게 구현되는지 살펴보자. 팔란티어는 팬데믹이 닥쳤을 때 어떻게 바이러스가 전파되는지를 파악하고 공급망 관리, 학교 폐쇄 같은 미국 정부의 의사결정을 돕는 역할을 했다. 내가 직접 이끌었던 프로젝트 2 는 기업 프로젝트와 비슷한 면이 많았다. 미국은 한국과 달리 연방주의에 기반한 분산적 접근을 취하고 있어 모든 데이터가 총집(總執)하는 중앙화된 단일 데이터 시스템이 없다. 카운티(County)별로 의사결정을 내리고 정부의 펀딩을 받고 데이터, 사례 등을 연방 정부에 개별적으로 보고하도록 돼 있다. 그런데 팬데믹 초기에 정부는 이런 많은 데이터 소스가 맞는지 확신할 수 없었다. 또 3000개 이상의 카운티, 50개 주의 시스템이 다 제각기 다른 데다 공통된 시스템이 없었다. 데이터를 공유하는 데 필요한 법적인 합의 기반도 부실했다. 지역 간의 네트워킹이나 관계도 약했다. 많은 이가 재택 모드에 들어가면서 각지에 분산된 유저들을 교육하고 협력하게 만들기도 어려웠다.

미국의 코로나 대응 유스 케이스(Use Case)는 팬데믹이 어떻게 진행되고 있으며 그에 대한 대응이 어떠해야 하는지의 큰 그림을 그리는 것이었다. 이를 위해서 현장 상황을 이해하는 데 필요한 데이터를 최대한 많이 통합해야 했다. 확진자 케이스와 사망자 수, 병원의 환자 수용 규모 등의 데이터 소스를 한 플랫폼에 통합했다. 전국 각지에 퍼진 연구소와 6000개 이상의 병원 네트워크 등 필요한 정보를 얻을 수 있는 인터페이스를 찾아냈다. 플랫폼의 초기 스케치 버전을 만들었으며 그러고 나서 데이터를 정제하고 실제 활용 가능한 형태로 만들었다. 팔란티어팀은 개별 지역에서 무슨 일이 벌어지는지를 이해하기 위해 공통된 그림을 이해하는 작은 유스 케이스를 만드는 데서 출발했다. 그리고 같은 데이터 자산을 다른 유스 케이스에 활용하는 방식으로 데이터 플랫폼을 확장시켜 나갔다.

이 시스템의 핵심은 개방적 플랫폼이라는 점이다. 즉 모든 사람이 동시에 데이터 자산을 활용해 작업할 수 있는데 예컨대 여러 데이터 모델링팀이 플랫폼의 데이터를 활용하고 협업해 새로운 분석 모델을 제시할 수도 있다. 또 공공기관의 실험실에서 근무 중인 연구자와 현장 대응 요원도 동일한 데이터를 팬데믹 연구에 활용할 수 있다. 미국 정부는 이 플랫폼을 활용해 팬데믹의 유행을 능동적으로 추적하고 더 많은 개인보호 장비, 치료제 등이 필요한 지역을 선별할 수 있었다.

오늘날 기업도 미국 정부와 비슷한 고민을 하고 있다. 기업 내 여러 조직이 상호 단절된 상태로 데이터를 분석하고 있으며 실질적인 의사결정에 이를 활용하지 못하고 있다. 물론, 연결된 조직(connected organizations)은 하루아침에 구축되지 않는다. 애자일 반복 수행(reiteration)을 통해 조직 데이터 시스템 전반을 관통하는(end-to-end) 하나의 유스 케이스에서 시작해 조직 전체로 확산하는 과정을 통해 일궈내야 한다. 아울러 이러한 성과는 과정 전반을 가속화할 수 있는 올바른 도구를 통해서만 이뤄낼 수 있다. 즉 파운드리를 활용해 데이터로 연결된 회사로의 전환이 필요하다. 모든 사용자 그룹이 동일한 시스템을 활용해 협업하고 비즈니스의 운영 방식을 공유하는 것이다. 다음에서 데이터로 연결된 기업, 기업 전체의 모든 작업이 실질적으로 연결된 기업의 사례를 소개하고자 한다.

082


데이터 커넥티드 기업의 사례

첫 번째 사례는 에어버스와 스카이와이즈(Skywise) 프로그램이다. 글로벌 비행기 제조 업체인 에어버스의 과제는 늘어난 생산 목표를 달성하는 것이었다. 프로젝트를 진행하면서 센서, 제조 등의 데이터를 연결해 유지 보수 프로세스 전체를 개선함으로써 생산이 지연되는 문제를 최소화해야 한다는 점을 알게 됐다. 에어버스는 대량의 정보를 하나의 공통 플랫폼에 모으고 같은 데이터 자산으로 최소 20개 이상의 유스 케이스를 만들었다. 더 나아가 에어버스는 내부에서 사용하는 스카이와이즈 플랫폼을 모든 항공사 파트너와 공유했다. 현재 130개 이상의 항공사가 에어버스와 공통의 데이터를 공유하고 있다. 이를 통해 운행 지연을 사전에 방지함으로써 지상에서 노는 항공기를 줄일 뿐 아니라 고객 서비스 품질도 개선할 수 있었다.

또 다른 사례는 에너지 회사다. 이 회사는 석유의 품질 유지에 대한 고민이 많았다. 팔란티어팀은 사람과 기술의 공생 관점에서 이 회사 석유 엔지니어에게 필요한 정보가 무엇일지 고민했다. 그리고 석유를 탐사하고 개발하는 업스트림(upstream) 부문뿐 아니라 안전하게 저장하고 비축해 국제 석유 시장에서 거래하고 활용, 유통하기까지의 과정을 360도로 파악할 수 있는 공통의 플랫폼, 디지털 트윈을 구축했다. 이를 기반으로 이 회사는 더 나은 의사결정을 내릴 수 있게 됐다.

한 음료 업체는 가격을 인상해서 매출 목표를 달성하는 문제를 해결하고자 했다. 이 회사에 필요한 정보는 전국에 퍼져 있는 도매상 데이터였다. 이 데이터를 구축한 후 가격 조정뿐 아니라 프로모션, 상품 테스팅 등에도 활용할 수 있게 됐다. 시스템은 점점 발전해 연결된 매출 생태계를 형성함으로써 수익성을 최적화했다. 더 나아가 이 회사는 본사에 하나의 중앙화된 관리팀을 두는 대신 도매상들에게 플랫폼 접근 권한을 줘서 지역에 관한 의사결정을 직접 하도록 했다.

마지막 사례는 금융 회사다. 금융 회사의 고민은 복잡성이 지속적으로 증가하는 다국적 규제 환경에서 고객들이 서로 다른 지역과 규제권에 분산돼 있어서 그들을 이해하기가 쉽지 않다는 것이었다. 그래서 이 회사는 ‘싱글 클라이언트 뷰(Single Client View)’라고 부르는 플랫폼을 도입해서 서로 다른 국가의 모든 정책과 지침들을 한데 모아 어떤 상품이 팔리고 있는지를 이해할 수 있도록 했다. 그리고 고객에 대한 기본적인 이해를 바탕으로 서로 다른 유스 케이스와 워크플로(workflow)로 확장해 글로벌 최적화 수익 모델을 만들었다. 이 같은 기업 사례들의 공통점은 플랫폼 사용자들이 실제로 필요로 하는 것이 무엇인지를 정확히 이해하는 데서 출발했다는 점이다. 그리고 그들이 원하는 유형의 정보를 도구로 제공하고 실제와 똑같은 워크플로를 구축했다. 이러한 원형을 한번 구축하는 데 성공하면 이를 기업 활동 전반에 다양한 유스 케이스로 확장할 수 있다.

미래를 준비하는 기업은 다음의 6가지 진실에 주목해야 한다. 첫째, 기업이 미래를 향해 나아가기 위해서는 차별화된 운영 데이터 자산을 보유해야 한다. 생산 라인에 있는 사람이든, 물자가 어디에 있는지 알아야 하는 사람이든, 부품을 옮기는 사람이든 모두가 자기 일을 하는 데 필요한 모든 정보를 가지고 있어야 한다. 팔란티어의 철학은 결코 인간을 대체하려는 것이 아니다. 오히려 그들이 필요로 하는 정보를 제공함으로써 그들에게 최대치의 힘을 실어주려는 것이다. 따라서 기업이 비즈니스를 성장시키기 위해서는 데이터 자산을 최대한 활용하는 방법을 모색해야 한다. 둘째, 역동적(dynamic)이면서도 적응 가능한(adaptable) 시스템을 갖춰야 한다. 많은 기업이 처음에는 매우 작은 유스 케이스에서 시작했지만 이를 통해 공통된 데이터 자산을 구축했다. 그것을 기반으로 다양한 사용자 그룹, 다양한 워크플로를 활용해 전사적인(cross-functional) 업무를 수행하는 방식으로 플랫폼을 성장시킬 수 있었다. 세 번째로 기업은 협업을 통해 회복탄력성(resilience)을 강화할 수 있다. 각 팀이 서로 협력하고, 정보를 공유하며, 궁극적으로 현장에서 학습한 내용을 서로 가르칠 수 있도록 해야 한다. 네 번째로 연합체와 탈중앙화는 리스크를 분산한다. 서로 다른 팀이 하나의 공통 플랫폼을 갖게 되면 사용자들이 데이터를 바탕으로 협업해 더 나은 의사결정을 내릴 수 있다. 이를 통해 한곳에 위험을 집중시키지 않으면서 더 광범위한 의사결정에 힘을 실을 수 있다. 마지막으로 강조하고 싶은 두 가지는 사생활과 보안, 투명성이 중요하다는 것이다. 데이터를 통합하는 모든 과정에는 데이터를 안전하게 보호해야 한다는 인식이 깔려 있어야 한다. 또 조직 내에서 어떤 일이 일어나는지, 데이터가 어떻게 처리되는지, 사용자가 플랫폼에서 실제로 무엇을 하는지 등을 모든 사람이 이해할 수 있도록 투명성이 확보돼야 한다. 그래야 진정 데이터로 연결된 회사(connected company)를 구축할 수 있다.



085

손진호 알고리즘랩스 대표
한양대에서 기계공학을 전공하고 2017년 알고리즘랩스를 설립했다. 알고리즘랩스는 AI 커스터마이징 플랫폼 스타트업으로 인공지능과 관련된 ‘엔드 투 엔드(End-to-End)’ 서비스를 제공한다. 현재 100여 개 대기업을 대상으로 AI 솔루션 협업과 보급에 앞장서고 있다.


앞서 앨리스 유 리드가 데이터 연결과 통합의 중요성에 대해 주로 얘기했다면 나는 그 통합된 데이터를 바탕으로 무엇을 할 수 있는지, 인공지능(AI) 관점에서 효과적인 데이터 전략을 설명하고자 한다. 알고리즘 랩스는 AI 모델을 자동으로 만드는 ‘AI 파이프라인 최적화(Pipeline Optimizer)’ 기술을 개발했다. 이 기술은 쉽게 말해 주어진 데이터에서 가장 퍼포먼스가 뛰어난 AI를 자동으로 찾는 기술을 말한다. 기업의 도메인 전문가가 AI 문제를 정의하고 최적화 기술을 활용해 성과를 낼 수 있도록 지원하고 있다. 그동안 알고리즘랩스가 대기업들과 프로젝트를 하면서 배운 AI 프로젝트 성공을 위한 데이터 구축 노하우를 소개하겠다.

빅데이터가 만능은 아니다

가장 강조하고 싶은 점은 데이터의 절대적인 양은 중요하지 않다는 것이다. 빅데이터도 물론 중요하지만 빅데이터로 무엇을 할지에 대한 명확한 의사결정 없이 막연하게 데이터를 쌓기만 하면 시행착오를 많이 겪을 수밖에 없다. 예컨대 기업에 데이터가 수천만 건 쌓여 있는데 정작 A란 문제를 해결하는 데 필요한 데이터가 쌓여 있지 않은 경우도 있다. 구글 브레인의 총괄이었던 앤드루 응(Andrew Ng)도 “데이터 수백 개에서 수억 개, 그 어느 지점에서도 유의미한 AI가 만들어질 수 있다”고 말했다. 막연히 이런저런 데이터가 필요할 것이라고 가정하고 데이터를 쌓은 뒤 AI를 도입하고자 하는 방향은 오히려 AI 도입 시 장애물이 될 수 있다. 어떤 비즈니스 영역에 AI를 적용할지를 결정하고, 이를 실행하는 과정을 통해 필요한 데이터를 상세히 정의하는 과정이 필요하다. 즉 실행해 봐야 알 수 있는 영역이 반드시 존재한다. 데이터가 충분히 쌓이길 기다리는 것보다 현재 보유한 데이터로 어느 정도 퍼포먼스의 AI가 도출될 수 있는지를 체크해야 한다.

AI 프로젝트를 할지, 말지의 판단 기준은 단지 데이터의 양이 아니라 현재 보유한 데이터를 활용해 기존 프로세스를 얼마나 개선할 수 있는지를 기준으로 따져 봐야 한다. 데이터양을 기준으로만 프로젝트를 평가하면 현재 보유한 데이터만으로도 유의미하게 유스 케이스를 발굴해 가치를 도출할 기회들을 놓칠 수 있다.

데이터가 적으면 적은 대로, 많으면 많은 대로 적합한 AI 알고리즘이 존재한다. 데이터의 양을 기준으로 AI 도입 가능성을 판단하는 것이 아니라 AI PoC(타당성 검증) 프로세스를 구축해 주어진 데이터 내에서 기존 프로세스와 AI의 결과를 A/B 테스트로 비교분석하는 것이 가장 직관적인 방법이다. 실제 주어진 여건 내에서 프로젝트를 많이 시도해본 기업이 1개에서 10개, 나중에는 100개의 AI를 활용하면서 빠르게 경험을 축적할 수 있다.

굿 데이터(Good Data)가 중요하다

다음으로 데이터에 대한 집착이 필요하다. 단순히 데이터의 양에 집중하기보다 해당 데이터가 수집되는 과정 등을 통해 데이터의 품질을 관리하는 것이 중요하다. 앤드루 응의 연구 결과에 따르면 500개의 고품질 데이터와 1500개의 저품질 데이터의 퍼포먼스를 비교한 결과는 비슷한 것으로 나타났다. AI 기술이 점차 상향 평준화되면서 기술 자체보다 AI에 활용되는 데이터의 중요성이 커지고 있다. 응의 또 다른 연구 결과에 따르면 데이터를 통제하고 AI 알고리즘 모델을 고도화한 ‘모델 중심 AI’와 AI 모델을 고정하고 데이터를 고도화한 ‘데이터 중심 AI’의 퍼포먼스를 비교해보니 데이터 중심 AI의 퍼포먼스가 최대 16.0% 상승한 케이스가 있었다. 다시 말해 앞으로 AI 알고리즘 기술이 점차 상향 평준화된다고 봤을 때 데이터 품질의 중요성이 더욱 커질 것이라는 점을 시사한다. 그렇다면 데이터 품질을 관리하고 개선할 수 있는 담당자는 누구인가? 업의 비즈니스를 잘 이해하고 있는 도메인 전문가라고 생각한다. 앞으로 AI의 확산기에는 AI 알고리즘의 구조도 중요하지만 그에 앞서 AI에 효과적인 데이터를 잘 설계할 수 있는 사람이 AI 전문가로 불릴 가능성이 높다.

빅데이터(Big data)에서 굿 데이터(Good data)로의 인식 전환이 필요하다. 여기서 좋은 데이터란 결국 어떤 문제를 해결할 것인가와 관련돼 있다. 해결하기 위한 문제에 필요한 데이터를 쌓아가는 것이 AI 관점에서 효과적인 전략이다. 지금 보유한 데이터로 특정 문제를 도출하고, AI 유스 케이스를 만들어보고, 실제 사용자가 AI와 소통할 수 있는 구조로 설계하는 것이 중요하다.

이런 데이터 관점에서 비즈니스 전문가의 역할이 중요하다. 즉 비즈니스 전문가만이 AI를 위한 데이터를 올바른 방향으로 이끌 수 있다. AI 기술 기업인 매스워크(Mathworks)가 공개한 한 낙농업 기업의 사례를 소개하고자 한다. 이 기업은 유제품이 실제 고객의 평가를 받기 전에 우유와 공장의 변수만으로 유제품의 품질을 실시간 예측하고자 했다. 그런데 AI 모델이 실제 유제품의 품질을 잘 예측하지 못하는 결과가 나타났다. 왜 그랬을까? 이 공장에는 3개의 다른 공장이 있었는데 유제품을 예측할 때 서로 다른 공장들의 상황을 반영하지 않고 모두 합쳐서 모델을 만들었다. 그런데 실제로 세 공장이 다르게 운영되는 부분들이 있었다. 도메인의 지식이 있는 사람, 즉 공장을 설계하거나 근무 경험이 있는 사람이었다면 3개 공장의 데이터를 일괄적으로 합치지 않았을 것이다. 물론 도메인 지식이 없는 사람도 결국 이런 가설에 이를 수 있겠지만 그전에 굉장히 많은 시행착오를 겪을 가능성이 높다. 또 다른 문제는 공장의 관리 체계나 장비가 시간이 지남에 따라 바뀌는데 그런 부분이 반영되지 않았다. 이런 도메인 지식을 반영해 공장별로 서로 다른 모델을 만든 결과, 정확도가 93∼95%인 AI를 도출할 수 있었다. 이 사례는 AI 도입에 왜 비즈니스 전문가가 필요한지를 보여준다.

양손잡이형 인재가 필요하다

우리가 고객 기업의 기획서를 받아보면 외부에 있는 기술자 입장에서는 상상할 수 없는 디테일한 주제들이 굉장히 많다는 것을 실감하게 된다. 결국 조직에 실질적으로 필요한 AI는 산업에 특화된 세부적인 영역에 기여할 수 있는 AI다. AI 기술자는 각 산업/각 직무에서 어떤 문제가 해결해야 할 문제인지, 어떤 데이터를 보유하고 있으며, 각 데이터가 어떤 의미인지를 모르기 때문에 필요한 데이터를 정의할 수 없다. 결국 현재 해당 비즈니스에 속한 구성원, 즉 도메인 전문가가 AI의 성공적 도입의 핵심 요소라고 볼 수 있다. 이들이 AI를 잘 활용할 수 있도록 AI 실무 인재로 키우는 환경이 굉장히 중요하다. 디지털 트랜스포메이션의 성공은 AI의 첨단 기술자가 아니라 비즈니스 전문가들에게 달려 있다.

기업은 기술에 편향되지 않은 양손잡이 인재를 양성해야 한다. AI를 도입하는 단계는 크게 5가지, –문제 정의 - 목표 설정 - 데이터 설계 - AI 타당성 검증 모델 - 상용화된 개발’로 볼 수 있는데 앞단의 과정은 도메인 전문가들이 아니면 할 수 없다. 어떤 문제가 해결해야 할 문제인지 정의하고, 합리적인 목표를 설정하고, 이를 위해 필요한 데이터를 준비하는 과정이 핵심이다.

그렇다면 어떻게 양손잡이 인재를 키울 수 있을까. 효과적인 AI 트레이닝이 필요하다. 여기서 AI 트레이닝이란 AI 알고리즘을 연구개발하는 것이 아니라 AI 워크플로를 이해하는 것, 즉 AI가 무슨 데이터로 어떤 일을 할 수 있으며, 그것이 어떻게 평가되는지, 이런 맥락에 대한 이해도를 높이는 것을 의미한다. 도메인 전문가가 AI의 기초를 이해하고 있어야 실제 자신의 업무를 AI 관점으로 볼 수 있게 된다. 그리고 AI라는 도구를 어떤 문제를 해결하는 데 활용할지 정의할 수 있다. 그 후 현재 보유한 데이터로 현재 가능한 범주 내에서 AI를 도입해보고 한 단계씩 업그레이드시켜 나감으로써 AI의 규모를 키울 수 있을 것이다.


정리=배미정 기자 soya1116@donga.com
동아비즈니스리뷰 345호 Fake Data for AI 2022년 05월 Issue 2 목차보기