로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Revisiting Big Data

크기만 빅데이터? 분석을 잘해야 빅데이터!

정성문 | 292호 (2020년 3월 Issue 1)
Article at a Glance
데이터를 확보하고 이를 분석해 새로운 비즈니스 기회를 모색하는 기업들이 점차 많아지고 있다. 그런데 아무리 방대한 데이터를 확보해도, 전문 인력을 기용해도 성과를 내지 못하는 기업들이 많다. 이유는 여러 가지다. 데이터의 속성을 이해하지 못해 실질적으로 필요한 데이터를 보유하지 못하거나, 데이터 전문가들이 시장이나 경영 환경과 데이터를 연계하지 못해 성과로 이어지지 못하는 경우가 대표적인 예다. 이러한 문제를 해결하기 위해선 데이터에 대한 이해도를 높이고 전문가를 위한 교육에도 더 많은 자원을 투입해야 한다.


왜 데이터 친화 조직은 꾸리기 어려운 걸까?

기업의 규모나 역량, 업의 특성, 경쟁 환경 등에 따라 문제의 양상은 다양하게 나타날 수 있겠으나 데이터 활용 문제의 본질은 다음과 같은 4가지 관점에서 크게 벗어나지 않는다고 생각한다.

1.빅데이터를 보유하고 있습니까?
2.데이터분석가는 비즈니스 현장을 이해하고 있습니까?
3.데이터 분석 활용 성공/실패 경험을 자산화하고 있습니까?
4.데이터 분석과 활용을 이해하는 관리자와 일하고 있습니까?

이 4가지 질문에 자신 있게 ‘그렇다’라고 답할 수 있는 회사와 조직이라면 이미 ‘데이터 친화적(data friendly)’이라고 말할 수 있다. 즉, 데이터 분석/활용 역량이 기업의 ‘비즈니스 핵심 역량’으로 자리 잡았을 것이다. 데이터로부터 고객 경험을 차별화할 수 있는 상품과 서비스를 발굴하고, 시장의 반응을 통해 데이터 분석의 실패와 성공으로부터 상품과 서비스를 수정하고 강화하고 있을 것이다. 상품과 서비스는 다시 고객을 끌어모으고 있으며 고객으로부터 생성된 다양한 고객 경험 데이터는 고객 경험을 더욱 차별화하는 인사이트로 이어지는 선순환 구조를 구축했을 것이다.

그런데 이 질문을 현재 각자 회사에 대입해보자. 자신 있게 4개 질문에 ‘그렇다’라고 대답할 수 있을까. 쉽지 않을 것이라 짐작된다. 아마도 소수의 회사에 국한하는 문제도 아닐 것이다. 포털에서 ‘빅데이터’를 검색해보면 오늘도 어딘가에선 ‘빅데이터 콘퍼런스’가 열리고 있다. 많은 선진 기업이 ‘빅데이터 플랫폼을 구축했다’ ‘박사급 빅데이터 전문 인력을 영입했다’와 같은 기사도 쉽게 눈에 띈다. 하지만 무엇이 달라졌는지 체감하기 어렵다는 내부적 평가가 많은 것도 사실이다.

또한 4차 산업혁명을 이야기하며 빅데이터를 넘어서 인공지능, 최근 발표한 양자컴퓨터까지 화두가 되고 있는 지금 이 시점에, 정작 데이터를 비즈니스에 성공적으로 활용했다는 사례를 ‘아마존’ ‘넷플릭스’ 말고는 찾아보기 어렵다는 점은 참으로 아이러니다.

무엇이 문제일까? 필자는 그간의 실무 경험을 바탕으로 현 기업들이 많은 인력과 시간, 돈을 쓰며 디지털화에 공을 들이고 있지만 아직은 큰 성과를 내지 못하는 원인을 찾고, 솔루션을 정리해봤다.

169-1


1.크기만 빅데이터

“우리 회사는 데이터가 정말 많습니다. 데이터가 없어서 문제가 아니라 이걸 활용할 비즈니스 아이디어의 부재가 진짜 문제죠. 흩어진 그룹의 데이터를 한군데로 모으면 시너지가 난다고 생각합니다. 우리 회사가 데이터를 잘 활용할 수 있도록 데이터 통합 컨설팅을 진행할 예정입니다.”

여러 기업의 데이터 분석 사업 담당자를 만나보면 흔히 듣는 이야기들이다. 그런데 현장의 목소리는 조금 다르다.

“국내에는 이미 정평이 나 있는 기업이고 해외에도 빠르게 사업을 확장하고 있었기 때문에 스카우트 제의가 있었을 때 재밌게 일할 수 있을 거라고 생각했습니다. 그런데 입사해서 6개월째 데이터 정제 작업만 하고 있습니다. 데이터가 많긴 하지만 도무지 분석을 할 만한 상태가 아니었거든요. 예상과 너무 달라 매우 실망했습니다.”

최근에 이직한 데이터분석가의 말이다. 대체 어떻게 된 일일까? 한쪽에선 데이터는 충분하다고 말하고, 한쪽에서는 데이터를 쓸 수 없다고 이야기하니 말이다.

최근 제조산업은 스마트 팩토리(Smart Factory)라는 이름으로 데이터 기반의 공장 자동화 및 의사결정, 품질 관리를 강조하며 수천, 수만 개의 IoT 센서로부터 초 단위로 확보되는 ‘빅데이터’의 활용을 고심하고 있다. 제조기업 A사도 데이터 기반의 품질 관리 체계를 고민하고 있다. 제조 공정상의 온도, 압력, 운전자의 숙련도 등 다양한 정형, 비정형의 운전 데이터를 통해 품질 영향 요인을 사전에 파악하고 선제적으로 대응하고 싶다는 것이다.

그렇다면 품질 예측 문제를 해결하기 위해 충분한 빅데이터를 갖추고 있는 걸까? A사의 경우 제품에 따라 다르지만 평균 하루에 한 번 품질 검사를 수행하고 있었다. 이 말은 센서데이터가 얼마나 많든지 간에 학습을 위한 ‘정답지’는 하루에 한 번 생긴다는 말이다. 결과적으로 1년간 데이터 분석을 위한 정답지 데이터는 고작 365개 남짓 생긴다는 의미다. 데이터 분석이 아니라 품질 검사 방법을 개선해 품질 데이터를 실시간으로 확보하기 위한 고민이 선행돼야 하는 상황이다.

이처럼 시장에서 흔히 빅데이터를 ‘데이터의 양(Volume)’을 기준으로 이야기하는데 데이터의 분석 활용 관점에서는 하루에 몇 기가바이트의 데이터가 생성되고, 몇 테라바이트의 데이터가 적재돼 있다는 것이 큰 의미가 없을 수도 있다. 실제로 많은 회사가 분석 활용 관점이 아닌 운영 관리 관점으로 데이터를 적재한다. 로그 데이터보다 집계 데이터 중심이며, 과정 정보보다 결과 정보 중심이다. 데이터가 집계되는 과정에서 분석 관점에서 의미 있는 정보가 대부분 손실된다. 그나마 최근 1∼2년의 데이터는 비교적 제대로 쌓여 있지만 그 이전 데이터는 요약된 형태로 백업되고, 원본 데이터는 삭제된 경우도 많으며, 회사의 상품/서비스가 변화하는 동안 과거엔 쌓이던 데이터가 어느 순간부터 적재되지 않거나 최근에서야 겨우 쌓기 시작한 데이터도 부지기수다. 데이터 이름은 동일한데 데이터 적재 기준이 바뀌어 있기도 하고, 비슷비슷한 이름의 데이터 테이블이 산발적으로 존재하기도 한다. 결국엔 어떤 데이터가 원본 데이터인지는 회사에 한두 명만 알고 있을 뿐이다. 이러저러한 제약을 고려해 신뢰할 만한 데이터를 정제하고 나면 결국 쓸 만한 데이터는 몇 개 남지도 않는다.

그럼에도 불구하고 대부분의 기업은 데이터를 분석하고 활용할 고민만 할 뿐 근간이 되는 데이터를 재정비할 생각은 하지 않는다. 사실 너무 복잡한 일이라 엄두를 내지 못하는 것일지도 모르겠다. 아니면 데이터를 정비하는 작업이 비용은 많이 들지만 담당 임원 관점에서 성과를 어필하기 좋은 과제가 아니기 때문일지도 모르겠다. 당신의 데이터는 정말로 ‘빅’데이터인가? 한 번이라도 분석 활용 관점에서 데이터가 충분히 적재되고 관리되고 있는지 살펴봤는가?

170-1


2.비즈니스를 모르는 데이터분석가와 데이터분석가 양성 교육의 한계


대부분의 기업은 데이터 분석 및 활용 역량 확보를 위해 2가지 방향으로 접근한다. 한 가지는 외부에서 데이터 사이언티스트를 영입하는 것이고, 다른 한 가지는 내부 인력을 선발해 데이터 사이언티스트 양성 교육 프로그램을 운영하는 것이다. 대개는 두 가지를 동시에 진행하는데 안타깝게도 두 가지 모두 데이터 분석 및 활용 역량 확보의 측면에서 성과가 잘 나지 않는다. 무엇이 문제일까?

첫째, 외부 데이터 사이언티스트 영입부터 살펴보자. 많은 기업이 빅데이터 센터 같은 조직을 하나씩 신설해 운영하는데 이 조직의 인원 대부분은 외부 빅데이터 전문가나 인공지능 및 통계학 박사 학위자들로 채워진다. 이들이 만들어낸 분석 결과는 비즈니스 현장에 대한 이해 부족으로 현장에서 받아들여지지 않는 경우가 많다.

최근 B사의 빅데이터팀은 신흥시장에서의 고객 구매 특성을 분석해 추가 판매 예측 모형을 만드는 과제를 수행했다. 신기하게도 추가 구매 고객 중 30%가 넘는 고객이 상품을 구매하고 1년이 되기도 전에 동일 상품을 추가 구매를 했다는 놀라운 인사이트가 발견됐다. 빅데이터팀은 흥분했고, 구매 행동 데이터에 기반한 높은 정확도의 예측 모형 적용을 서둘렀다. 하지만 현장의 반응은 차가웠다. 왜냐하면 해당 국가의 경우 구매 대행이나 공동 구매와 같은 행태가 빈번하게 이뤄지기 때문에 한 사람이 동일 상품을 짧은 기간 동안 반복적으로 구매하는 것이 이상하지 않다는 이야기를 들려줬다. 따라서 해당 모형은 도입할 수 없다는 의견이었다.

이 사례에서 보는 것처럼 회사와 업에 대한 이해가 부족하고 동시에 현장에 대한 이해가 부족한 상태에서 데이터 전문가 조직은 성과를 내기 어렵다. 현장의 협조를 끌어내거나 설득하는 것은 더욱 어렵다.

둘째, 데이터 분석 전문가 양성을 위한 집합 교육이다. 이 방법의 가장 큰 문제는 크게 3가지인데 실험실 교육의 한계와 테크닉 중심의 데이터 분석 활용 교육, 그리고 업무 연속성의 이슈다. 데이터사이언티스트 양성 교육 프로그램에 차출되거나 지원한 주니어 직원들은 운이 좋다면 1주일 남짓의 풀타임 교육, 때로는 주에 1∼2회, 2시간, 10주 프로그램 등에 참여한다. 외부 전문 기관에 의해 운영되는 이 교육은 hands-on 방식으로 이뤄지는 경우가 많은데, 초보자도 이해할 수 있도록 정형화된 문제와 데이터를 제공하고 파이선이나 R을 한 줄, 한 줄 따라 하며 분석 테크닉을 실습하는 형태다.

문제는 각자가 부서로 돌아가면서 발생한다. 현실 세계에서 발생하는 문제는 교육 환경처럼 깨끗한 데이터가 있는 것도 아니고, 해결해야 하는 문제가 명확하게 정의돼 있지도 않다. 실제 문제 해결을 위해 회사의 데이터 접근 권한을 얻어내는 것도 문제다. 교육에서는 손쉽게 접근 가능한 몇 개의 알고리즘 테크닉을 배웠지만 현실 세계의 데이터 분석은 데이터 전처리에서부터 시작해야 한다. 직관과 경험이 필요한 EDA(Exploratory Data Analysis), 이상치 제거, 지저분한 데이터의 정리, 파생변수를 정의하는 과정이 끝나고 나서야 이제 겨우 교육에서 배웠던 테크닉을 적용해볼 수 있다. 대부분의 경우는 이 단계까지 도달하지 못한다. 더욱 치명적인 문제는 회사의 자원 배치에 따른 구조적인 문제로 양성 교육에 참석했다 하더라도 본래의 업무로 돌아간 후 다시는 데이터를 만져볼 수 없는 경우가 많다. 지금까지 그래왔듯 반복적인 보고서를 작성하는 현실에 직면할 뿐이다.

결국, 데이터 분석 활용을 통한 성과 창출의 관점에서 조직, 역량 개발, 우수 인력의 영입 및 인력의 재배치와 같은 전사 관점의 전략과 변화 관리에 대한 고민이 없다면 데이터 분석/활용 역량을 내재화하고 데이터 친화적 조직으로 전환하는 것은 요원한 일이 될 것이다.


3. 실패하지 않는 프로젝트와 경험의 자산화

당신은 실패한 프로젝트를 본 적이 있는가? 대대적으로 홍보한 대형 프로젝트라면 더더욱 실패한 프로젝트를 본 적이 없다는 사실에 깜짝 놀랄지도 모르겠다. 그리고 지금 이 글을 읽고 있는 당신의 회사 어느 부서에서도 데이터 분석과 활용을 고민하며 프로젝트가 진행되고 있을지도 모른다. 그리고 아마도 성공할 것이다.

데이터 분석 컨설팅에 착수하면 제일 처음 고객사로부터 제공받는 자료는 유관 프로젝트의 산출물이다. 컨설팅사가 빨리 업무에 착수할 수 있게 하기 위해 고객사는 많은 정보를 제공하는데, 여기에는 내부 R&D와 타 컨설팅사가 과거 수행했던, 수행하고 나간 프로젝트 보고서 등이 포함돼 있다. 과거 수행된 프로젝트 보고서를 살펴보면 흥미로운 점이 있다. 1년 전에도, 그리고 2년 전에도, 또 3년쯤 전에도 유사한 프로젝트를 진행했고, 프로젝트는 대부분 성공적으로 마무리됐다는 점이다. 담당 임원은 프로젝트 결과에 만족했고, 분석 결과는 운영 시스템에 반영했지만 잘 활용되지 않았다. 그리고 고도화를 한다는 명목으로 새롭게 프로젝트를 수행한다. 실패하지 않았는데 분석 결과가 제대로 활용되지 않고, 같은 프로젝트를 반복하다니 어떻게 된 것일까?

A사는 지난 몇 년간 최적화된 마케팅 비용 집행에 대한 의사결정을 위해 마케팅 성과 예측 모형을 개발해 왔다. 마케팅 성과에 대한 예측을 하기 위해서는 당연히 마케팅 비용과 성과, 그리고 COC(Customer-Offer-Channel, 누구에게, 어떤 채널을 통해서, 어떤 혜택을 제공했는가?) 정보가 핵심이다. 문제는 대부분의 제조기업이 COC 데이터를 제대로 관리하고 있지 않는다는 점이다.

보통 제조기업은 상품의 판매를 월마트, 아마존과 같은 거대한 고객을 점유하고 있는 유통 사업자에 의존할 수밖에 없다. 이때 제조사는 제품의 판매 촉진을 위해 유통사에 마케팅 비용을 지원하며 공동 프로모션을 진행한다. 문제는 아마존이든, 월마트든 마케팅 상세 정보를 제조사에 제공하지 않는다는 점이다. 다시 말하면, 제조사는 마케팅 비용 투자는 했지만 실제 유통 채널 현장에서 고객에게 정확하게 어떤 프로모션이 진행됐는지 모른다는 말이다. 좀 더 정확하게 설명하자면 공동 프로모션에 대한 정보를 해당 유통 채널 제휴 담당자는 알고 있었고, 그의 수첩에는 간단히 기록해 놓았지만 분석할 수 있는 수준으로 데이터화돼 있지 않았다.

여기서 핵심은 데이터가 없다는 점이 아니라 놀랍게도 이런 문제점들이 지난 몇 년간의 프로젝트에서 제대로 다뤄지지 않았고 항상 유의미한 수준의 예측 모형을 만드는 데 성공한 것으로 프로젝트가 마무리됐다는 점이다. 앞선 몇 년간의 프로젝트는 분명 실패했어야 했다. 프로젝트에 참여했던 데이터분석가는 데이터의 불충분성을 알았을 것이다. 당연히 이 교훈들(Lessons & Learned)은 기록돼야 하며, 그 결과를 바탕으로 문제를 개선하기 위한 후속 과제가 진행됐어야 했다. 만약 과거의 실패를 기반으로 문제 해결에 성공해 제대로 된 예측 모형을 만들어 낼 수 있었다면 대규모로 비용 절감을 달성했을지도 모르겠다.

기업의 업무는 복잡한 이해관계로 얽혀 있기 마련이다. 그 결과 프로젝트의 실패를 어느 누구도 쉽게 입에 담을 수 없었을 것이다. 프로젝트에 참여한 개인에게는 피가 되고 살이 되는 경험이겠지만 개인의 경험이 회사의 경험과 자산이라고 동일시하는 것은 위험하다. 제대로 기록돼야 한다. 성공도 실패도. 실패로부터 아무것도 배우지 못한다면 단 한 발자국도 나아가지 못한다.

172-1

4. 데이터를 모르는 데이터 조직의 관리자

『논어』 ‘위정’ 편에서 공자는 이렇게 말한다. “배우기만 하고 생각하지 않으면 얻는 것이 없고, 생각하기만 하고 배우지 않으면 위태롭다.” 이 한 문장에 오늘날 기업이 왜 데이터를 이용해 성과를 내지 못하는지, 왜 조직이 데이터 친화적 조직으로 나아가지 못하는지 그 이유가 담겨 있다. 특히나 국내의 수직적인 의사결정 문화에서는 관리자의 데이터에 대한 이해 부족은 데이터 친화적 조직으로 나아가는 데 큰 장애 요소가 된다.

‘SQL1 이 무엇인지는 모르지만 딥러닝은 들어봤다’라거나 ‘통계분석은 구식이고 머신러닝은 고급 분석이다’라고 이해하는 관리자와 일하고 있다는 게 그리 놀랄 만한 일도 아니다. 이처럼 데이터와 데이터 분석업무를 이해하지 못하는 관리자에게 데이터 전처리나 딥러닝 적용이 어렵다는 내용을 이해시키는 것은 데이터분석가에겐 고통스러운 작업이다. 데이터를 분석하고 인사이트를 도출하는 시간보다 관리자를 설득하고 이해시키는 자료를 만드는 데 더 많은 시간을 써야 한다.

현장에서는 다음과 같은 웃지 못할 상황도 벌어진다. “딥러닝 알고리즘을 적용하면 알아서 혼자 다 되는 거죠? 새로운 변수도 알아서 찾아주고, 혼자 학습도 하고”라고 한 임원이 묻자 업무 담당 관리자는 임원에게 “네, 맞습니다. 다 되는 겁니다. 시간이 갈수록 알아서 혼자 점점 똑똑해지고, 새로운 변수도 찾아줄 겁니다”라고 대답한다. 정작 이 회사는 단순 통계 분석도 수행할 수 없을 만큼 데이터가 부족한 상황인데 말이다.

데이터가 어떻게 쌓여 있는지 한 번도 눈으로 본 적 없는 관리자가 딥러닝을 이야기하고, 데이터 전처리의 지난함과 중요성을 이해하지 못하는 관리자가 일주일 남짓의 데이터사이언티스트 육성 교육을 자랑하듯 “우리 회사는 인공지능 전문 인력을 양성하고 있습니다. 현재 1000여 명의 디지털 전문인력을 보유하고 있습니다”라며 인터뷰하는 것이 바로 지금 회사를 이끌어가는 관리자와 의사결정자의 데이터 활용에 대한 이해의 현주소다.

‘2018년이 되면 미국 내에서만 약 150만 명에 가까운 빅데이터 분석을 이해하고 활용할 수 있는 관리자가 부족해지는 시대가 올 것2 ’이라고 전망했던 보고서가 생각난다. 당시에는 보고서를 읽으며 왜 그럴까 하고 생각했다. 데이터분석가가 아니라 데이터분석가들을 관리하고 비즈니스 의사결정을 하는 관리자가 부족해진다는 게 어떤 의미인지 와 닿지 않았었다. 데이터분석가로, 또 경영 컨설턴트로 많은 회사의 데이터분석가를 만나고 관리자들과 의사결정자들을 만나면서 이제는 그 이유를 피부로 느끼고 있다. 기업의 각 영역에서 고유의 비즈니스를 이해하며 동시에 데이터를 이해하고 활용할 수 있는 관리자가 절대적으로 부족하다. 결국 데이터 친화적인 조직의 결정적인 허들이 바로 관리자의 데이터 역량 확보일 것이다.


데이터 친화적 조직으로 나아가기 위한 필요조건은?

그렇다면 데이터 친화적인 조직이란 어떤 모습일까? 어떻게 해야 앞서 언급한 문제들을 해결하고 조직이 데이터를 비즈니스에 녹여내고 성과를 낼 수 있을까?

비록 모든 비즈니스에 적용 가능한 이상적인 정답은 아니겠지만 데이터분석가로서의 스스로의 경험과 사업기획자로의 경험, 그리고 비즈니스 컨설턴트로서 다양한 산업의 데이터분석가와 관리자, 데이터를 성공적으로 활용하고 있는 또는 데이터 활용에 난항을 겪고 있는 조직을 보고, 경험하며 얻은 중요한 교훈을 6가지로 정리해봤다.

1. 기획부터 분석, 실행까지 가능한 조직

데이터 친화적 조직을 만들기 위한 첫 단추는 ‘실행 가능한 작은 조직’이다. 이런 조직의 가장 큰 장점은 모호한(?) R&R이다. 조직 내에서 기획부터 실행, 개발, 분석이 모두 이뤄지며 ‘기획의 일과 분석의 일’을 명확하게 구분하지 않는다. 그 결과 기획자가 분석가의 일을 이해하고 인사이트를 주며, 동시에 분석가는 기획자의 비즈니스 시나리오에 도전할 수 있다. 모두가 바라는 시너지다.

대부분 기업은 업무 단위로 조직이 분리돼 있다. 마케팅, 영업, 개발, UX, 분석과 같은 단위로 서로 다른 R&R과 KPI를 갖고 있다. 협업 관계가 아닌 경쟁 관계에 가깝다. 이와는 달리 기획부터 분석, 실행까지 가능한 조직의 목표 KPI는 조직이 담당하고 있는 상품이나 서비스에서의 성과를 극대화하는 것 한 가지다. 조직 내 기획자의 목표와 분석가의 목표가 다르지 않다.

이와 같은 조직은 스타트업에서 흔히 찾아볼 수 있다. 소위 애자일과 데브옵스(DevOps)3 를 추구하는 대다수의 스타트업은 ‘서비스 또는 상품 단위’로 조직을 구성한다. 조직 내에서 기획, 개발, 분석, 마케팅, 운영까지 모두 이뤄지며 분석가와 기획자가 서로의 영역을 쉽게 침범하며 시너지를 극대화한다.

이런 운영이 반드시 스타트업에서만 가능한 것은 아니다. 국내 대기업인 A보험사는 이미 4∼5년 전부터 이와 같은 체계를 감각적으로 운영하고 있었고, 업계 최고 수준의 고객 서비스를 제공하고 있었다. 고객은 보험 가입을 위해 구글 등에서 검색을 하거나 유명 포털 사이트 배너, 제휴 채널 배너 등을 통해 유입되는데 채널별로 고객의 이탈, 구매, 탐색 행태를 상세하게 모니터링한다. 기획자와 IT 개발자, 데이터분석가, UX디자이너는 부서 단위로 분리돼 각자의 업무를 수행하지만 비즈니스 목적 단위(채널별 고객 경험 극대화)로는 원팀(기획자, IT 개발자, 데이터분석가, UX디자이너로 이뤄진 팀)으로 움직인다. 팀은 담당 채널의 마케팅을 기획하고, 채널의 변화를 실시간으로 모니터링하며, 데이터분석가는 이상 현상을 분석해 원인을 파악한다. 기획자와 UX개발자가 함께 서비스 개선안을 마련하고 곧바로 A/B 테스트 형태로 시장에 테스트된다. 이 모든 과정은 1일 내에 이뤄지며 단계별로 상세하게 기록되고 회사의 자산으로 관리된다.

데이터를 아는 기획자와 기획을 아는 데이터분석가는 톱니바퀴처럼 돌아간다. 부서가 다른 인력들은 서로 다른 R&R을 갖고 있지만 한편으론 상품/서비스 단위로는 하나의 팀으로 묶여 최고의 성과를 낼 수 있는 유연한 시스템이다. 많은 기업이 추진하는 TF처럼 실행에 대한 의사결정권이 없는 조직이 아니라 기획부터 실행에 대한 의사결정까지 가능한 체계다.

2. MVP & Fast Fail

기업이 데이터를 활용하는 가장 일반적인 방법은 IT 주도로 이뤄지는 빅뱅방식의 데이터 분석 플랫폼 구축이다. 솔루션 선정과 비용, 개발 요건 정의가 주를 이루며 실제 비즈니스 활용 관점이나 고객 관점의 디테일이 부족하다. 오랜 시간과 비용을 들여 완성된 플랫폼은 결국 잘 활용되지 못하고 얼마 지나지 않아 데이터 분석 과제 도출 프로젝트나 분석 경쟁력 강화 프로젝트 등의 형태로 또다시 진행한다.

175-1


MVP(Minimum Viable Product) 방식은 빅뱅방식의 접근과 달리 방향성이 맞는지, 고객이 반응하는지 등을 실제 시장에 탭핑하고 빠른 실패(fast fail)를 경험하며, 작은 성공을 발판 삼아 점진적으로 확장한다. 최근 빠르게 성장하고 있는 핀테크 기업인 A사는 MVP와 빠른 실패에 대한 훌륭한 예가 될 만한 레퍼런스다. 신규 서비스 풀(pool)을 쌓아 놓고 빠른 속도로 최소 기능을 개발해 시장의 반응을 본다. 처음에는 랜덤하게 1000명에게 서비스를 제공해 반응 데이터를 분석한다. 다음에는 1만 명, 그다음에는 5만 명, 이렇게 단계별로 실제 고객의 반응을 보고 반응이 나쁘면 빠르게 접고, 수정이 가능하면 수정해 개선 서비스를 만들어 낸다. 그렇게 탄생한 서비스가 지금의 송금, 결제 서비스다. 지금 이 순간 당신이 쓰고 있는 앱의 화면도 어쩌면 옆 사람의 화면과 다를 수 있다.

다만 PoC(Proof of Concept) 경험을 MVP와 빠른 실패로 착각하지는 말아야 한다. 요즘 데이터 분석 시장은 PoC 홍수의 시대다. 많은 기업이 데이터 분석/활용에 대한 PoC를 수행한다. 문제는 PoC 딜레마다. PoC를 수행한 이후 기업들이 ‘다 해봤다. 해봤는데 잘 안 되더라’라고 판단하고는 과제를 접는다. 반대로 PoC가 성공적이면 턴키(turn key) 방식으로 개발 프로젝트를 수행한다. 그리고 대고객 서비스를 제공하면서 수많은 문제가 발생해 결국은 해당 서비스를 접는다. 맥킨지는 이를 한마디로 정의했다. “PoC의 함정(Trap).”

3. Test & Learn과 자산화

디지털화의 가장 큰 장점은 무엇일까? 나는 시장의 반응을 거의 실시간에 가까운 속도로 확인하고 수정할 수 있다는 점이라 생각한다. 과거 오프라인 시장에서의 데이터 분석 활용은 통계적으로 면밀히 분석하고, 수많은 베스트-워스트 시나리오를 사전에 고민하고 나서야 시장에 적용할 수 있었다. 그럼에도 불구하고 고객의 반응은 항상 예상과 달랐고, 다시 또 왜 시장의 반응이 예상과 달랐는지 분석해야 했다.

시대가 변했다. 복잡한 데이터 분석과 의사결정 과정이 아니라 빠르게 기획해 실행하고, 시장의 반응에서 배울 수 있는 체계만 갖추고 있다면 딥러닝과 같은 복잡하고 설명할 수 없는 알고리즘이 아니라 하더라도 최고의 성과를 낼 수 있다. 이 체계의 핵심은 개인이 아니라 회사의 자산으로 활용 가능하도록 기록하는 것이며 실패 또한 기록하는 것이다. 많은 회사가 개인의 경험과 회사의 경험을 동일시한다. 이는 큰 착각이다. 개인은 Test & Learn을 통해 성장하겠지만 기록되지 않으면 회사는 이 경험을 재활용할 수 없다. 해당 직원의 이직으로 회사의 경험이 초기화되는 사례도 빈번하게 발생한다.

4. 훌륭한 데이터분석가의 영입과 비즈니스 교육

아무리 훌륭한 데이터분석가를 영입했다 하더라도 데이터를 읽어내고 활용하기 위해서는 비즈니스에 대한 이해가 수반돼야 한다. 오늘날 대부분의 인재 양성 교육은 비즈니스 인력에게 데이터 분석 역량을 부여하는 데 집중하는 데 반해 어렵게 영입한 데이터분석가에게 데이터를 읽어내 비즈니스 성과로 연결할 힘을 주는 비즈니스 교육은 간과하고 있는 것 같다.

카카오뱅크의 정규돈 최고기술책임자(CTO)는 2019년 8월 열린 ‘if kakao 개발자 콘퍼런스 2019’에서 이렇게 말했다.

“개발자가 단순히 기둥으로 버티는 것이 아니라 상품과 서비스에 대한 직접적인 피드백을 받아야 한다고 생각한다.”

비단 개발자에게만 국한되는 이야기는 아닐 것이다. 데이터분석가 역시 마찬가지다. 현장을 모르고 데이터분석가가 성과를 낼 수 있을까? 기업의 빅데이터 조직은 CoE(Center of Excellence) 형태로 운영되는 경우가 많다. 특정 부서 산하 조직에 소속돼 있기보다 CDO 산하 조직으로 기업 전체의 데이터 거버넌스와 분석 역량을 결집한다는 목적으로 운영된다. 조직의 IT 출신들과 외부에서 어렵게 영입한 데이터분석가들로 채워진 이 조직은 회사에서 천덕꾸러기가 된다. 현장 조직의 의뢰를 받아 데이터를 분석하고, 모형을 개발하지만 데이터가 현장에서 어떻게 쌓이는지조차 이해하지 못하고 분석하는 경우도 많다. 더욱 안타까운 것은 현장에 적용된다 하더라도 시장의 반응은 어땠는지조차 피드백 받지 못한다는 것이다.

데이터분석가를 회사에 영입한 이유는 회사가 보유한 데이터를 활용해 성과를 내기 위함이지 논문을 쓰고 특허를 내기 위한 연구를 위함이 아니다. 지금 이 순간 여러분의 회사도 어렵게 영입한 데이터분석가를 방치하고 있는 것은 아닌지 생각해보기 바란다.

176-1


5. 데이터분석가 양성을 위한 도제식 교육

데이터분석가는 장인과 같다. 동일한 재료를 가지고도 최상의 맛을 끌어내는 초밥 장인처럼 비즈니스의 결을 읽고, 데이터라는 재료를 이용해 최고의 성과를 창출하는 데이터 장인 말이다. 초밥 장인의 다큐멘터리를 보면 초밥 장인에게 사사하며, 설거지 3년, 밥 짓기 3년, 생선 손질 3년을 거친다. 또 스승님이 5시에 일어나면 같이 일어나다가 깨달음을 얻는다. 이런 과정이 필요한 이유는 사실 초밥 장인인 스승님도 자신이 만든 요리가 왜 맛있는지 정확하게 설명하지 못하기 때문이다.

데이터 분석도 비슷하다. 데이터분석가들 사이에서 유명한 캐글(Kaggle)이라는 플랫폼이 있다. 흥미로운 점은 최상위 랭커들의 데이터 분석 및 모델링 코드를 들여다보면 그렇게 특별하지 않다는 것이다. 그들도 초보자들처럼 EDA(탐색적 데이터 분석)를 하고, 변수를 정의하고, 이미 공개된 앙상블 알고리즘 등을 적용하고, 하이퍼파라미터 튜닝을 통해 최적화를 한다. 누구나 똑같다. 별것 아닌 것 같지만 막상 분석을 시작하면 막막해진다. 동일한 과정을 거쳐 나온 결과도 사뭇 다르다. 랭커의 분석 결과 정확도는 95%지만 아무리 따라 해도 초보자는 75%도 넘기기 힘들다. 자세히 들여다보면 변수를 선택하고, 파생변수를 만드는 과정이 아주 조금 다를 뿐이다. 한 끗 차이다. 왜 그렇게 했냐고 물어보면 ‘직관적으로 그게 더 나은 결과를 낼 것이라 생각했다’라고 답할 뿐이다.

결국 아무리 좋은 책과 강의들도 단시간에 데이터 전문가를 키워낼 수는 없다. 기술은 경험과 시간이 필요하다. 결국 조직이 데이터를 분석하고 활용할 수 있는 역량을 키우기 위해서는 구루(Gurn)로부터 배우며 오랜 시간 테스트하고 체득할 수밖에 없다. 다양한 문제 상황에서 구루가 어떻게 답을 찾아가는지 옆에서 보고 배우고, 같이 고민하며 스스로의 데이터 활용 체계를 정립할 수 있을 때까지 충분히 기술을 연마해야 한다. 데이터 활용 분야의 교수 랩과 연계하거나 데이터 분석 컨설팅사와 단기 분석 모형 개발 프로젝트가 아닌 장기적인 파트너십을 통한 코칭 프로젝트를 하는 것도 좋은 방법이라 할 수 있다.

동시에 조직은 내부 인력이 역량을 키울 수 있도록 다양한 데이터 분석 활용을 경험할 수 있는 장을 마련해줘야 한다. 단발성 교육 후 제자리로 돌아가 다시 파워포인트에 매달리는 것이 아니라 계속해서 새로운 문제를 풀어보고, 고민하며, 실패하는 시간이 필요하다. 이를 인내하고 지지하는 것이 바로 조직, 그리고 데이터관리자의 역할일 것이다.

6. 리더를 위한 데이터 교육

얼마 전 뉴스에서 대기업의 임원들이 ‘코딩 교육’을 받는다는 이야기를 들었던 기억이 난다. 매우 바람직한 접근이다. 시장이 이렇게 빠르게 변하는데 새로운 것을 배우고 익히지 않고 과거의 성공 경험과 직관에 기반한 의사결정만을 고집한다면 경쟁에서 살아남기 어려울 것이다. 다만 우려가 되는 것은 정제된 환경에서, 강사가 잘 만들어 놓은 데이터를 이용해 알고리즘을 적용하는 코딩 한 줄 정도를 따라 하는 실습만으로 데이터 분석 활용에 대해 이해했다고 생각하게 되지 않을까 하는 것이다.

데이터를 분석하고 활용함에 있어 가장 큰 걸림돌은 데이터 준비다. 앞서 문제 제기를 했던 것처럼 생각보다 많은 회사가 데이터를 제대로 갖추고 있지 못하다. 설령 데이터가 충분히 있다 하더라도 활용하기 위해서는 전처리 과정을 거쳐야 한다. 우스갯소리로 인공지능이 데이터를 활용해 업무를 자동화하고 지능화하기 위해 사람이 대신 일한다고 할 만큼 전처리 과정은 지난하고 고통스럽다. 그리고 업에 대한 깊은 이해 또한 필요하다. 실제로 데이터분석가들에게 유명한 오픈 플랫폼인 캐글의 데이터 분석 코드를 보면 간단하다. 전체 데이터 분석 프로그램이 100줄이라면 알고리즘을 적용한 부분은 2∼3줄에 지나지 않는다. 나머지는 모두 데이터를 분석이 가능한 형태로 재정의하는 과정이다. 실제로 비즈니스 환경에서 대부분의 데이터 활용의 문제는 이 데이터 준비 과정에서 발생한다.

결국 관리자가 알아야 하는 것은 최신 알고리즘 명칭이나, 코딩 기법, 분석 테크닉이 아니다. 기업의 비즈니스 목표에 맞는 데이터 확보와 관리 수준에 대한 파악, 전처리와 같은 데이터 준비 과정의 중요성에 대한 이해, 그리고 데이터를 준비하고 비즈니스에 적용하는 과정에서 발생 가능한 다양한 문제에 대한 해결 역량을 갖춰야 한다. 관리자 스스로 데이터를 활용하는 업무에 대한 이해가 부족하다면 무엇이 문제인지, 조직이 데이터를 활용해 성과를 내기 위해 무엇을 개선해야 하는지 알아채기 어려울 것이다.

맺으며...

지난 몇 년간 수많은 기업이 데이터 친화적인 조직을 만들기 위해 많은 고민과 시도를 하고 있다. 동시에 데이터에 답이 있고, 빅데이터로 많은 문제를 해결할 수 있다는 데이터에 대한 맹목적인 추종의 기류 역시 커져가고 있다. 데이터가 비즈니스 의사결정에 필요한 통찰력을 제공하는 것은 사실이지만 동시에 충분한 견해를 가지고 데이터를 바라봐야 한다.

미디어 시장의 공룡 넷플릭스는 아마도 전 세계에서 가장 데이터를 잘 활용하는 기업일 것이다. 데이터 분석이 기업의 핵심 역량이며 모든 의사결정 역시 데이터에 의해 이뤄질 것 같은 이 넷플릭스의 전 CTO인 패티 맥코드 역시 그의 저서 『파워풀』에서 “데이터는 견해가 없다, 데이터는 위대하고 힘이 있지만 데이터를 좋은 질문의 근거로 활용하는 것이 아닌 데이터를 정답지로 여기는 것을 경계해야 한다”라고 말한다.

데이터를 모으고 분석하는 모든 과정이 더욱 빠르게 진화하고 있다. 신기술 기반의 데이터 전처리 도구의 등장으로 엑셀을 다루듯 데이터를 정제할 수 있게 되고, 자동화된 머신러닝(Autimated Machine Learning, AML) 기술도 빠르게 성장하고 있다. 전문적인 데이터 사이언티스트의 성역이었던 모형 개발 역시 누구나 손쉽게 비즈니스에 접목할 수 있는 시대가 열리고 있다. 인공지능과 빅데이터 기술의 발전이 아이러니하게도 데이터 사이언티스트가 필요 없는 세상을 만들고 있다. 더 이상 기술 활용의 미숙함이나 높은 기술 장벽이 변명이 될 수 없는 시대가 됐다.

기술은 빠르게 상향평준화가 돼간다. 결국 데이터가 양적으로, 질적으로 빠르게 성장하면 성장할수록 데이터를 읽고 해석하고 활용하는 역량이 진짜 경쟁력이 될 것이다. 어쩌면 가까운 미래에는 데이터마저 필요하다면 구매할 수 있을지도 모른다. 결국 진짜 경쟁력은 같은 기술과 같은 데이터를 활용해서 누가 얼마나 의미 있는 인사이트를 도출하고 비즈니스 성과로 만들어 낼 수 있는가에서 판가름이 날 것이다. 그런 의미에서 미래의 데이터 친화적인 조직이란 넷플릭스의 패티 맥코드가 이야기하듯 “데이터를 읽을 수 있을 만큼 충분히 똑똑해야 하는 동시에, 그것을 무시할 수 있을 만큼 직관적인” 조직이어야 할 것이다.


필자소개
정성문 PwC컨설팅 Emerging Technology Lab 이사 sungmoon.cheong@pwc.com
필자는 KAIST 전기 및 전자공학과를 졸업하고 동 대학원에서 머신러닝 분야를 연구, 석사 학위를 받았다. 한국전자통신연구원(ETRI)에서 데이터 분석 및 신기술 개발 연구를 진행했다. 금융사 및 글로벌 컨설팅사에서 10여 년간 근무하며 CRM, 고객행동분석 등 데이터 기반 비즈니스 전략 및 데이터 분석 업무를 수행하고 현재는 PwC컨설팅의 Emerging Technology Lab의 이사로 재직 중이다.

인기기사