로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

빅데이터 리더십: 디지타이징 비즈니스

배우 윌 스미스와 서울 심야버스. 빅데이터에서 인사이트를 끄집어내다

최용주,김진호 | 229호 (2017년 7월 Issue 2)
Article at a Glance

4차 산업혁명이라는 거대한 변화에 기업이 적극적으로 대응하기 위해서는 ‘디지타이징 비즈니스(digitizing business)’로 자신의 사업을 혁신해야 한다. 디지타이징 비즈니스란 빅데이터 시대의 5대 핵심 기술(소셜미디어, 모바일, 사물인터넷, 클라우드, 빅데이터 분석)을 자신의 사업을 혁신하는 새로운 도구로 활용해 비즈니스를 혁신하는 것을 말한다.
디지타이징 비즈니스에는 총 7가지의 유형이 존재하는데 이번 아티클에서는 기존 시장에서의 비즈니스 유형 구분 4가지를 중점적으로 다뤘다. 유형 1은 생산성 향상이나 이상 탐지 등으로 운영 효율을 높이는 유형이다. 유형 2는 매출 증대의 목적으로 예측이나 최적화를 하는 형태다. 유형 3은 축적된 분석적 역량을 서비스화해 개별적으로 컨설팅하는 형태다. 유형 4는 아예 이런 서비스를 종합적으로 제공하는 플랫폼을 만들어서 다수의 고객에게 동시에 서비스를 제공하는 유형이다.



편집자주

4차 산업혁명의 중심에 빅데이터가 자리 잡고 있습니다. ‘혁명적인 변화’가 일어나고 있는 만큼 리더십 자체도 혁명적으로 변화해야 합니다. 국내 최고의 빅데이터 전문가인 김진호 교수와 영업혁신의 대가 최용주 교수가 ‘빅데이터 리더십’을 통해 새로운 리더십 해법을 제시합니다.



IT에서의 지난 10년은 사람들이 일하는 방식을 변화시키는 것과 관련됐다. IT에서의 다음 10년은 당신의 비즈니스를 변혁하는 것과 관련될 것이다.

- 애론 리비 Box 회장


20230621_113109



데이터 분석의 단계

4차 산업혁명과 빅데이터 시대의 5대 핵심기술은 소셜미디어, 모바일, 사물인터넷, 클라우드, 빅데이터 분석(기계학습)이다. 이 기술들은 제각기 독립적으로 작용하는 것처럼 보여도 실제로는 서로 다양하게 결합하면서 넓게는 글로벌 수준에서, 좁게는 우리의 소소한 일상생활에까지 엄청난 영향을 주고 있다. 다시 말해서 이 5대 기술들은 다양하게 조합하면서 사람들이 일하고, 놀고, 먹고, 공부하고, 여행하고, 쇼핑하고, 의사소통하고, 사회활동하고, 사업하는 방식을 변혁시키고 있다. 이제 모든 산업에서, 모든 기업이 예외 없이 그 영향력 안에 놓여 있다. 기업이 이런 변화에 적극적으로 대응하기 위해서는 ‘디지타이징 비즈니스(digitizing business)’로 자신의 사업을 혁신해야 한다. 디지타이징 비즈니스란 빅데이터 시대의 5대 핵심기술을 자신의 사업을 혁신하는 새로운 도구로 활용해 비즈니스를 혁신하는 것을 말한다. 이제 기업은 사업의 어느 영역에서, 5대 핵심기술 중에서 어떤 기술을 어떻게 결합해 도입함으로써 혁신을 이룰 것인지를 끊임없이 고민하고 시도해야 한다. 그렇지 않으면 가만히 앉아서 적극적으로 빠르게 대응하는 경쟁자들이 앞서가는 것을 지켜볼 수밖에 없다.

이번 글에서는 디지타이징 비즈니스의 유형과 사례를 다룬다. 디지타이징 비즈니스의 유형을 설명하기 전에 우선 기업 내에서 수행되는 데이터 분석을 심층적으로 구분해 보자. 기업이 경쟁우위 확보·유지를 위해서는 데이터 분석을 통해 효율을 1∼2% 향상시키거나 비용을 1∼2% 감소시켜주는 현명한 의사결정을 해야 한다. 그렇게 하려면 <그림 1>에서 제시된 바와 같이 사업과 관련한 6가지의 근본적인 질문에 대한 통찰력을 데이터 분석으로부터 추출해야 한다.

20230621_113115


어떤 일이 어디에서, 얼마나 많이 일어났는지에 대한 관찰과 보고는 대부분의 기업에서 일상적으로 행해지는 보고에 포함돼 있다. 하지만 그 사건이 왜, 어떻게 일어났는지에 대한 분석은 일부 기업에서만 행해진다. 2015년 가트너의 조사결과에 따르면, 리스크를 줄이기 위해서 현재 무슨 일이 일어나고 있는지를 탐지해 실시간으로 대응하고자 하는 분석은 약 30% 정도의 기업에서 행해진다. 이런 데이터 분석을 하지 않는 기업은 그동안의 경험과 감을 바탕으로 무슨 일이 일어나고 있는지를 추측하는 수준에 그치고 만다. 미래에 무슨 일이 일어날 것인지를 예측해 최선의 결과가 나오도록 최적화하는 분석은 10% 미만의 기업에서 수행된다. <그림 1>에서 오른쪽 위로 올라갈수록 분석의 난이도는 높아지지만 분석결과에서 얻을 수 있는 통찰력과 그에 따른 경쟁우위의 수준은 더욱 높아진다.

사실 이 6가지 질문은 과거, 현재, 미래 시점에 입각한 분석으로서 분석의 연장선(continuum) 측면에서 볼 때 단계적으로 수행되는 특성을 갖는다. 즉, 과거 데이터를 탐구해 무슨 일이 왜 일어났는지에 대한 모델링과 검증 없이는 현재에 벌어지는 이상(異狀)을 조기 탐지하거나 더 나아가서는 미래를 예측할 수 없다. 온라인 기업의 예를 들어 보자. 온라인 기업에서 중요한 것은 전환율(conversion rate)을 높이는 것이다. 전환율은 웹 사이트 방문자가 제품 구매, 회원 등록, 뉴스레터 가입, 소프트웨어 다운로드 등 웹 사이트가 의도하는 행동을 취하는 비율을 말한다. 기초적인 분석은 우선 전환율이 언제, 어디서, 얼마나 일어나고, 그 추세가 어떠하며, 무엇인 문제인지를 확인하는 것이다. 그다음엔 그런 전환율의 결과가 왜, 어떻게 해서 일어났는지를 여러 설명변수들로 추정하고 다양한 모델(기계학습 알고리즘)을 적용해 그 관계를 규명한다. 이런 분석 결과는 전환율이 특정 범위를 벗어나서 평소와는 다른 이상(異狀) 상태로 변화하는 경우 이를 즉각 탐지해 실시간으로 대응할 수 있도록 한다. 다음 단계에서는 이런 추세가 계속될 경우 미래에는 전환율이 어떻게 변할 것인지를 예측하고 주어진 현실의 제약조건하에서 전환율을 최대로 하기 위한 조치(action)를 최적화한다.

데이터 분석을 기업 전체의 시각에서 분석 목적, 데이터, 인적 판단의 개입 정도, 의사결정과 액션에 이르는 과정을 시각화하면 <그림 2>와 같다.1

20230621_113122


기업에서 수행하는 데이터 분석의 목적은 연구자에 따라 다양하게 구분한다. 예를 들어 사업적 의사결정 지원, 비용 절감, 시간 절약, 새로운 제품개발과 서비스 제안으로 구분하기도 하고,2 생산성 향상, 발견에 의한 문제 해결, 의사결정 향상, 새로운 가치창출로 구분하기도 하며,3 비용 절감, 수율 향상, 매출 증대, 효과적 의사결정으로 나누기도 한다.4 사실 기업 내에서 데이터 분석의 목적은 현안 문제를 해결하거나, 새로운 문제를 발견해서 풀거나, 더 나은 의사결정으로 일을 해서 성과를 높이거나, 고객에 대한 이해를 높여서 서비스를 개선하거나(매출을 늘리거나), 새로운 매출을 일으킬 수 있는 상품이나 서비스를 개발하는 것이다. 이는 운영효율 향상과 매출 증대의 목적으로 크게 구분할 수 있다. 이 글에서는 <그림 2>의 맨 왼쪽에 제시한 바와 같이 운영효율 향상의 목적으로 생산성 향상과 리스크 감소(이상탐지)로, 매출 증대 목적으로는 기존 매출 증대와 새로운 매출 창출로 구분했다.

분석을 구체적으로 시작하려면 우선 기업 내부에 어떤 데이터가 있는지를 확인해야 한다. 명확히 정의된 어떤 데이터가, 어느 기간만큼, 어느 정도 정제돼 있는지, 품질은 좋은지 등을 체크하는 것이 중요하다. 또한 기존에 POS, CRM, ERP 등을 통해서 보유하고 있는 데이터 외에도 센서나 RFID 등을 활용해 어떤 데이터를 추가로 수집할 수 있는지도 확인해야 한다. 내부 데이터에 다양한 원천(source)에서 제공되는 외부 데이터를 합치면(mash up) 더 높은 수준의 인사이트를 추출할 수 있다. 그러므로 내부 데이터와 관련된 어떤 외부 데이터가 획득이 가능하고, 이를 어떻게 기존 데이터와 ‘매시업’ 할 수 있는지도 확인해야 한다. <그림 2>의 왼쪽에서는 분석 목적과 그에 따른 데이터 확인의 순서로 단계를 나타냈다. 하지만 이는 편의상으로 나타낸 순서일 뿐이다. 실제로는 그 반대의 순서, 즉 구체적인 분석의 목적 없이 먼저 데이터 확인하고 탐색하는 과정에서 현상을 이해하고 문제를 발견해 이를 해결하고자 구체적인 분석을 진행하는 경우도 많다.5



디지타이징 비즈니스 유형

앞서도 설명했듯 디지타이징 비즈니스는 빅데이터 시대의 5대 핵심기술을 활용해 자신의 사업을 혁신하는 것이다. 디지타이징 비즈니스의 유형은 어떻게 구분할 수 있을까? 이 글에서는 우선 자신의 비즈니스에서 혁신하는 것과 새로운 비즈니스에 진출하는 것으로 나눴다. 그다음에 다시 이 두 가지 유형의 혁신을 위해 활용 혹은 개발하는 기술의 난이도에 따라 각각 여러 유형으로 세분했다. <그림 3>은 이러한 구분을 시각화한 것이다.

20230621_113128


먼저 기업이 현재 사업을 하고 있는 기존 시장(그림 하단)에서는 디지타이징 비즈니스를 4개 유형으로 구분했다. 데이터 분석을 활용하는 영역이 자신의 시장에서 산업 전체로, 개별적인 컨설팅 서비스에서 다수를 상대로 한 플랫폼 구축으로 확대되는 과정을 나타낸 것이다. <그림 3>의 윗부분에서는 데이터에 기반해 새로운 시장에 신생 기업으로 진출하는 유형을 3개로 구분했다. 데이터가 의사결정에 활용되려면 관련된 데이터가, 정확한 데이터가, 의사결정에 즉각 활용할 수 있도록 적시에 존재해야 한다. 이 세 가지 특성 중에서 특히 적시성 때문에 문제가 되는 경우가 많다. 데이터 수집에는 시간이 걸리기 때문이다. 그러므로 고객에게 필요하다고 생각되는 데이터를 미리 수집해서 정리해 놓으면 그것을 고객이 필요로 하는 시점에 판매할 수 있는 기회가 생긴다. 다음 단계로는 그 데이터뿐만 아니라 그 데이터를 갖고 고객이 수행하게 될 분석을 미리 고려해 아예 필요한 분석(인공지능)까지 추가해서 서비스를 제공할 수도 있다. 심지어는 이런 서비스를 종합적으로 플랫폼화해 다수의 고객에게 동시에 서비스할 수도 있다. 지면 관계상 새로운 시장(벤처기업)의 디지타이징 비즈니스 유형과 사례에 대해서는 다음 글에서 다루기로 한다.

우선 기존 시장에서의 디지타이징 비즈니스 유형을 보자. <그림 3>에서 보이는 유형 1은 생산성 향상이나 이상 탐지 등으로 운영효율을 높이는 유형이다. 유형 2는 매출 증대의 목적으로 예측이나 최적화를 하는 수행하는 형태다. 유형 1과 유형 2는 이미 앞에서 제시한 <그림 2>에 해당한다. 기업은 유형 1과 유형 2의 디지타이징 비즈니스 과정에서 해당 문제에 대한 분석적 역량이 축적되면 이를 활용해 다른 기업의 유사한 문제도 해결할 수 있는 컨설팅 서비스를 할 수 있다. 기업이 축적된 경험과 역량을 해당 산업에서 새로운 사업의 기회로 활용할 수 있게 되는 것이다. 유형 3은 축적된 분석적 역량을 서비스화해 개별적으로 컨설팅하는 형태다. 유형 4는 아예 이런 서비스를 종합적으로 제공하는 플랫폼을 만들어서 다수의 고객에게 동시에 서비스를 제공하는 유형이다. 유형 1에서 유형 4로 발전하는 과정을 구체적인 사례로 설명해보자.6

국내 최대의 닭고기 전문 기업인 하림은 530여 개의 직영 및 계약 농장에서 연간 2억 마리의 닭을 키워낸다. 농장에 병아리가 들어오면 대개 30일 정도 사육한 후 일괄적으로 트럭에 실어 출하한다. 하지만 2000년대 이후부터는 수요처들이 까다로워져서 세세한 무게 조건을 달기 시작했다. 예를 들어 학교 급식에서는 1.7㎏ 이상, 프랜차이즈 업체는 1.5∼1.6㎏, 두 마리씩 한 세트로 파는 업체에서는 1.1∼1.2㎏의 조건을 요구한다. 이 무게 기준에 미달하거나 초과하는 경우에는 닭을 해체한 후 부위별 판매해야 하기 때문에 제값을 받지 못한다. 따라서 사육 중인 닭의 정확한 무게 예측이 매우 중요하다. 무게가 기준에 미달하거나 초과해서 마리당 200원의 가격 손실을 본다고 할 때 연간 출하량의 10%인 2000만 마리가 규격에 맞지 않는다면 연간 손실은 무려 40억 원이나 되는 것이다. 하지만 지금까지는 닭 무게의 측정과 예측은 비효율적이고 부정확했다. 사람이 일주일 정도마다 전체 닭의 1% 정도를 샘플로 잡아 일일이 무게를 측정한 뒤 평균 무게를 추정했고, 출하에 임박해서는 매일 저울에 달아보며 무게를 예측했다. 더욱이 무게 측정을 위해서 사람들이 농장에 사람이 자주 들락거리는 것은 닭에게 스트레스를 가중시켰다. 하림은 정확한 무게 예측을 바탕으로 최적의 출하 시기를 결정하기 위해서 한 시범농장에 사물인터넷을 도입했다.

‘501 양계농장’은 하림의 직영 농장으로 전북 김제시 백산면에 있는데 총 5개 동(棟)에서 연 100만 마리를 키워낸다. 이 농장에는 닭들의 움직임을 추적하는 적외선 CCTV, 닭이 물을 마시려고 올라설 때마다 10분의 1초 간격으로 무게를 재는 센서, 온도와 습도·벤젠·톨루엔·먼지를 각각 측정하는 센서, 이러한 데이터를 실시간으로 전송하는 무선통신 장비가 설치됐다. 이렇게 해서 중앙분석센터에는 매일 86만4000개의 데이터가 축적됐고 이를 분석해 닭들의 체중 증가 추이, 10g 단위의 무게 분포와 평균 무게를 정확하게 예측할 수 있게 됐다. 센서를 이용한 측정, 데이터 무선 송신, 데이터 분석을 통한 예측 등 사물인터넷의 기본적인 틀을 농장에 적용함으로써 언제, 몇 ㎏의 닭을, 몇 마리나 출하할 수 있는지 정확하게 예측해서 출하할 수 있는 스마트 농장을 구현한 것이다. 더욱이 농장의 온도·습도를 비롯해 벤젠·톨루엔·분진 등의 환경요소와 닭 체중의 증가 추이를 함께 분석함으로써 닭 폐사를 방지하고 닭들을 건강하고 빠르게 키울 수 있는 사육환경의 최적화 매뉴얼도 만들 수 있었다. 이렇게 유형 1과 유형 2를 통해 농장의 효율과 매출이 증대됐는데 이 시스템을 다른 농장으로도 확산하려는 하림의 계획은 당연히 예상되는 수순이다.

유형 3으로는 어떻게 발전될까? 하림이 이런 농장 혁신과정을 전체 농장으로 확산하면서 축적하는 경험과 데이터, 그리고 하드웨어와 분석 솔루션은 기업으로 하여금 이런 서비스나 관련 제품을 판매할 수 있는 기회를 제공한다. 예를 들어 하림은 농장에서 축적된 데이터와 경험을 바탕으로 닭 농장의 최적 사육환경에 대한 컨설팅 서비스를 제공할 수도 있다. 컨설팅 서비스를 받으려는 농장이나 기업은 물론 특수 저울, 전용 센서, 무선통신 패키지 등의 필요 장비들을 구입해서 서비스를 받을 수 있다. 유형 4로 발전하는 것은 그다음 단계다. 즉 이런 서비스에 대한 수요가 많아지면 일일이 개별적으로 컨설팅하는 대신에 고객들이 원하는 다양한 서비스와 분석 솔루션이 합쳐진 플랫폼을 개발해 다수의 농장이나 기업에 동시에 서비스할 수 있는 것이다. 서비스를 원하는 고객들이 필요 장비를 구매해 농장에 설치하면 데이터는 무선으로 중앙분석센터로 송신되고 플랫폼에서 자동적으로 분석된다. 고객들은 웹이나 앱으로 이 플랫폼에 접속해 원하는 서비스의 결과를 언제 어디서든 쉽게 제공받거나 확인할 수 있다.



윌 스미스, 심야버스, 나이팅게일의 공통점

빅데이터 분석은 일반적으로 자료의 수집, 처리, 분석이 매우 복잡하다. 그러나 빅데이터에서 중요한 것은 ‘빅’도 아니고 ‘데이터’도 아니라 데이터에서 인사이트를 추출해 의사결정에 활용하고자 노력하는 것이다. 많은 경우에는 수집된 데이터를 잘 정리한 결과만으로도 인사이트를 쉽게 찾아내서 문제 해결에 활용할 수 있다. 몇 개의 간단한 사례를 들어보자. 영화배우 윌 스미스는 래퍼로 시작해서 TV 탤런트를 거쳐 지금은 영화계를 주름잡는 최고의 스타로 활약하고 있다. 2009년에 경제 전문지인 <포브스>는 전 세계 영화전문가를 대상으로 1400여 명의 할리우드 배우들의 흥행성(star currency)을 조사했다. 투자 매력도, 박스 오피스 성공 가능성, 매스컴 화제성 등의 다양한 속성을 평가한 결과, 만점(10점)을 받은 유일한 배우가 윌 스미스였다. 우리가 잘 아는 최고의 스타들인 조니 뎁, 리어나도 디캐프리오, 앤젤리나 졸리, 브래드 피트가 9.89점으로 공동 2위를 차지했으며, 톰 행크스, 조지 클루니, 덴절 워싱턴, 맷 데이먼, 잭 니컬슨 등이 20위권에 랭크됐다. 사실 윌 스미스는 영화에 본격적으로 데뷔할 때부터 엄청난 성공을 거뒀다. 어떻게 해서 그는 영화를 시작할 때부터 최고의 성공가도를 달릴 수 있었을까? 윌 스미스는 데이터를 수집해 간단히 정리함으로써 매우 성공적인 성과를 낼 수 있는 방향을 찾았던 것이다.

1980년 중반에 프레시 프린스(The Fresh Prince)란 이름의 래퍼로 시작한 윌 스미스는 1990년에 NBC에서 자신의 이름을 딴 시트콤(The Fresh Prince of Bel-Air)에 출연해 큰 성공을 거뒀다. 1996년에 본격적으로 영화에 진출하고자 마음먹은 윌 스미스가 제일 처음 한 것은 흥행에 성공한 영화의 데이터를 분석해 성공의 패턴을 찾으려 한 것이었다. 그는 최근 10년 동안 박스오피스에서 최고의 흥행을 거둔 영화 10편을 고른 다음 영화의 내용을 분석했다. 분석이란 데이터를 수집, 정리해 그 속에 숨은 일관적인 패턴을 찾는 것이다. 그가 찾아낸 흥행 성공의 패턴은 최고 흥행 영화 10편은 모두 특수효과를 썼고, 9편에는 외계생명체가 등장했으며, 8편에는 러브스토리가 있다는 것이었다. 이런 분석을 바탕으로 그가 선택해 출연한 영화는 인디펜던스데이였고 그다음은 맨인블랙이었다. 두 영화 모두 외계인이 등장하고 최고 수준의 특수효과로 꽉 차 있다. 이 두 영화는 전 세계적으로 무려 약 13억 명의 관객을 끌어모았다. 이런 폭발적인 성공은 그 후에도 계속 이어져서 미국 내에서는 연속으로 8편이 1억 달러 이상의 수익을 냈고, 국제적으로는 연속적으로 11편의 영화가 1억5000만 달러 이상의 수익을 내면서 윌 스미스는 기네스북 기록에도 올랐다. 지금까지 그가 출연한 21편의 영화 중에서 1억 명 이상의 관객을 모은 영화가 17편, 5억 명 이상이 관람한 영화는 5편이며 동원한 총관객 수는 무려 66억 명에 달한다. 윌 스미스는 간단한 분석으로 잘 시작한 덕분에 이제는 액션, 코미디, 드라마 등 장르에 관계없이 순전히 그의 이름 하나로 많은 관객을 끌어들일 수 있는 최고의 흥행 배우가 됐다.



서울 시민들이 가장 불편해 하는 것은 무엇일까? 시민들의 불만이 가장 높은 문제는 ‘심야에 택시 잡기가 어렵다’는 것이다. 버스나 지하철 등 대중교통 수단이 없는 심야 시간대에도 여러 가지 이유로 장거리를 이동해야 하는 시민이 적지 않지만 이 시간대의 유일한 이동수단인 택시는 손님들의 목적지에 따라 승차 거부를 하는 등의 횡포가 심했다. 이런 불편을 해소하기 위해서 서울시가 심야버스를 도입하자 회식, 야근 등으로 늦게 퇴근하는 직장인들은 물론 대리기사, 수험생, 청소원 등 심야에 이동하는 사람들은 안성맞춤 서비스라며 폭발적으로 반응했다. 이제는 심야버스가 심야의 독점적 교통수단인 택시의 횡포를 따돌리며 ‘서민의 발’ 노릇을 톡톡히 하고 있다. 서울시 심야버스의 성공에는 데이터 분석을 활용한 노선 선정이 가장 큰 역할을 했다. 처음에 심야버스를 도입하기로 했을 때는 노선을 결정하기가 쉽지 않았다. 대중교통이 끊긴 심야에 사람들이 많이 모여 있는 곳은 금방 파악이 되지만 그곳에서 이 사람들이 어디로 갈 것인지는 파악하기 어려웠기 때문이었다. 이를 해결하기 위해 서울시는 KT와 MOU를 맺고 우선 자정부터 새벽 5시까지 심야 시간대에 사용한 휴대폰 콜 데이터 30억여 건과 시민들이 스마트카드를 이용한 심야택시 승하차 데이터 500만 건을 분석했다. 구체적으로는 서울시를 반경 1㎞의 육각형 셀로 구분한 후 1250개의 각 셀에서 심야 시간에 전화한 위치와 전화받은 위치를 분석해 통화 강도를 색깔로 표시한 뒤 진한 색깔을 연결해서 최적의 심야버스 노선과 배차 간격을 결정했다.

나이팅게일 사례를 보자.7 나이팅게일은 1854년 크림전쟁(Crimean War)의 참상에 자극받아 자신이 직접 모집한 38명의 자원봉사자와 함께 터키의 영국군 야전병원으로 갔다. 그곳에 도착한 나이팅게일은 병원의 끔찍한 상황에 크게 놀랐다. 야전병원의 많은 환자들이 전장에서 입은 부상 때문이 아니라 야전병원에서 다른 질병에 감염돼 죽어 나갔기 때문이었다. 나이팅게일이 도착한 1854년 겨울에는 병원에 입원한 환자의 사망률이 무려 43%에 달했다. 그녀는 이런 상황을 개선하고자 발 벗고 나섰다. 그 당시는 질병의 원인이 되는 세균이 발견되기 전이었고 간호학이라는 전공이 시작되기도 전이었기 때문에 나이팅게일이 참고할 자료는 전무했다. 그녀는 질병이 병원의 더러운 위생시설, 각종 악취, 지저분한 환경 때문에 발생하는 것으로 판단해 병실을 깨끗이 청소했고, 뜨거운 물이 나오는 세탁실을 만들었다. 또한 그녀는 이 문제를 해결하는 데 데이터 분석을 이용할 수 있다고 생각해 체계적으로 자료를 기록, 수집하기 시작했다. 당시 병원의 관리는 형편없는 지경이어서 입원, 치료, 질병, 사망 원인 등이 제대로 기록되지도 않았고 심지어는 사망자 수조차도 정확하게 기록되지 않았다.

나이팅게일은 체계적인 측정을 위해 세계 최초로 의무기록표를 만들어 입원 환자 진단(부상 내용), 치료 내용, 추가 질병 감염 여부, 치료 결과(퇴원 혹은 사망 원인) 등을 매일 꼼꼼히 기록하고 이를 월별로 종합해 사망자 수와 사망 원인을 기록했다. 나이팅게일은 이런 사실을 어떻게 하면 효과적으로 전달할 수 있을지를 고민했다. 당시에 영국에서는 여자들이 학교에 가는 것이 금지돼 있었다. 나이팅게일의 아버지는 그녀에게 직접 약간의 교육을 했다. 나이팅게일은 수학을 좋아했으며, 특히 숫자와 정보를 표로 일목요연하게 요약하는 것에 관심을 가졌다. 하지만 그녀는 숫자만으로 된 표는 흥미를 끌지 못해서 사람들이 표 속에 들어 있는 정보를 놓치기 쉽다는 점을 잘 알고 있었다. 나이팅게일은 사람들이 그녀의 데이터가 나타내는 사실을 쉽게 이해할 수 있기를 원했기 때문에 비위생적인 환경 때문에 발생한 불필요한 죽음을 시각적으로 나타내 주는 그림을 고안했다. 그녀의 독창적인 그림은 일종의 파이(pie)와 쇄기 형태의 그림을 응용한 것이었다. (그림 4) 요즘이야 이런 그림이 대단한 것이 아니지만 약 163년 전인 당시로써는 자료가 나타내는 사실을 시각적으로 극대화하는 신선하고도 놀라운 방법이었다. 나이팅게일은 이 그림에서 질병 원인별 사망률이 매달 어떻게 변화하는지를 여러 색깔을 써서 나타냈다. 그림에서 붉은색은 전장에서의 상처로 인한 사망을 나타낸다. 푸른색은 전장에서의 상처가 아닌 병원에서의 감염, 즉 예방이 가능했던 감염으로 인한 사망이었다. 나이팅게일이 제시한 그림은 병원에서의 감염 예방을 위한 위생개혁의 중요성을 명백하게 입증했고 논란의 여지가 없었다.


20230621_113137


나이팅게일은 동부지역 육군의 사망과 관련된 그림을 편지와 함께 계속 영국으로 보냈고 영국 신문은 이 그림이 명백하게 보여주는 충격적인 사실에 놀라 이를 대대적으로 보도했다. 사람들은 부상 군인들이 병원에서 치료되기는커녕 오히려 그곳에서 병을 얻어 사망한다는 사실에 경악했다. 사람들의 비난이 빗발치자 정부는 서둘러 특별조사단을 파견했고 병원의 위생개혁을 서두르는 등 대책 마련에 부심했다. 나이팅게일이 도착한 지 6개월 만에 사망률은 급격하게 감소하기 시작했고 나중에는 2% 정도로 떨어졌다. 2년 만에 전쟁이 끝나서 귀국했을 때 이미 유명 인사가 돼 있었다. 그녀는 이러한 명성을 바탕으로 세계 최초로 간호대학을 설립해 현대 간호학의 기초를 세우기 시작했다. 나이팅게일은 어떤 문제에 대해 자료를 수집하고, 표와 그래프로 만들어서 정리해 그 의미를 해석함으로써 문제를 해결할 수 있다는, 당시로써는 획기적인 생각을 한 사람이었다. 나이팅게일은 1858년에 전통 깊은 영국통계학회 최초의 여성 회원이 됐는데 이는 당시 영국에서 여성들은 학교에 갈 수 없었고, 나이팅게일은 아버지가 직접 교육했다는 사실을 고려하면 매우 파격적인 대우였다. 유명한 통계학자 피어슨(Karl Pearson)은 나이팅게일의 업적을 높이 사서 그녀가 응용통계학의 발전에 있어서 ‘예언자(prophetess)’였다고 칭송했다.



왜 발생했는가: 진단 분석

데이터에 대한 관찰과 보고 과정에서 어떤 일이, 언제, 어디서, 얼마나 발생했는지를 파악하면 무엇이 문제인지가 드러난다. 다음 단계는 그 문제가 왜 발생했는지를 규명하는(혹은 발견하는) 진단 단계다. 데이터 분석에서 진단은 가장 핵심적인 단계로 인식된다. 왜냐하면 이러한 진단의 결과는 현재 무슨 이상(異狀) 상황이 벌어지고 있는지를 탐지해 실시간 대응하는 데에, 또한 미래에 어떤 일이 벌어질 것인지를 예측해 최상의 결과가 나오도록 최적화하는 데도 활용되기 때문이다. 진단은 데이터 속에서 일관적인 경향을 나타내는 패턴을 잘 파악해 문제를 발생시키는 원인이나 상황을 찾아내는 것이다. 진단분석에서는 데이터 속을 파고들어 가서 원인을 발견하는 드릴다운(drill-down), 변수 간의 상관관계 분석, 통계적 모델링, 실험 등의 기법이 사용된다. 생각보다 손쉽게 원인을 파악할 수도 있고 복잡한 통계 모델을 적용하거나 실제로 실험을 해야 할 수도 있는 것이다. 각각의 예를 들어 보자.8  익스피디아(Expedia)는 미국의 대표적인 온라인 여행사로 호텔스닷컴, 트리바고(Trivago), 오르비츠(Orbitz) 등을 자회사로 두고 있다. 매달 수백만 명의 여행자들이 익스피디아에서 비행기와 호텔, 렌터카 등을 예약한다. 익스피디아는 이 흔적(데이터)을 혁신에 활용함으로써 데이터에 근거한(data-driven) 기업으로서의 전형적인 본보기가 되고 있다. 익스피디아처럼 규모가 큰 온라인 기업에서 가장 중요한 것은 전환율, 즉 웹사이트 방문자가 비행기나 호텔 등을 예약하는 비율을 높이는 것이다. 매달 수백만 명이 사이트를 방문하므로 전환율을 조금만, 예를 들어 0.2% 정도만 올린다고 해도 수백만 달러의 추가 매출을 달성할 수 있다.

익스피디아는 비행기나 호텔 예약의 전환율에 대한 기본적인 분석에서 중요한 사실을 파악했다. 고객이 비행기나 호텔을 선택하고, 여행과 요금 지불 정보를 채워 넣고, 마지막에 ‘지금 구매’를 클릭했는데도 예약거래의 일정 부분이 성공적으로 완료되지 않았던 것이다. 호텔 예약 거래의 마지막 단계에서 무슨 이유인지 몰라도 일정 부분의 매출을 놓치고 있는 것이었다. 예약 과정에서 ‘지금 구매’의 최종 단계까지 왔는데도 왜 고객 중의 일부가 예약을 포기했는지 그 원인을 밝혀야 했다. 익스피디아는 원인을 그 과정의 로그 파일과 웹 데이터를 사용해 심층 조사했다. 원인은 예기치 않게도 아주 간단한 것이었다. 고객 이름 아래에 있는 ‘회사(company)’ 항목이 문제를 일으키고 있었다. 어떤 고객은 그 ‘회사’가 자신들의 신용카드를 제공한 은행의 이름이라고 해석했고, 그래서 요금 청구 주소 항목에도 그 은행의 주소를 입력했다. 이 때문에 거래가 신용카드 처리기를 통과하지 못해서 실패했던 것이다. ‘회사’ 항목을 제거하자 익스피디아의 이익이 즉각적으로 1200만 달러나 증가했다. 이런 방식으로 익스피디아는 전환율의 최적화와 관련한 다양하고 소소한 문제를 파악할 때마다 지속적으로 원인을 탐색해 해결함으로써 상당한 재무적인 혹은 운영상의 이익을 낸다.

위의 사례와는 달리 왜 발생했나를 진단하는 분석에서 높은 수준의 계량적이고 통계적인 분석이 행해지는 경우가 대부분이다. 예를 들어 익스피디아에서 어떤 루트를 통해서 사이트에 접속한 고객이 온라인 거래로 이어지는 확률이 높은지를 조사하고 있었다. 사용한 분석 기법은 ‘생존 분석’의 콕스회귀분석(Cox regression, 원래는 일정 기간이 지난 후에 어떤 환자는 사망하고, 어떤 환자는 사는지를 규명하기 위해 사용한 기법)이었다. 어떤 마케팅 노력이 실제로 판매로 이어지는지에 대해 기존의 모형(회귀분석 혹은 군집분석)은 맞는 해답을 전혀 제시하지 못했다. 생존분석기법으로 고객들의 복잡한 유입경로를 분석한 결과, 익스피디아는 마케팅 노력과 실제 판매와의 관계를 적절하게 파악해 마케팅 비용의 효율성을 높일 수 있었다.

20230621_113146


어떤 일이 왜 발생했나를 진단하기 위해서 실제적이고 타당한 실험을 할 수도 있다. 특히 웹사이트에서는 실험을 하는 것이 매우 쉽기 때문에 일상적으로 행해진다. 익스피디아에서의 한 사례는 호텔, 유람선, 렌터카의 온라인 예약에서 변경/취소 벌금의 폐지와 관련한 간단한 실험이었다. 2009년까지 익스피디아와 경쟁사들은 모두 변경 혹은 취소에 대해 30달러까지의 벌금을 부과했다. 호텔이 부과하는 벌금보다 훨씬 많은 금액이다. 익스피디아와 다른 온라인 예약사들의 요금은 호텔에 직접 예약하는 것보다 훨씬 낮았기에 고객들은 변경/취소 벌금을 감수하려 했다. 그러나 2009년경에는 익스피디아의 요금이 호텔 요금과 비슷해져서 편리함만이 익스피디아의 주된 매력이 됐다. 이제 변경/취소 벌금은 장애로 인식되기 시작했다. 소비자 만족도 조사를 보면 벌금을 지불해야 했던 고객들의 만족도가 특히 낮았다. 익스피디아 콜센터의 직원들은 단 한 가지 이유, 즉 고객 가족의 사망에 대해서만 변경/취소 벌금을 면제할 권한이 주어졌다. 면제 빈도를 조사했더니 지난 3년 동안 면제가 크게 증가한 것으로 나타났다. 죽음의 전염병이 돌았다기보다는 고객들이 변경/취소 벌금을 내지 않을 방법으로 그 이유를 사용했던 것이다. 익스피디아 경영진은 시장이 변했음을 깨달았다. 하지만 변경/취소 벌금은 수익의 상당한 부분을 차지했다. 익스피디아는 벌금을 폐지하면 전환율(판매 완료율)이 증가할 것인지를 데이터를 통해서 확인해야 했다. 2009년 4월에 익스피디아는 한 달 동안 벌금을 임시로 면제하는 실험을 했는데 즉각적으로 판매 완료율이 상당히 높아졌다. 익스피디아는 벌금을 폐지할 충분한 증거가 확보됐다고 생각해 이를 폐지했고 뒤이어 다른 회사들도 따랐다.



직원들의 성과 차이가 왜 일어나는가?

그동안 데이터의 측정과 활용이 상대적으로 어려웠던 인사관리 분야는 대부분의 의사결정이 직관과 감, 혹은 사람들 간의 관계에 의해서 이뤄져 왔다. 하지만 빅데이터 시대에 인사관리 역시 다양한 영역에서 데이터에 근거해 문제를 해결하고자 하는 노력이 활발해지고 있다. 구글의 예를 들어 보자.9  세계 최대 인터넷기업 구글은 현재 70여 개국에 지사를 두고 있고 미국에서 일하는 직원만도 약 5만5000여 명에 달한다. 빅데이터를 다루는 대부분의 핵심 기술을 선도하고 있는 구글은 그 명성에 맞게 모든 문제를 데이터 분석적으로 해결하고자 하는 조직문화를 자랑하고 있으며 인사관리 분야에서도 예외는 아니다. 구글은 1년에 두 번 직원들을 평가하는데 직원들 간에 성과 차이가 왜 일어나는지에 주목했다. 이런 원인을 규명한다면, 즉 성과에 영향을 미치는 개인적인 특성을 파악한다면 교육, 임금 체계 수립, 경력 관리뿐만 아니라 직원 채용에도 효과적으로 활용할 수 있기 때문이었다.

구글은 우선 직원들의 경험과 인성에 있어서 어떤 요소들이 그들의 성과와 관련성이 높은지를 알아내고자 했다. 그래서 구글에서 최소한 5개월 이상 근무한 모든 직원들에게 300개의 설문 문항에 응답하도록 했다. 이 설문 문항을 보면 많은 문항이 사실에 관한 것이다:



● 당신이 익숙한 프로그램 언어는?

● 당신이 등록한 인터넷 메일은?

● 급식사업, 개 산책, 가정교사 등과 같은 비기술적인 부업으로 돈을 번 적이 있는지?

● 어떤 부문에서 (주, 국가, 혹은 세계) 기록을 수립한 적이 있는지?

● 비영리조직이나 클럽을 만든 적이 있는지?



일부 문항은 인성에 관한 것도 있으며(예를 들면 내성적인지 아니면 외향적인지, 혼자서 일하는 것을 좋아하는지 아니면 집단으로 일하는 것을 선호하는지), 인사 부문의 전통적인 분류에 넣을 수 없는 문항도 있다(예를 들면 어떤 애완동물을 기르는지? 동료들과 비교해서 자신이 컴퓨터에 처음 흥분했던 때의 나이가 얼마나 빠른지(혹은 느린지). 이 문항에 대한 모든 직원들의 응답은 그들의 고과 평정과 비교됐다. 구글의 고과 평정은 25개 영역으로 구분됐는데 상사평가, 동료평가 등 전통적인 척도 외에도 조직 시민행동(organizational citizenship)과 같이 독특한 영역도 있었다. 조직시민행동은 예를 들어 직무기술상으로는 자신의 업무가 아니지만 구글이 더 나은 직장이 되는 데 기여한 행동, 예를 들면 구글 지원자에 대한 면접에 참여하는 것 등을 말한다. 구글은 이런 과정을 거쳐서 수집한 200만 개의 데이터를 분석해 엔지니어링, 세일즈, 재무, 인사 등 여러 영역에서 직원들의 성과와 관련이 높은 요소들을 찾아낼 수 있었다. 그리고 이런 결과는 직원교육, 경력관리, 직원 채용 등에 유용하게 활용되고 있는데 그중에서 직원 채용에 적용되는 사례를 보자.

어느 조직에서나 우수한 인재 채용의 중요성을 새삼 강조할 필요는 없다. <좋은 기업을 넘어 위대한 기업으로(Good to Great)>의 저자 짐 콜린스 교수는 ‘먼저 사람, 그다음이 해야 할 사업(First who, then what)’이라는 말로 인적자원의 중요성을 강조했다. 그러하기에 많은 기업들은 자신들에게 적합한 인재를 채용하기 위해서 매년 많은 시간과 비용을 투자해 공채시험을 진행한다. 구글은 최고 수준의 연봉과 자유롭고 수평적인 조직 문화 등으로 ‘신의 직장’이라 불릴 정도다. 특히 놀이터 같은 일터, 안락한 사무실, 유기농 식단으로 구성된 양질의 세 끼 공짜 식사, 업무시간의 20%를 개인적으로 자유롭게 쓸 수 있는 ‘20% 룰’, 3개월간 월급 전액을 주는 유급 출산 휴가 등 구글의 직원복지는 상상을 초월한다. 구글은 경제월간지 <포천>이 선정한 ‘일하기 좋은 100대 기업’에 6년 연속 1위로 선정됐고, 전 세계 대학생이 뽑은 ‘가장 일하고 싶은 직장’에서도 1위를 차지했다.

구글의 채용 원칙은 처음부터 최고의 인재를 뽑는 것이다. 평범한 사람을 뽑아 교육·훈련시간을 들여 인재로 키우는 것보다 훨씬 효율적이기 때문이다. 하지만 매년 구글에 입사하기 위해 이력서를 내는 사람은 200만 명이 넘고 이 중 실제 구글에 들어가는 사람은 4000명 정도에 불과하다. 그렇다면 구글은 이 많은 지원자 중에서 어떻게 구글에 맞는 인재를 고를까? 만약 우리나라의 대기업들처럼 공채시험을 치른다면 매우 번거로운 절차를 거쳐야 하겠지만 구글은 공채시험 없이 직원들의 성과 진단에서 개발한 통계 모델로 해결한다. 구글은 온라인으로만 지원을 받는다. 예전에는 구글도 소위 스펙이라는 요소를 중요시했다. 예를 들어 지원 서류가 접수되면 우선의 학점 평균이 3.7 이하인 지원자는 아예 제외했다(광고나 마케팅 분야는 3.0 이상). 서류 전형을 통과해 면접 통보를 받은 지원자는 이후 2개월 동안 6∼7회의 반복 면접을 거친다. 하지만 구글은 학점과 면접이 지원자의 능력을 평가하는 데 신뢰할 수 있는 요소가 아니라는 것을 깨달았다. 기존 방식으로는 훌륭한 인재를 알아보지 못할 확률이 높았을 뿐만 아니라 급증하는 채용 수요에 맞춰 적기에 인재를 채용하는 데 어려움이 많았다. 구글은 수많은 지원자 중에서 구글에 맞는 인재를 찾기 위한 효율적이고 자동적인 방식이 필요했는데 그것이 바로 직원들의 성과 차이를 규명하기 위해 개발한 통계모델을 활용하는 것이었다. 이 모델을 적용하면 지원자들의 미래 잠재력, 즉 성과를 예측할 수 있기 때문이다. 모델 적용은 매우 간단하다. 지원자가 온라인에서 구글 지원용 설문지에 응답을 하면 그 지원자가 구글의 조직문화에 맞는 인재인지를 예측하는 점수가 0점에서 100점 사이로 계산돼 나온다. 구글은 이 점수를 바탕으로 면접 대상자를 쉽고 빠르게 선발한다. 일반 기업들은 구글이 하는 것들을 그대로 따라 하기는 쉽지 않다. 예를 들어 모든 회사가 업무시간의 20%를 개인적으로 자유롭게 쓰라든지, 3개월간 월급 전액의 출산 휴가를 줄 수는 없다. 하지만 구글을 성공으로 이끄는 원리를 복제해 활용하는 일은 어느 기업이나 시도할 수 있다. 특히 직원들에 대한 정보와 그들의 업무 성과와의 관계를 분석해 직원 교육이나 경력관리, 채용 등에 활용하는 방법은 다른 기업이나 조직에서도 얼마든지 응용할 수 있을 것이다.

이번 글에서는 기존 사업에서의 디지타이징 비즈니스 유형 중에서 진단분석 사례를 다뤘다. 다음 글에서는 이상탐지, 예측, 그리고 최적화의 사례를 설명할 것이다. 또한 축적된 분석적 역량을 서비스화해 개별적으로 컨설팅하는 유형 3과 아예 이런 서비스를 제공하는 플랫폼을 만들어서 다수의 고객에게 동시에 서비스를 제공하는 유형 4도 이어서 다룰 예정이다.



김진호 서울과학종합대학원 빅데이터 MBA학과 주임교수 jhkim6@assist.ac.kr
최용주 서울과학종합대학원 산학협력단장 yjc@assist.ac.kr

김진호 교수는 서울대 경영대를 졸업하고 미국 펜실베이니아대(Wharton School)에서 경영학 석사와 박사 학위를 받았다(통계학 부전공). 사회와 기업의 다양한 문제를 계량 분석적으로 접근하는 연구를 주로 했다. 저서로는 와 <빅데이터가 만드는 제4차 산업혁명>이 있으며 DBR에 ‘Power of Analysis’를 연재했다. 최근 알파고와 이세돌 9단과의 대국을 앞두고 많은 바둑 전문가들과는 달리 알파고가 5대0으로 완승할 것이라고 예측해 주목을 끌었다.
최용주 교수는 교수로서는 드물게 기업경영 성과에 직접적인 영향을 미치는 기능인 영업(Sales)에 대한 연구를 해왔다. 연구의 결과로서 <영업의 미래>라는 저서와 <영업혁신>을 발간했다. 최근 들어 ‘영업성과의 향상을 위한 빅데이터 활용에 관한 연구’를 진행하고 있다. 국내 제약회사 및 식품회사의 현장사업본부장 및 부사장, 컨설팅사 대표를 역임했다. 현재 서울과학종합대학원(aSSIST) 교수이자 산학협력단장으로 재직하고 있다.
인기기사