Management Science 2.0

데이터 분석 역량이 기업 경쟁력 좌우한다

67호 (2010년 10월 Issue 2)

 

 
편집자주 경영 현장에 수많은 수학자와 과학자들이 포진해 있습니다. 이들은 전략, 기획, 운영, 마케팅 등 다양한 분야에서 첨단 수학·과학 이론을 접목시켜 기업 경쟁력 강화에 기여하고 있습니다. 경영 과학은 첨단 알고리즘과 데이터 분석 기술로 기업의 두뇌 역할을 하면서 경영학의 새로운 분야를 개척해나가고 있습니다. <경영학 콘서트>의 저자인 장영재 박사가 경영과학의 새로운 패러다임을 소개합니다.
 
 
구글 창업주의 파킨슨병 그리고 23andMe
2008년 9월 18일. 래리 페이지와 함께 구글을 창업한 세르게이 브린은 개인 블로그에 LRKK2란 제목의 글을 올렸다.1  이 글은 순식간에 뉴욕타임스 등에 실리며 세간의 이목을 끌었다.2 LRKK2란 대체 무엇이며 왜 그토록 세상을 떠들썩하게 했을까? 브린은 이 글에서 자신이 퇴행성 질환인 파킨슨병에 노출돼 있다고 담담하게 밝혔다. LRRK2는 파킨슨병의 돌연변이가 발견된 유전자 이름이다. 파킨슨병은 중국의 지도자였던 덩샤오핑과 영화배우 마이클 제이폭스, 권투 챔피언 무하마드 알리가 앓고 있는 병으로 아직까지 정확한 발병 원인이나 치료법이 밝혀지지 않았다.
 
구글 왕국의 창조주이자 당시 미국의 손꼽히는 갑부인 브린이 이 미스터리한 병에 걸릴 가능성이 높아졌다는 사실 이외에도 관심을 끈 게 또 있었다.바로 23andMe라는 유전자 정보 분석 및 건강 정보 제공 회사였다. 이 회사는 브린의 아내이자 생명공학 투자 전문가인 앤 보이치츠키가 설립했다. 브린도 이 회사의 투자자들 중 하나이자 거액의 기부자다. 세계의 많은 자산가들이 자신이 앓고 있는 병의 연구를 위해 거액의 자산을 기부하는 경우는 많다. 그렇다고 23andMe에 투자한 브린에게 ‘의학 연구 기부=자신의 병마 퇴치’라는 단순 공식을 섣불리 대입할 수 있을까?
 
권위 있는 연구원들의 6년 vs. 연구방식 혁신 이끈 23andMe의 8개월
이 질문에 답하기 전에 23andMe 란 회사에 대해 좀더 알아볼 필요가 있다.권위있는 의학저널인 <NEJM(New England Journal of Medicine)>은 2009년 10월 파킨슨병과 고셔병(Gaucher’s disease)의 상관관계에 관한 연구결과를 실었다.3  이 연구는 16개 연구 기관에서 60명이 넘는 연구원이 참가한 대규모 프로젝트였다. 다른 어느 연구와 마찬가지로 이 연구도 가설 설립, 연구, 데이터 수집, 데이터 분석, 결과 도출, 논문 게재란 전형적인 연구 방식을 택했다. 연구를 완결하는 데 장장 6년이나 걸렸다. 그리고 연구 결과 이들은 마침내 파킨슨병을 가진 사람이 일반인에 비해 고셔병에 걸릴 위험이 5.4배나 높다는 사실을 도출해냈다.
 
그런데 23andMe는 같은 연구 결과를 불과 8개월 만에 밝혀냈다. 그리고 이 연구 결과를 영국에서 열린 왕립의학협회(Royal Society of Medicine)에 발표했다. 6년에 걸친 대하 드라마와 같은 논문을 비웃듯 말이다.4  과연 23andMe는 어떤 기술로 이렇게 신속한 연구 결과를 낼 수 있었을까? 해답은 바로 기존의 연구방식을 뒤집는 초대량 데이터의 패턴 분석에 있었다.
 

NEJM 에 게재된 전통적인 방식의 연구는 가설 설정, 연구, 그리고 데이터 수집, 데이터 분석, 결과 도출이란 과정을 거친다. 즉 “고셔병과 파킨슨병이 상관관계가 있을 것이다”라는 가설을 설정하고 이 가설을 증명하기 위해 무엇을 측정하고 관찰해야 할지를 연구한다. 이후 임상 환자를 대상으로 관련 데이터를 수집하고 통계를 이용해 가설이 맞는지를 분석한다. 만일 통계 분석결과가 이 가설을 뒷받침하지 못한다면, 또 새로운 가설을 새우거나 가설을 증명할 방법에 문제가 있는지 살펴보고 이후 가설과 증명 방식을 수정해 앞의 프로세스를 반복한다. 초기 가설이 맞고 또 이를 증명할 방식이 정확히 설정됐다면 단시간에 연구 결과를 도출할 수 있다. 하지만 그렇지 않으면 프로세스를 여러 차례, 심지어는 끝없이 반복할 수밖에 없다.
 
또 이런 전통적 연구방식에서는 데이터 분석이 초기 가설을 판단하는 이상의 가치를 지니지 않는다. 가설의 유무를 판별하는 방식을 통계에서는 가설검정(Hypothesis Test)이라 한다. 가설 판별의 개념에서는 데이터는 통계 분석을 위해 필요하고, 통계 분석은 가설 증명을 위해 존재할 뿐이다. 즉, 전통적인 방식에서 데이터의 가치는 초기 가설의 증명을 판별하기 위한 자료 정도에 그친다.
 
반면 23andMe는 기존의 연구 방식과 차별된 매우 혁신적인 방식을 취했다. 우선 가설 증명 중심 방식을 탈피해 데이터 패턴 분석에 중점을 뒀다. 이 새로운 관점에서는 가설 설정을 뛰어 넘는 데이터 수집 및 분석이 핵심이다. 또 기존 연구에서 실행하던 데이터 분석 규모가 훨씬 커져 23ansMe는 수천, 수만 명의 환자에 대해 가능한 모든 건강정보를 포괄적으로 수집해 대규모의 데이터 수집 및 분석을 실시했다.
 
이 연구에서 23andMe는 우선 고셔병이나 파킨슨병, 그 외 다른 질병을 앓고 있는 환자들의 유전자 정보를 대량으로 확보했다. 이후 이들에게 매우 세부적인 생활관련 설문조사를 실시해 대규모의 생활 및 건강 정보를 확보했다. 이들 데이터를 체계적으로 데이터베이스에 저장하고 이를 바탕으로 자체 개발한 데이터 마이닝프로그램으로 상관관계 분석을 실행했다. 대하 드라마와 같은 거대 프로젝트의 규모를 조롱하듯 23andMe의 데이터베이스 프로그램은 단 20분 만에 NEJM에 게재된 결과와 같이 고셔병이 있는 환자는 파킨슨병에 걸릴 확률이 5배나 높다는 사실을 찾아냈다.
 
23andMe의 발견은 단순히 고셔병과 파킨슨병의 상관관계뿐만이 아니었다. 대량의 데이터만 확보한다면 불치병 연구에 획기적인 혁신을 이룰 수 있다는 강력한 메시지도 함께 전달한 것이었다. 23andMe가 발견한 것은 인간의 유전자 정보뿐만이 아닌 기존 과학 연구 방식과 전통 통계의 태생적 유전자였다.
 
데이터의 가치: 귀중한 데이터 vs. 방대한 데이터
전통적인 연구방식은 인간 사상이 과학과 이성으로 무게중심을 옮기기 시작한 18세기에 뿌리를 두고 있다. 신의 섭리에 모든 것을 의지했던 것에서 벗어나 인간 스스로 자연의 섭리를 찾을 수 있다는 자신감을 던져줬다. 바로 실험을 통한 검증이란 방법을 통해서다. 신에 대한 맹신과 비이성에서 논리적인 이성과 차별화하는 기준으로 실험을 통한 가설이 제시된 것이다.
 
필요는 새로운 가치를 창조한다. 17세기 수학자 파스칼은 확률이론이라는 씨앗을 통계라는 이름으로 싹틔웠다. 가설을 수치적으로 검증하는 통계는 과학자들이 무당이나 주술사들과 맞서 싸울 수 있는 강력한 무기로 부상했다.
 
하지만 당시 과학자들은 실험에서 데이터 수집에 한계를 겪었다. 측정장비도 지금처럼 흔하지 않았고, 실험 환경을 조성하는 데도 많은 노력이 필요해서 충분한 데이터를 수집하는 게 어려웠다. 결국 데이터가 귀하다 보니 연구방식도 지금과는 달랐다. 가설을 먼저 세우고 이 가설의 증명에 필요한 데이터가 어떤 것인지를 명확하게 연구해 실험을 통해 데이터를 수집하는 방식이었다. 통계 방식 또한 이에 맞춰 방대한 데이터보다는 적은 양의 데이터로 가설 결과를 판별하는 방식이었다. 즉 전통 통계에서는 ‘데이터=귀하다’라는 가정이 자연스레 깔려 있었다.
 
반면 우리가 살아가는 21세기는 ‘데이터 홍수의 시대’다. 옛날처럼 환자들의 데이터가 귀한 시절이 아니라는 얘기다. 발달된 측정장비 덕분에 옛날보다 적은 노력과 비용으로 데이터를 수집할 수 있다. 더 나아가 정보 통신의 발달은 데이터의 공간적 시간적 제약을 없앴다. 미국 병원에 입원한 환자의 유전자 정보가 영국에 있는 연구원의 노트북으로 바로 검색할 수 있게 됐다. 23andMe는 이 새로운 정보의 시대에서 18세기 연구 방식을 고수할 필요가 없다는 것을 파악했다. 즉, 초기 가설에 의지하고 가설을 증명하는 등 데이터를 수동적으로 사용하는 방식을 탈피했다. 데이터를 중심으로 인간이 상상할 수 없었던 패턴을 발견하는 혁신적 21세기의 연구 방식을 시도한 것이다.
 
방대한 데이터 분석이 그려낸 패턴은 마치 연구자가 따라가야 할 지도와 같다. 이 패턴은 여러 산의 봉우리를 그리고 각 봉우리로 향하는 길을 제시해 준다. 지도 없는 산을 헤매며 이 산 저 산 올라가며 정상을 찾는 방식과는 확연히 다르다. 그렇다면 지도를 갖고 산을 오르는 자와 지도 없이 오르는 자 중 누가 더 최고봉에 빨리 오를 수 있을까? 6년과 8개월이라는 연구시간이 이 답을 대신해준다.
 
세르게이 브린의 23andMe투자는 단순히 자신의 병을 치료하기 위한 것이라기보다 데이터가 창조하는 새로운 패러다임의 문을 연 한 차원 더 큰 시각으로 바라봐야 한다. 데이터 분석으로 최고의 검색 서비스를 창조한 구글을 이젠 새로운 연구 혁명의 미래에 대한 투자라고 해석하는 게 더 바람직하다.
 


기업 현장에서의 데이터 분석: 생산성 높이고 오류 잡는다
데이터 패턴 분석은 기업 현장에서 유용하게 쓰일 수 있다. 지난해 초 필자는 협력 관계에 있는 반도체 공장에 운영상 문제가 발생했다는 소식을 접했다. 안정적인 생산에 중요한 역할을 담당하는 생산 장비의 생산율이 불안정해서 문제를 파악해달라는 요청이었다. 일반적으로 생산장비가 정상적으로 작동하면 생산량은 일정 수준을 유지한다. 그런데 문제의 장비가 생산하는 양은 매일 큰 폭으로 요동치고 있었다. 뭔가 문제가 있는 게 확실했다. 생산량이 균형을 유지하지 못하다 보니 공장 전체의 생산도 타격을 받았다. 결국 공장의 전체 생산량도 함께 오락가락하는 상황에 처했다.
 
무엇보다 큰 문제는 아무도 이 장비 문제의 정확한 원인을 찾지 못한다는 점이었다. 공장 안팎으로 관련 장비 전문가들과 장비 납품업체가 원인 파악에 나섰지만, 아무도 해결하지 못했다. 이들은 문제 해결을 위해 과거 경험과 노하우를 바탕으로 문제 원인이 될 만한 가설을 설정하고 이 가설 검증을 위해서 실험을 통해 기계에서 데이터를 추출하는 방식을 취했다. 이는 마치 과학자들이 실험을 하는 방법과 비슷했다. 나름 논리적인 방식임에는 분명했다. 하지만 가설을 증명하기 위한 실험을 하려면 장비 가동을 잠시 중단해야만 했다. 이는 생산율의 급격한 하락을 의미했다. 즉, 문제를 찾기 위해 또 다른 문제를 감수해야만 했던 것이다.
 
결국 몇 가지 가설을 검토하고 실험했지만 별 소득이 없었다. 그렇다고 더 이상 장비를 멈추고 실험할 수 있는 상황도 아니었다. 이미 여러 차례의 실험을 통해 생산율에 큰 타격을 입은 상황이었기 때문이다. 문제의 원인 분석을 위해 보다 획기적인 방법을 시도하면 안될 상황이었다. 그래서 필자가 선택한 카드가 바로 대량의 데이터를 이용한 패턴 분석이었다.
 
대부분의 반도체 장비는 장비 내부에 다수의 로봇이 작업을 수행하는 고가의 정밀 장비다. 초당 몇 번의 동작을 실행하는 고속 로봇이 사람 머리카락의 몇 분의 일에 불과한 정밀도로 반복된 작업을 수행한다. 하지만 이러한 첨단 장비란 위용에 걸맞지 않게 장비 내 데이터 관리 시스템은 다소 허술했다. 당시 이 장비는 작업 상황에 관련된 정보를 한 곳에 일목요연한 데이터로 보관하지 않고 있었다. 물론 장비 내부의 몇몇 중요한 상태 정보가 장비에 탑재된 데이터베이스에 저장은 되고 있었다. 하지만 이는 대부분 기계가 정상적으로 작동할 때의 상태를 보여주는 정보일 뿐이었다. 자동차와 비교하면 이들 데이터는 마치 자동차 계기판의 속도계, 연료량, 엔진 온도 등 자동차의 기본 상태만 보여주는 데이터 정도에 그쳤지, 장비에 무슨 문제가 있는지 판단하게 하는 세부 정보는 되지 못했다.
 
다행히 장비에 탑재된 소프트웨어를 간단하게 수정해 세부 정보를 취득할 수 있다는 사실을 파악했다. 필자는 이점에 착안해 기존의 가설과 실험을 통한 검증이란 문제해결 방식 대신 이 장비의 모든 데이터를 취합해 패턴 분석을 통해서 문제를 찾는 새로운 방식을 시도했다. 그리고 단지 장비 자체의 데이터뿐 아니라 이 장비에 영향을 미치는 공장의 물류 재고정보와 제품 반송 정보 등 다양한 생산 현황 정보를 함께 취득했다. 마치 23andMe가 환자의 유전자정보와 함께 설문조사로 환자의 다양한 건강관련 정보를 수집한 것처럼 말이다. 데이터베이스 전문가와 장비 납품 업체의 도움으로 데이터베이스를 셋업한 후 방대한 데이터를 수집했다. 이후 다양한 데이터 패턴을 분석했다.
 
결과는 기대 이상이었다. 우선 공장에서 모든 기계의 작업을 지시하는 중앙 작업 지시와 실제 기계가 수행하는 작업 순서가 서로 미세한 시차를 두고 어긋나는 패턴을 발견했다. 문제의 원인은 기계와 작업을 지시하는 통신에 있었던 것이었다. 비록 찰나의 오류지만 순식간에 수많은 작업이 이뤄지는 정밀 기계로서는 치명적인 결과로 이어질 수 있다. 그리고 실제 이 통신 에러와 장비 불안정과의 관계를 연관성 분석을 통해 찾을 수 있었다. 또 다른 원인도 발견됐다. 장비 내부 로봇의 움직임에 문제가 있었다. 같은 움직임을 반복해야 할 로봇이 특정 패턴을 두고 주기적으로 순간 정지했다. 물론 이 정지 상태는 수십 분의 일 초로 육안으로는 식별할 수 없지만, 수많은 동작 데이터를 함께 펼쳐보면 한눈에 문제점을 발견할 수 있다. 결국 통신 에러와 로봇 움직임의 오류가 장비 불안정의 원인이었던 것이다.
 
덤으로 이 데이터 분석을 통해 로봇 작업 움직임의 비효율도 파악했다. 장비 문제를 해결하고 더 나은 개선점을 찾을 방법도 알아낸 것이다. 이 분석 결과를 바탕으로 장비의 효율 개선 작업이 이뤄졌고 이는 수백만 달러의 비용절감으로 이어졌다. 이후 장비 데이터의 중요성을 새롭게 인식한 경영팀은 기계 데이터베이스를 공장 내 중요한 공정을 담당하는 대부분의 기계에 의무적으로 설치했다. 데이터 분석이 생산율 증대의 첫 걸음으로 인식되기 시작한 것이다.5
 
기업의 DNA 그리고 경영과학 2.0
정보기술(IT)산업의 발달로 대부분의 기업들은 불과 10년 전만 해도 상상할 수 없었던 상당한 수준의 정보 인프라를 갖추고 있다. 구글 창업자인 래리 페이지와 세르게이 브린은 창업 당시 자신들의 전 재산을 털어 수백 대의 하드드라이브를 구입하는 데 썼다고 회고한다. 하지만 당시 그들이 구입한 하드드라이브의 전체 용량은 요즘 몇 만 원에 구입할 수 있는 하드 드라이브 한 대보다 적은 용량이다. 그뿐인가? 10년 전 사진 한 장이 첨부된 메일을 전송하는 데 몇 분이나 소요되던 인터넷 속도는 이제 고화질(HD) 영화를 거의 실시간으로 전송할 수 있는 수준에 이르렀다. 이제 데이터의 시간과 공간의 한계는 사라졌다고 해도 과언이 아니다.
 
정보 인프라의 발전과 기업 내 전사적 자원관리(ERP)와 같은 사내 전산망의 보편화로 다양한 기업 활동의 정보가 기업 데이터베이스에 속속 저장·관리되고 있다. 또 고객의 구매 자료도 속속들이 기업 내 데이터베이스 공간에 채워지고 있다. 결국 기업 내 모든 기업활동을 고스란히 담고 있는 이 데이터는 다름아닌 ‘기업의 DNA’인 셈이다. 23andMe가 유전자 분석으로 개인의 질병 위험을 사전에 진단한 것처럼 기업의 경쟁력은 자사의 DNA를 분석해서 이를 경쟁력으로 어떻게 승화시키는지에 달려 있다.
 
유전 공학의 발달로 유전자 정보가 하나 둘씩 베일이 벗겨지고 있다. 여기에 발 맞춰 유전자 정보를 통한 새로운 패러다임의 신약 개발은 인류 불치병 치료에 새로운 희망을 선사하고 있다. 이제 기업 경영도 과학이다. 하지만 아직 일반 경영학에서 다루는 경영과학, 혹은 많은 일반인들의 뇌릿속에 각인된 경영과학과 여기서 이야기하는 경영과학은 개념부터 다르다. 기업이 축적한 대량의 데이터를 최신 데이터 분석 기법으로 분석해 기업의 DNA를 정확히 파악하는 것, 그리고 이를 이용해 정교한 상품과 서비스를 창조하는 것, 이것이 바로 과거 경영과학과 차별화되는 경영과학 2.0의 핵심이다.6
 
 
장영재 미국 매사추세츠공대(MIT) 생산성연구소 연구원 youngjae_jang@hotmail.com
 
필자는 미국 보스턴대 우주항공학과를 졸업한 뒤 미국 매사추세츠공대(MIT) 기계공학 석사 학위와 MIT 경영대학원(슬론 스쿨)에서 경영과학 석사 학위를 받았다. 이어 MIT 기계공학과에서 불확실성을 고려한 생산 운영방식에 관한 논문으로 박사 학위를 취득했다. 현재 글로벌 반도체기업인 마이크론테크놀로지 본사 기획실의 프로젝트 매니저 겸 미국 매사추세츠 공대 생산성연구소 연구원으로 활동하고 있다. 저서로는 <경영학 콘서트>가 있다. 트위터 아이디는 @youngjaejang이다.
동아비즈니스리뷰 345호 Fake Data for AI 2022년 05월 Issue 2 목차보기