로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Management Science 2.0

데이터 분석 역량이 기업 경쟁력 좌우한다

장영재 | 67호 (2010년 10월 Issue 2)
 

 
편집자주 경영 현장에 수많은 수학자와 과학자들이 포진해 있습니다. 이들은 전략, 기획, 운영, 마케팅 등 다양한 분야에서 첨단 수학·과학 이론을 접목시켜 기업 경쟁력 강화에 기여하고 있습니다. 경영 과학은 첨단 알고리즘과 데이터 분석 기술로 기업의 두뇌 역할을 하면서 경영학의 새로운 분야를 개척해나가고 있습니다. <경영학 콘서트>의 저자인 장영재 박사가 경영과학의 새로운 패러다임을 소개합니다.
 
 
구글 창업주의 파킨슨병 그리고 23andMe
2008년 9월 18일. 래리 페이지와 함께 구글을 창업한 세르게이 브린은 개인 블로그에 LRKK2란 제목의 글을 올렸다.1  이 글은 순식간에 뉴욕타임스 등에 실리며 세간의 이목을 끌었다.2 LRKK2란 대체 무엇이며 왜 그토록 세상을 떠들썩하게 했을까? 브린은 이 글에서 자신이 퇴행성 질환인 파킨슨병에 노출돼 있다고 담담하게 밝혔다. LRRK2는 파킨슨병의 돌연변이가 발견된 유전자 이름이다. 파킨슨병은 중국의 지도자였던 덩샤오핑과 영화배우 마이클 제이폭스, 권투 챔피언 무하마드 알리가 앓고 있는 병으로 아직까지 정확한 발병 원인이나 치료법이 밝혀지지 않았다.
 
구글 왕국의 창조주이자 당시 미국의 손꼽히는 갑부인 브린이 이 미스터리한 병에 걸릴 가능성이 높아졌다는 사실 이외에도 관심을 끈 게 또 있었다.바로 23andMe라는 유전자 정보 분석 및 건강 정보 제공 회사였다. 이 회사는 브린의 아내이자 생명공학 투자 전문가인 앤 보이치츠키가 설립했다. 브린도 이 회사의 투자자들 중 하나이자 거액의 기부자다. 세계의 많은 자산가들이 자신이 앓고 있는 병의 연구를 위해 거액의 자산을 기부하는 경우는 많다. 그렇다고 23andMe에 투자한 브린에게 ‘의학 연구 기부=자신의 병마 퇴치’라는 단순 공식을 섣불리 대입할 수 있을까?
 
권위 있는 연구원들의 6년 vs. 연구방식 혁신 이끈 23andMe의 8개월
이 질문에 답하기 전에 23andMe 란 회사에 대해 좀더 알아볼 필요가 있다.권위있는 의학저널인 <NEJM(New England Journal of Medicine)>은 2009년 10월 파킨슨병과 고셔병(Gaucher’s disease)의 상관관계에 관한 연구결과를 실었다.3  이 연구는 16개 연구 기관에서 60명이 넘는 연구원이 참가한 대규모 프로젝트였다. 다른 어느 연구와 마찬가지로 이 연구도 가설 설립, 연구, 데이터 수집, 데이터 분석, 결과 도출, 논문 게재란 전형적인 연구 방식을 택했다. 연구를 완결하는 데 장장 6년이나 걸렸다. 그리고 연구 결과 이들은 마침내 파킨슨병을 가진 사람이 일반인에 비해 고셔병에 걸릴 위험이 5.4배나 높다는 사실을 도출해냈다.
 
그런데 23andMe는 같은 연구 결과를 불과 8개월 만에 밝혀냈다. 그리고 이 연구 결과를 영국에서 열린 왕립의학협회(Royal Society of Medicine)에 발표했다. 6년에 걸친 대하 드라마와 같은 논문을 비웃듯 말이다.4  과연 23andMe는 어떤 기술로 이렇게 신속한 연구 결과를 낼 수 있었을까? 해답은 바로 기존의 연구방식을 뒤집는 초대량 데이터의 패턴 분석에 있었다.
 

NEJM 에 게재된 전통적인 방식의 연구는 가설 설정, 연구, 그리고 데이터 수집, 데이터 분석, 결과 도출이란 과정을 거친다. 즉 “고셔병과 파킨슨병이 상관관계가 있을 것이다”라는 가설을 설정하고 이 가설을 증명하기 위해 무엇을 측정하고 관찰해야 할지를 연구한다. 이후 임상 환자를 대상으로 관련 데이터를 수집하고 통계를 이용해 가설이 맞는지를 분석한다. 만일 통계 분석결과가 이 가설을 뒷받침하지 못한다면, 또 새로운 가설을 새우거나 가설을 증명할 방법에 문제가 있는지 살펴보고 이후 가설과 증명 방식을 수정해 앞의 프로세스를 반복한다. 초기 가설이 맞고 또 이를 증명할 방식이 정확히 설정됐다면 단시간에 연구 결과를 도출할 수 있다. 하지만 그렇지 않으면 프로세스를 여러 차례, 심지어는 끝없이 반복할 수밖에 없다.
 
또 이런 전통적 연구방식에서는 데이터 분석이 초기 가설을 판단하는 이상의 가치를 지니지 않는다. 가설의 유무를 판별하는 방식을 통계에서는 가설검정(Hypothesis Test)이라 한다. 가설 판별의 개념에서는 데이터는 통계 분석을 위해 필요하고, 통계 분석은 가설 증명을 위해 존재할 뿐이다. 즉, 전통적인 방식에서 데이터의 가치는 초기 가설의 증명을 판별하기 위한 자료 정도에 그친다.
 
반면 23andMe는 기존의 연구 방식과 차별된 매우 혁신적인 방식을 취했다. 우선 가설 증명 중심 방식을 탈피해 데이터 패턴 분석에 중점을 뒀다. 이 새로운 관점에서는 가설 설정을 뛰어 넘는 데이터 수집 및 분석이 핵심이다. 또 기존 연구에서 실행하던 데이터 분석 규모가 훨씬 커져 23ansMe는 수천, 수만 명의 환자에 대해 가능한 모든 건강정보를 포괄적으로 수집해 대규모의 데이터 수집 및 분석을 실시했다.
 
이 연구에서 23andMe는 우선 고셔병이나 파킨슨병, 그 외 다른 질병을 앓고 있는 환자들의 유전자 정보를 대량으로 확보했다. 이후 이들에게 매우 세부적인 생활관련 설문조사를 실시해 대규모의 생활 및 건강 정보를 확보했다. 이들 데이터를 체계적으로 데이터베이스에 저장하고 이를 바탕으로 자체 개발한 데이터 마이닝프로그램으로 상관관계 분석을 실행했다. 대하 드라마와 같은 거대 프로젝트의 규모를 조롱하듯 23andMe의 데이터베이스 프로그램은 단 20분 만에 NEJM에 게재된 결과와 같이 고셔병이 있는 환자는 파킨슨병에 걸릴 확률이 5배나 높다는 사실을 찾아냈다.
 
23andMe의 발견은 단순히 고셔병과 파킨슨병의 상관관계뿐만이 아니었다. 대량의 데이터만 확보한다면 불치병 연구에 획기적인 혁신을 이룰 수 있다는 강력한 메시지도 함께 전달한 것이었다. 23andMe가 발견한 것은 인간의 유전자 정보뿐만이 아닌 기존 과학 연구 방식과 전통 통계의 태생적 유전자였다.
 
데이터의 가치: 귀중한 데이터 vs. 방대한 데이터
전통적인 연구방식은 인간 사상이 과학과 이성으로 무게중심을 옮기기 시작한 18세기에 뿌리를 두고 있다. 신의 섭리에 모든 것을 의지했던 것에서 벗어나 인간 스스로 자연의 섭리를 찾을 수 있다는 자신감을 던져줬다. 바로 실험을 통한 검증이란 방법을 통해서다. 신에 대한 맹신과 비이성에서 논리적인 이성과 차별화하는 기준으로 실험을 통한 가설이 제시된 것이다.
 
필요는 새로운 가치를 창조한다. 17세기 수학자 파스칼은 확률이론이라는 씨앗을 통계라는 이름으로 싹틔웠다. 가설을 수치적으로 검증하는 통계는 과학자들이 무당이나 주술사들과 맞서 싸울 수 있는 강력한 무기로 부상했다.
 
하지만 당시 과학자들은 실험에서 데이터 수집에 한계를 겪었다. 측정장비도 지금처럼 흔하지 않았고, 실험 환경을 조성하는 데도 많은 노력이 필요해서 충분한 데이터를 수집하는 게 어려웠다. 결국 데이터가 귀하다 보니 연구방식도 지금과는 달랐다. 가설을 먼저 세우고 이 가설의 증명에 필요한 데이터가 어떤 것인지를 명확하게 연구해 실험을 통해 데이터를 수집하는 방식이었다. 통계 방식 또한 이에 맞춰 방대한 데이터보다는 적은 양의 데이터로 가설 결과를 판별하는 방식이었다. 즉 전통 통계에서는 ‘데이터=귀하다’라는 가정이 자연스레 깔려 있었다.
 
반면 우리가 살아가는 21세기는 ‘데이터 홍수의 시대’다. 옛날처럼 환자들의 데이터가 귀한 시절이 아니라는 얘기다. 발달된 측정장비 덕분에 옛날보다 적은 노력과 비용으로 데이터를 수집할 수 있다. 더 나아가 정보 통신의 발달은 데이터의 공간적 시간적 제약을 없앴다. 미국 병원에 입원한 환자의 유전자 정보가 영국에 있는 연구원의 노트북으로 바로 검색할 수 있게 됐다. 23andMe는 이 새로운 정보의 시대에서 18세기 연구 방식을 고수할 필요가 없다는 것을 파악했다. 즉, 초기 가설에 의지하고 가설을 증명하는 등 데이터를 수동적으로 사용하는 방식을 탈피했다. 데이터를 중심으로 인간이 상상할 수 없었던 패턴을 발견하는 혁신적 21세기의 연구 방식을 시도한 것이다.
 
방대한 데이터 분석이 그려낸 패턴은 마치 연구자가 따라가야 할 지도와 같다. 이 패턴은 여러 산의 봉우리를 그리고 각 봉우리로 향하는 길을 제시해 준다. 지도 없는 산을 헤매며 이 산 저 산 올라가며 정상을 찾는 방식과는 확연히 다르다. 그렇다면 지도를 갖고 산을 오르는 자와 지도 없이 오르는 자 중 누가 더 최고봉에 빨리 오를 수 있을까? 6년과 8개월이라는 연구시간이 이 답을 대신해준다.
 
세르게이 브린의 23andMe투자는 단순히 자신의 병을 치료하기 위한 것이라기보다 데이터가 창조하는 새로운 패러다임의 문을 연 한 차원 더 큰 시각으로 바라봐야 한다. 데이터 분석으로 최고의 검색 서비스를 창조한 구글을 이젠 새로운 연구 혁명의 미래에 대한 투자라고 해석하는 게 더 바람직하다.
 

가입하면 무료

  • 장영재

    장영재

    - (현)카이스트 산업 및 시스템 공학과 교수
    - 마이크론 테크놀로지 기획실 프로젝트 매니저
    - 매사추세츠 공대 생산성연구소 연구원

    이 필자의 다른 기사 보기
인기기사

질문, 답변, 연관 아티클 확인까지 한번에! 경제〮경영 관련 질문은 AskBiz에게 물어보세요. 오늘은 무엇을 도와드릴까요?

Click!