MIT Sloan Management Review

빅데이터만 들여다보면 된다고? No! 전통적 방법으로 사람도 주시하라

221호 (2017년 3월 Issue 2)

Article at a Glance

질문

빅데이터는 과학적 연구를 수행하는 방식을 어떻게 바꿔야 할까?

연구를 통해 얻은 해답

- 빅데이터 분석에선 연구 가설이 필요 없다고 주장해온 사람들도 있지만 이런 믿음에는 허점이 있다.

- 연구원들은 데이터 수집 과정에서 발생할 수 있는 편향이나 비논리적 상관관계 등을 피하도록 세심한 주의를 기울여야 한다.

- 데이터 집약적 접근법을 전통적 연구 방법론의 대체재가 아닌 보완재로 활용하라.



편집자주

이 글은 2017년 겨울 호에 실린 ‘Why Big Data Isn’t Enough’를 번역한 것입니다.

130


‘빅데이터’가 사람들이 살아가는 다양한 면면에 점점 더 많이 접목됨에 따라 연구 방법에 있어서도 혁신적 변화를 요구하는 소리가 커지고 있다. 일부 분석가들은 복잡한 시스템의 특성을 이해하거나 결과를 예측하는 데 드는 시간을 줄이기 위해 이제 가설을 세우고 그 가설을 증명하기 위해 번거롭게 여러 단계를 거치는 대신에 데이터 자체가 ‘이야기를 들려 주는’ 시점에 도달했다고 말하기도 한다. 구글이나 페이스북같이 성공한 회사들은 데이터 마이닝(data mining)이나 수학적 기법으로 온라인 광고나 소셜미디어 세상에 혁신을 가져왔고, 이를 지켜본 많은 사람들은 이제 모델이나 이론에 근거한 전통적 연구 방법론이 더 이상 필요하지 않을 수도 있다고 믿게 됐다. 젊은 직장인들(특히 많은 MBA 학생들) 중에는 정교한 알고리즘만 있으면 방대한 데이터를 분석함으로써 기존 이론이나 믿음과 무관한 흥미로운 관계들을 발견할 수 있다고 거의 맹신하는 사람들도 많다. 여기서 가정은 데이터가 방대할수록 분석 결과도 더욱 강력해진다는 것이다.

이런 관점은 매력적인 만큼 오해의 소지가 있으며, 특히 기업에는 위험을 초래할 수 있다는 게 필자들의 생각이다. 예를 들어 데이터 분석만 봐서는 신규 약품의 디자인이나 새로운 과학적 접근법이 유용한 것 같지만 실제로는 아무런 인과관계가 없을 수 있다. 물론 기업들이 데이터 마이닝 덕분에 정보 수집 활동이나 소비자 행동을 이해하는 데 있어서 상당한 발전을 이뤘다는 사실은 인정할 만하다. 아마존닷컴(Amazon.com)은 넷플릭스(Netflix)와 마찬가지로 콘텐츠 추천 엔진이 어떻게 작동하는지 이해하고, 또 고객이 어떤 상품을 구매할 것인지도 예측한다. 그럼에도 불구하고 회사에서 기술 업무를 관할하는 경영진은 이런 고도의 데이터 분석 기법을 사업 분야에 어떻게 적용해야 할지 좀 더 신중하게 고민할 필요가 있다.

최근 필자들은 방대한 양의 데이터가 존재하고 수집될 수 있는 여러 사업들을 살펴봤다. 그 대상에는 신약 발견 및 약제 연구, 유전체학(genomics, 생물 유전체의 구조와 기능을 연구하는 유전학의 한 분야-역주) 및 품종 계량, 기상 예측, 가스 터빈 같은 복잡한 기계의 상품기획, 음성인식 등이 포함됐다. (‘연구 내용’ 참고.) 분야별 조사를 할 때마다 필자들은 다음과 같은 일련의 질문들을 던졌다. 해당 분야에서는 데이터 기반 연구 방법론이 전통적 연구 방법론과 얼마나 잘 부합되는가? 데이터 기반 연구가 현재 당면한 과학적, 공학적 문제들에 대한 이해도를 어떤 식으로 높일 수 있을까? 데이터 기반 연구로 통계적 추론을 하거나 그와 관련된 제약 요건들을 다루는 데 관리자들이 어떠 주의를 기울여야 할까?

DBR mini box

연구 내용

이 글에 대한 아이디어는 유전자염기서열을 연구하는 한 대형 기관의 리더들과 진행했던 일련의 인터뷰를 통해 발전됐다. 그들은 모두 생명과학에서 파생된 세부 분야에서 정규 교육을 받은 사람들로, 그중 여러 명은 데이터 기반 연구가 과학의 새로운 패러다임이라고 주장했다. 이런 견해는 <4세대 패러다임: 데이터 집약적 연구를 통한 과학적 발견(The Fourth Paradigm: Data-Intensive Scientific Discovery)> i)이라는 책에 수록된 내용과도 일치했다. 이 책은 데이터로 인해 다양한 과학 연구 분야가 어떻게 변화했는지를 잘 보여주고 있는 에세이집이다. 이와 동시에 필자들은 다른 많은 기업들에 속한 실무자급 과학자 및 공학자들에게서 전통적 연구 방법의 대안으로서 관리자들이 데이터 기반 연구를 수용하는 정도에 문제의식을 갖고 있다는 것을 발견했다. 이런 상황은 필자들로 하여금 업무에서 대량의 데이터를 수집하고 분석하는 연구원들과 함께 시간을 보내는 계기가 됐다. 필자들은 데이터 집약적 연구 방법론이 전통적 방법론을 어떤 식으로 보완하는지 이해하기 위해 생명과학, 날씨 모델링, 산업 공학, 공학 분석 등의 다양한 세부 영역에서 일하는 연구원들과 반구조화 인터뷰를 수행했다. 필자들은 그 분석 결과를 토대로 과학 및 공학 집약적 사업을 하는 경영진이 데이터 기반 방법론으로 할 수 있는 것들과 할 수 없는 것들에 대해 좀 더 구체적인 시각을 가질 수 있길 바란다.

i) Hey, Tansley, and Tolle,“The Fourth Paradigm.”



데이터 기반 연구 추진하기

필자들은 조사를 통해 발견한 내용들을 근거로 빅데이터를 효과적으로 활용할 수 있는 몇 가지 가이드라인을 발전시켰다. 즉 개방형 검색(open-ended search)으로 어떻게 의미를 도출하는지, 적절한 표본 크기는 어떻게 결정하는지, 또 구조적 편향(systematic bias)을 어떻게 피하는지 등에 대한 답변을 제시한다. 필자들은 또한 대규모 데이터세트를 활용하는 분석 기법이 가설을 세우고 이를 검증하는 전통적 방법론을 어떤 식으로 보완할 수 있는지 여러 기회 영역들도 발견했다. 그 결과 이론에 기초한 연구 모델들의 중요성 또한 재확인할 수 있었다.

1. 개방형 검색에서 비논리적 상관관계를 발전시키지 않도록 주의하라. 이론을 검증하고 새로운 통찰력을 개발하기 위해 대규모 데이터세트를 이용하는 것이 새로운 방식은 아니다. 이런 접근법은 신약 개발이나 유전체학, 기상 예측 같은 분야에서 오랫동안 활용돼 왔다. 하지만 개방형 검색에서 확실한 목표 없이1 데이터의 상관관계를 파악하는 것은 새로운 영역이다. 중국에 있는 한 대형 유전체학 연구 단체의 이사는 이를 ‘데이터가 스스로 말하게 만드는’ 작업으로 묘사했다.

수십억 개의 관측값을 가진 방대한 데이터세트를 연구할 때 일어날 수 있는 문제는 데이터 신호보다 노이즈에 의해 쉽게 큰 편차가 발생할 수 있다는 점이다. 대량의 검색 데이터 세트는 필연적으로 예측력이 없는 데이터 패턴들을 우연히 발생시키기 때문이다. 이를테면 경제학자인 카르멘 라인하트(Carmen Reinhart)와 케네스 로고프(Kenneth Rogoff)가 2010년에 발표한 논문에는 한 국가의 경제 성장률과 부채비율 간의 상관관계가 설명돼 있다. 두 학자들이 발견한 바에 따르면 공공 부채(public debt)가 국내총생산(GDP)의 90%를 초과하면 공채 비중이 더 낮은 국가들보다 경제 성장이 지체된다고 한다.2 하지만 이윽고 그런 상관관계가 무의미하다는 주장들이 다른 학자들에 의해 펼쳐졌다. 실제로 이후 발표된 연구를 보면 높은 공공 부채 비중이 반드시 더딘 경제 성장으로 이어지는 것은 아니라는 결과가 나왔다.3 상관관계가 인과관계와는 다르다는 사실을 다시 한번 일깨워 준 사례다.

2. 상관관계를 도출할 때 표본 크기와 표본 변화를 고려하라. 전통적인 통계 분석의 경우에는 독립변수의 수는 소수로 유지하면서 대량의 데이터포인트를 수집하는 게 일반적이다. 즉 대부분의 경우에는 데이터포인트 수가 변수 수보다 훨씬 많다. 하지만 개방형 검색에서는 원 데이터가 새롭고(반드시 서로 관련된 것은 아니지만) 광범위한 변수들에 퍼져 있는 경향이 높다.4 여기서 유념해야 할 사실은 변수의 수가 증가하면 통계적으로 유의한 결과를 내기 위해 필요한 데이터포인트 숫자도 증가해야 한다는 것이다. 그렇지 않으며 잘못된 상관관계를 도출할 위험이 매우 높아진다. 희귀병을 연구하기 위해 피실험자 몇 백 명의 유전자 서열 데이터를 살펴보는 정밀의료(precision medicine, 개인의 유전 정보 및 생활습관 등 건강정보를 기초로 최적화된 진단 및 치료제를 적용하는 것-역주) 분야의 경우엔 변수(즉, 유전자)의 숫자는 수천 개에 달할 수 있다. 이럴 때 온라인 리포지토리(저장소)나 통합 데이터베이스 같은 새로운 데이터 소스까지 추가하면 독립 변수의 수가 관측 데이터 수를 초과할 가능성이 높아진다.



또 차원의 수가 증가했을 때 표본 크기에 충분한 변화를 주는 것도 중요하다. 표본 크기에 변화가 적다면 통계적으로 편향된 예측값이 도출되거나 예측력이 낮아질 수 있다. 이런 현상은 통계 분포의 꼬리 쪽에서 특히 강하게 나타날 수 있다. 차원 수가 급격히 증가할 경우에 연구자들은 표본의 크기와 변화를 모두 유념해야 한다.

3. 데이터 수집에서 발생할 수 있는 구조적 편향에 주의하라. 또 한 가지 조심할 것은 측정에 있어 구조적 편향이 일어날 가능성이 있다는 점이다. 이는 잘못된 분석 결과로 이어질 수 있다. 다양한 데이터 풀(data pool)에서 가져온 방대한 데이터세트를 사용하면 실험 및 측정 조건의 차이로 서로 비교할 수 없는 데이터가 생성될 수 있다. 이를테면 데이터를 다른 시기에 수집했거나, 다른 수집 기술이 사용됐거나, 또는 다양한 출처에서 다른 조건으로 수집된 데이터를 합친 경우에 이런 위험이 있다. 유전체학 연구원들은 일찍이 이런 편향이 위험하다는 것을 인식해 왔다. 이들은 데이터 왜곡을 없애기 위해 표준정규화(standardized normalization) 기법을 사용한다.5 개방형 검색 데이터를 사용할 경우에 연구자들은 측정 편향이 일어날 수 있다는 사실을 인식하고, 이에 따라 실험이 어떤 식으로 디자인됐는지를 세심하게 검토해야 한다.



가설 개발과 모델의 역할

대규모의 과학적 데이터 세트는 수년간 사용돼 왔다. 예를 들어 제약 관련 연구원들은 수많은 화합물을 합성하기 위해 오랫동안 고속처리기술(high throughput screening, 대규모 물질 처리 과정이나 자료, 정보 해석, 계측 과정 등을 높은 속도와 효율, 그리고 정량으로 처리하는 기술-역주)이나 조합 화학(combinatorial chemistry, 각각의 화합물을 하나씩 또는 한 단계씩 합성해 최종 물질을 만들어내는 고전적이고 전형적인 합성 방법을 벗어나 한꺼번에 많은 수의 분자를 포함한 혼합물 라이브러리를 만들고 그 중 높은 활성을 가진 신약 선도물질을 찾아내는 계량된 합성 방법-역주) 기법을 활용해왔다. 하지만 단순히 자동화 장치로 신규 화학물질을 만들고 관련 데이터를 살펴보는 것만으로는 신약을 발견할 수 없다.6 오히려 구조-활성 상관관계(structure-activity patterns, 약품을 이루는 분자 구조와 생물 활성과의 상관관계를 해석함으로써 혼합물의 장기 친화성, 유해성 등을 파악하는 것-역주)나 약물 흡수 및 약물 대사 모델과 같은 이론적 체계를 통해 신약을 더 효과적으로 발견한 경우가 많다. 이런 모델들은 신약 후보들과 적용 대상을 선정할 수 있고 새로운 실험을 디자인하는 데 필요한 정보를 제공하기 때문이다.

신약 발견과 유전체학 같은 분야에서는 명시적 모델을 토대로 연구가 진행되지만 때에 따라 함축적인 모델이 이용되기도 한다. 구글의 독감 예보(GFT, Google Flu Trends) 서비스는 전통적인 유행병 연구 대신 순전히 빅데이터 분석과 인터넷 검색 결과를 기초로 인플루엔자의 확산 추이를 예측하는데 이 서비스는 지역과 물리적 근접성을 근거로 질병이 어떻게 확산되는지를 보여주는 함축적 모델에 의존한다.7 이런 새로운 기법은 오로지 데이터를 통해서만 결론을 내는 듯 보이지만 우리가 당연시 여기거나 인식하지 못할 뿐 대개는 이론적 모델이 결과를 뒷받침한다.

필자들이 조사한 대상 중 대규모 데이터 세트와 머신 러닝(machine learning) 기반의 분석이 전통적 모델 기반의 접근법보다 훨씬 더 많이 진보한 것처럼 보였던 분야가 음성인식(voice recognition)이었다. 기존의 음성인식 시스템은 화자의 목소리가 서로 어떻게 다른지, 또 말하는 곳의 음향적 특징이 어떤지 등을 측정하는 확률 모델을 이용해왔다.8 컴퓨터 프로그램은 화자로 하여금 일련의 단어들을 실제 읽게 함으로써 시스템을 ‘훈련’하고 이를 통해 매개변수를 최적화한다. 그런 다음 음성이 들릴 때마다 알고리즘이 시스템에 입력된 단어와 매칭시킨다.

구글의 데이터 기반 접근법은 수백만 명의 사용자들이 구글의 음성검색 시스템이나 안드로이드 기기의 음성인식 서비스에 대고 말한 실제 데이터들을 저장해서 분석에 활용한다. 이 데이터들은 이후 머신러닝 시스템에 입력된다. 그럼 이제 더 이상 전통적인 모델들은 필요 없는 걸까? 사실은 그 반대다. 이런 머신러닝 기법은 시스템을 훈련하기 위해 데이터 구조에 대한 지식을 갖춘 모델이 반드시 접목돼야 한다. 연구원들은 대개 제네러티브 모델(generative models, 사용자가 지정한 기준으로 데이터 분류 기준을 생성하는 데이터 분석 방법-역주)을 활용한다. 즉 머신러닝 알고리즘에서 먼저 생성된 데이터 층은 자신이 알고 있는 내용을 다음 데이터 층에 적용함으로써 학습이 이뤄진다.9 따라서 분석이 진행되려면 단순히 데이터를 확보하고 활용하는 것 이상이 필요하다.

연역적 가설을 개발하면 연구원들이 자연 실험 방법을 활용하고 결과를 발견하는 데 도움을 받을 수 있다. 방대한 데이터를 수집하는 현대적 공장에서는 다양한 접근법을 실제로 비교하지 않고도 제조 프로세스상에서 자연스레 발생하는 차이를 관찰할 수 있다. 하지만 대형 제약회사에서 제조기술을 책임지는 임원은 실제로 약이 생산되는 라인에서 실험을 진행하는 것은 비현실적이라고 말했다. 일단 회사가 이를 허락하지 않을 것이기 때문이다. 그러나 관리자들은 이미 확립된 이론이나 모델들을 통해, 획득한 데이터에 존재하는 자연적 변이를 이용한 데이터 수집 전략을 설계할 수 있다. 이렇게 하면 각 실험을 개별적으로 디자인하거나 실행할 필요가 없어진다.



모델을 개선할 수 있는 기회들

이런 주의사항들과 별개로 필자들은 데이터 기반 연구를 전통적 접근법과 결합함으로써 관리자들이 기존 모델을 개선하거나 보다 새롭고 강력한 모델을 개발할 수 있다고 주장한다. 대규모 데이터 마이닝을 통해 도출된 예기치 않은 상관관계를 통해 기존 모델을 더 강화하거나 심지어 새로운 모델을 확립할 수 있기 때문이다.

기존 모델 강화하기. 기상 예측이나 기상 모델링이 좋은 예가 될 수 있다. 현대 기상학은 지구의 대기를 상호 연결된 셀들의 3차원 그리드로 나눈 다음 시간이 흐르면서 각 셀의 상태가 어떻게 변하는지를 수학적으로 모델링한다. 모든 기상 예측은 두 단계로 구분된다. 첫째, 데이터 동화(data assimilation) 단계에서는 레이더와 위성으로부터 수집된 데이터를 셀별 계산에 활용될 물리학 모델의 최초 값으로 입력한다. 실제 대기 상태를 직접 측정할 수 없으므로 모델이 레이더 펄스(radar pulses)와 위성 카메라를 통해 획득한 광(光)파장과 적외선 측정(infrared readings), 열 방사(thermal radiances) 등의 데이터로 기온과 습도, 풍속, 그리고 기타 기상 요인들을 유추한다. 그런 다음, 예측 단계에서는 컴퓨터 시뮬레이션 모델이 아주 단시간 간격으로 데이터를 전망하고 셀별 출력값을 시간 함수로 생성한다. 이런 출력값들을 모두 합쳐 특정 지역에 대한 향후 며칠간의 날씨를 예측한다.

관측 값의 규모와 범위를 늘림으로써 기본 물리학 모델을 개선하는 데 도움이 되는 현상을 우연히 발견한 경우도 많았다. 그런 사례 중 하나는 인도양과 태평양 상공의 열대 대기에서 계절 간 변동성을 일으키는 가장 큰 원인인 매든-줄리안 진동(MJO·Madden-Julian Oscillation)에서도 발견됐다.10 이전까지 기상학자들은 뇌우 속에서 두드러지게 나타나는 MJO 현상이 적도에서 위도 10도 사이에서만 발생한다고 생각했지만 연구원들은 데이터 마이닝을 통해 이 현상이 열대지역 밖의 기후에도 큰 영향을 미칠 수 있다는 사실을 발견했다. 더웨더컴퍼니(The Weather Company)의 글로벌 일기예보 서비스 부문 전무인 피터 닐리(Peter Neilley)는 이렇게 말했다. “태평양 남서부에서 시작된 MJO가 30일 후에는 보스턴 지역의 날씨에 영향을 줄 수 있습니다.”11 일단 그런 연관성을 발견한 후 연구원들은 모델을 수정할 수 있었다.

신규 모델 개발하기. 물리적 시스템에 대한 수치 모델링(numerical modelling)은 항공역학과 지진학, 재료공학, 제약 등 매우 폭넓은 분야에서 활용돼 왔으며 공산품과 토목 구조물, 의료기기 등 다양한 영역의 상품 디자인에 있어서도 중요한 역할을 해왔다. 원래는 물리학과 연속체 역학(continuum mechanics, 실제 자연에서의 고체나 유체를 연속체라는 수학적 대상으로 모델링해 해석하는 학문-역주)의 기본 원칙들을 응용한 이 모델링은 오늘날 크고 복잡한 물체를 작게 분할해 개별 요소들의 집합으로 모형화할 수 있다는 이론에 기초해 정교한 수치 계산법을 개발하는 수준으로 진화했다. 개별 요소들에 대한 이 간단한 방정식들은 전체 문제를 모델링하는 보다 큰 규모의 시스템 차원으로 재구성된다.12 오늘날 엔지니어들은 고성능 컴퓨터 시스템에서 운영되는 이 진보된 소프트웨어를 통해 프로토타입을 만들기 전에 엄청나게 정교한 시뮬레이션 모델을 개발한 다음 지속적인 제품 개선을 염두에 둔 모델 테스트를 할 수 있다.



오늘날의 저렴한 컴퓨팅 자원을 활용할지라도 시뮬레이션 모델의 규모가 얼마나 크고, 얼마나 복잡하든 얻을 수 있는 결과에는 한계가 있다. 어쨌든 모든 것을 모델링할 수는 없기 때문이다. 그런 의미에서 데이터 기반 연구는 시뮬레이션 모델을 좀 더 효율적인 방식으로 진화시킬 수 있는 기회를 제공한다. 유나이티드테크놀로지(United Technologies Corp.)의 계열사인 프랫앤휘트니(Pratt & Whitney)는 항공기 엔진을 개발, 제작하고 관련 서비스도 제공하는 회사다. 이들이 개발한 PW1000G라는 신규 엔진은 이런 논리를 증명하는 좋은 예다. 이 회사의 디자이너들은 판매한 엔진에 대해 예측 정비(predictive maintenance) 서비스를 제공하고 주요 부품들의 수명을 예측할 수 있도록 엔진 디자인에 다양한 센서들을 결합했는데 여기서 나온 데이터를 가지고 이론 및 시뮬레이션 모델을 개선하는 데 활용할 수 있었다. 차원 수가 증가하면 이제껏 고려하지 않았던 대기 조건이나 새로운 측정 데이터처럼 더 많은 외적 매개 변수들을 포함할 가능성이 높다. 예를 들어 기상 예측이라는 맥락에서 보면 관측 자체가 개선될 때 물리학과 예측 모델에도 더 양질의 입력 데이터를 제공할 수 있다. 이렇게 되면 기상 예측의 정확성도 훨씬 더 높아질 수 있다.


135


필자들은 이런 시너지가 다른 분야에서도 발생할 수 있다고 믿는다. 특히 유전체학이나 생명과학처럼 아직까지 밝혀지지 않은 미지의 차원들이 많은 분야에서는 더욱 큰 시너지를 낼 가능성이 있다. 필자들은 빅데이터와 전통적 모델링 기법을 별개로 생각하지 말고 이 둘을 서로 보완해서 활용할 것을 제안한다. 전통적 모델들은 어떤 데이터를 수집해야 하는지 결정하는 데 도움을 줄 수 있고, 또 수집된 데이터는 모델 및 그 디자인을 개선하는 데 활용될 수 있을 것이다.



새로운 패러다임?

새로운 과학 지식은 어떻게 생길까? 보통 경험적 관찰과 실험이 과학 연구의 첫번째 패러다임으로 여겨진다. 이런 토대 위에서 자연과학이 시작됐다. 하지만 자연과학 내의 실험들만으로는 어떤 일들이 왜 발생하는지를 연구원들이 명확히 파악할 수 없었다. 이런 제약은 이론적 모델 개발을 이끌었다(두번째 패러다임). 하지만 과학자들이 연구 대상을 대규모 시스템들로 확대하려고 하자 이론적 모델이 적합하지 않은 경우가 많았다. 노벨상을 수상한 이론물리학자인 폴 디락(Paul Dirac)은 1929년에 몇 개 원자들의 활동을 동시에 계산하기 위해 모델을 활용할 수 있다는 사실을 발견했다.13 하지만 그가 이 말을 했을 당시에는 시험관에서 직접 확인할 수 있는 일을 계산으로 대신한다는 것은 상상조차 하기 어려운 먼 미래의 일이었다. 심지어는 오늘날까지도 이론적 모델들이 미시적 수준의 원자 활동들을 예측할 수는 있다 할지라도 몇 백 개 혹은 몇 천 개의 원자들을 넘어선 실제 시스템용 방정식을 푸는 것은 어렵다. 다음 차원으로 나아가기 위해서는 컴퓨터 시뮬레이션과 모델링이라는 세 번째 패러다임을 실행할 수 있는 능력이 필요했다.

데이터 집약적 과학 연구에 기초한 네 번째 패러다임의 개념에 있어서는 소프트웨어계의 영향력 있는 선구자이자 마이크로소프트의 연구원인 짐 그레이(Jim Gray)의 공이 컸다.14 그레이는 기존의 믿음들은 무의미하며 이제 과학적 지식은 수집된 데이터에서 발견된 결과에 전적으로 달려 있다고 주장했다. 하지만 필자들이 과학 및 기술 관련 조직에서 일하는 관리자들과 가진 인터뷰를 보면 데이터 기반 연구에만 오롯이 의지하면 안 된다는 결론이 나왔다. 그런 방법론을 네 번째 패러다임으로 삼는 대신에 필자들은 전통적 방법론에 대한 보조 수단으로 데이터 집약적 방법론을 활용할 것을 제안한다. 이렇게 하면 분석의 차원을 높일 수 있고, 새로운 상관관계를 발견할 가능성도 높으며, 이론도 개선할 수 있다. 분명히 데이터 집약적 방법론은 기존에 수행됐던 실험들과 이론적 모델들, 컴퓨터 모델링, 시뮬레이션 기법들에 대한 중요한 보완재가 될 수 있다. 그리고 이렇게 활용했을 때 오늘날 데이터 집약적 기법으로 할 수 있는 것보다 한층 더 업그레이드된 영역까지 진출할 수 있다. 다만 연구원들은 이런 방법론을 어떤 식으로 활용할 것인지에 더욱 주의를 기울여야 한다.



번역 |김성아 dazzlingkim@gmail.com

센 차이(Sen Chai)는 프랑스 세르지 퐁투아즈(Cergy-Pontoise)에 있는 ESSEC 경영대학원의 조교수다. 윌리 시(Willy Shih)는 미국 하버드경영대학원에서 경영 관리 프랙티스(Management Practice in Business Administration) 분야의 로버트 & 제인 시직 교수(Robert and Jane Cizik Professor)로 재직 중이다. 이 기사에 의견이 있는 분은 http://sloanreview.mit.edu/x/58227에 접속해 남겨 주시기 바란다. 저자와의 연락을 원하시는 분은 smrfeedback@mit.edu로 e메일을 보내주시기 바란다.
동아비즈니스리뷰 345호 Fake Data for AI 2022년 05월 Issue 2 목차보기