Article at a Glance질문빅데이터는 과학적 연구를 수행하는 방식을 어떻게 바꿔야 할까?
연구를 통해 얻은 해답- 빅데이터 분석에선 연구 가설이 필요 없다고 주장해온 사람들도 있지만 이런 믿음에는 허점이 있다.
- 연구원들은 데이터 수집 과정에서 발생할 수 있는 편향이나 비논리적 상관관계 등을 피하도록 세심한 주의를 기울여야 한다.
- 데이터 집약적 접근법을 전통적 연구 방법론의 대체재가 아닌 보완재로 활용하라.
편집자주이 글은 2017년 겨울 호에 실린 ‘Why Big Data Isn’t Enough’를 번역한 것입니다.
‘빅데이터’가 사람들이 살아가는 다양한 면면에 점점 더 많이 접목됨에 따라 연구 방법에 있어서도 혁신적 변화를 요구하는 소리가 커지고 있다. 일부 분석가들은 복잡한 시스템의 특성을 이해하거나 결과를 예측하는 데 드는 시간을 줄이기 위해 이제 가설을 세우고 그 가설을 증명하기 위해 번거롭게 여러 단계를 거치는 대신에 데이터 자체가 ‘이야기를 들려 주는’ 시점에 도달했다고 말하기도 한다. 구글이나 페이스북같이 성공한 회사들은 데이터 마이닝(data mining)이나 수학적 기법으로 온라인 광고나 소셜미디어 세상에 혁신을 가져왔고, 이를 지켜본 많은 사람들은 이제 모델이나 이론에 근거한 전통적 연구 방법론이 더 이상 필요하지 않을 수도 있다고 믿게 됐다. 젊은 직장인들(특히 많은 MBA 학생들) 중에는 정교한 알고리즘만 있으면 방대한 데이터를 분석함으로써 기존 이론이나 믿음과 무관한 흥미로운 관계들을 발견할 수 있다고 거의 맹신하는 사람들도 많다. 여기서 가정은 데이터가 방대할수록 분석 결과도 더욱 강력해진다는 것이다.
이런 관점은 매력적인 만큼 오해의 소지가 있으며, 특히 기업에는 위험을 초래할 수 있다는 게 필자들의 생각이다. 예를 들어 데이터 분석만 봐서는 신규 약품의 디자인이나 새로운 과학적 접근법이 유용한 것 같지만 실제로는 아무런 인과관계가 없을 수 있다. 물론 기업들이 데이터 마이닝 덕분에 정보 수집 활동이나 소비자 행동을 이해하는 데 있어서 상당한 발전을 이뤘다는 사실은 인정할 만하다. 아마존닷컴(Amazon.com)은 넷플릭스(Netflix)와 마찬가지로 콘텐츠 추천 엔진이 어떻게 작동하는지 이해하고, 또 고객이 어떤 상품을 구매할 것인지도 예측한다. 그럼에도 불구하고 회사에서 기술 업무를 관할하는 경영진은 이런 고도의 데이터 분석 기법을 사업 분야에 어떻게 적용해야 할지 좀 더 신중하게 고민할 필요가 있다.
최근 필자들은 방대한 양의 데이터가 존재하고 수집될 수 있는 여러 사업들을 살펴봤다. 그 대상에는 신약 발견 및 약제 연구, 유전체학(genomics, 생물 유전체의 구조와 기능을 연구하는 유전학의 한 분야-역주) 및 품종 계량, 기상 예측, 가스 터빈 같은 복잡한 기계의 상품기획, 음성인식 등이 포함됐다. (‘연구 내용’ 참고.) 분야별 조사를 할 때마다 필자들은 다음과 같은 일련의 질문들을 던졌다. 해당 분야에서는 데이터 기반 연구 방법론이 전통적 연구 방법론과 얼마나 잘 부합되는가? 데이터 기반 연구가 현재 당면한 과학적, 공학적 문제들에 대한 이해도를 어떤 식으로 높일 수 있을까? 데이터 기반 연구로 통계적 추론을 하거나 그와 관련된 제약 요건들을 다루는 데 관리자들이 어떠 주의를 기울여야 할까?
DBR mini box
연구 내용
이 글에 대한 아이디어는 유전자염기서열을 연구하는 한 대형 기관의 리더들과 진행했던 일련의 인터뷰를 통해 발전됐다. 그들은 모두 생명과학에서 파생된 세부 분야에서 정규 교육을 받은 사람들로, 그중 여러 명은 데이터 기반 연구가 과학의 새로운 패러다임이라고 주장했다. 이런 견해는 <4세대 패러다임: 데이터 집약적 연구를 통한 과학적 발견(The Fourth Paradigm: Data-Intensive Scientific Discovery)> i)이라는 책에 수록된 내용과도 일치했다. 이 책은 데이터로 인해 다양한 과학 연구 분야가 어떻게 변화했는지를 잘 보여주고 있는 에세이집이다. 이와 동시에 필자들은 다른 많은 기업들에 속한 실무자급 과학자 및 공학자들에게서 전통적 연구 방법의 대안으로서 관리자들이 데이터 기반 연구를 수용하는 정도에 문제의식을 갖고 있다는 것을 발견했다. 이런 상황은 필자들로 하여금 업무에서 대량의 데이터를 수집하고 분석하는 연구원들과 함께 시간을 보내는 계기가 됐다. 필자들은 데이터 집약적 연구 방법론이 전통적 방법론을 어떤 식으로 보완하는지 이해하기 위해 생명과학, 날씨 모델링, 산업 공학, 공학 분석 등의 다양한 세부 영역에서 일하는 연구원들과 반구조화 인터뷰를 수행했다. 필자들은 그 분석 결과를 토대로 과학 및 공학 집약적 사업을 하는 경영진이 데이터 기반 방법론으로 할 수 있는 것들과 할 수 없는 것들에 대해 좀 더 구체적인 시각을 가질 수 있길 바란다.
i) Hey, Tansley, and Tolle,“The Fourth Paradigm.”
|
데이터 기반 연구 추진하기필자들은 조사를 통해 발견한 내용들을 근거로 빅데이터를 효과적으로 활용할 수 있는 몇 가지 가이드라인을 발전시켰다. 즉 개방형 검색(open-ended search)으로 어떻게 의미를 도출하는지, 적절한 표본 크기는 어떻게 결정하는지, 또 구조적 편향(systematic bias)을 어떻게 피하는지 등에 대한 답변을 제시한다. 필자들은 또한 대규모 데이터세트를 활용하는 분석 기법이 가설을 세우고 이를 검증하는 전통적 방법론을 어떤 식으로 보완할 수 있는지 여러 기회 영역들도 발견했다. 그 결과 이론에 기초한 연구 모델들의 중요성 또한 재확인할 수 있었다.
1. 개방형 검색에서 비논리적 상관관계를 발전시키지 않도록 주의하라. 이론을 검증하고 새로운 통찰력을 개발하기 위해 대규모 데이터세트를 이용하는 것이 새로운 방식은 아니다. 이런 접근법은 신약 개발이나 유전체학, 기상 예측 같은 분야에서 오랫동안 활용돼 왔다. 하지만 개방형 검색에서 확실한 목표 없이
1
데이터의 상관관계를 파악하는 것은 새로운 영역이다. 중국에 있는 한 대형 유전체학 연구 단체의 이사는 이를 ‘데이터가 스스로 말하게 만드는’ 작업으로 묘사했다.
수십억 개의 관측값을 가진 방대한 데이터세트를 연구할 때 일어날 수 있는 문제는 데이터 신호보다 노이즈에 의해 쉽게 큰 편차가 발생할 수 있다는 점이다. 대량의 검색 데이터 세트는 필연적으로 예측력이 없는 데이터 패턴들을 우연히 발생시키기 때문이다. 이를테면 경제학자인 카르멘 라인하트(Carmen Reinhart)와 케네스 로고프(Kenneth Rogoff)가 2010년에 발표한 논문에는 한 국가의 경제 성장률과 부채비율 간의 상관관계가 설명돼 있다. 두 학자들이 발견한 바에 따르면 공공 부채(public debt)가 국내총생산(GDP)의 90%를 초과하면 공채 비중이 더 낮은 국가들보다 경제 성장이 지체된다고 한다.
2
하지만 이윽고 그런 상관관계가 무의미하다는 주장들이 다른 학자들에 의해 펼쳐졌다. 실제로 이후 발표된 연구를 보면 높은 공공 부채 비중이 반드시 더딘 경제 성장으로 이어지는 것은 아니라는 결과가 나왔다.
3
상관관계가 인과관계와는 다르다는 사실을 다시 한번 일깨워 준 사례다.
2. 상관관계를 도출할 때 표본 크기와 표본 변화를 고려하라. 전통적인 통계 분석의 경우에는 독립변수의 수는 소수로 유지하면서 대량의 데이터포인트를 수집하는 게 일반적이다. 즉 대부분의 경우에는 데이터포인트 수가 변수 수보다 훨씬 많다. 하지만 개방형 검색에서는 원 데이터가 새롭고(반드시 서로 관련된 것은 아니지만) 광범위한 변수들에 퍼져 있는 경향이 높다.
4
여기서 유념해야 할 사실은 변수의 수가 증가하면 통계적으로 유의한 결과를 내기 위해 필요한 데이터포인트 숫자도 증가해야 한다는 것이다. 그렇지 않으며 잘못된 상관관계를 도출할 위험이 매우 높아진다. 희귀병을 연구하기 위해 피실험자 몇 백 명의 유전자 서열 데이터를 살펴보는 정밀의료(precision medicine, 개인의 유전 정보 및 생활습관 등 건강정보를 기초로 최적화된 진단 및 치료제를 적용하는 것-역주) 분야의 경우엔 변수(즉, 유전자)의 숫자는 수천 개에 달할 수 있다. 이럴 때 온라인 리포지토리(저장소)나 통합 데이터베이스 같은 새로운 데이터 소스까지 추가하면 독립 변수의 수가 관측 데이터 수를 초과할 가능성이 높아진다.