Academia&Business
Article at a Glance –전략
문제의식 종잡을 수 없는 북한의 행동 예측, 빅데이터라면 가능할까? 분석방법 북한과 관련한 7만여 신문 기사의 논조를 언어학적 도구로 분석해 기사의 논조가 북한의 도발적 행동을 예측할 수 있는지를 분석함. 결과 언론의 논조가 단순한 상관관계를 넘어 북한의 행동에 대해 예측력을 갖는 것으로 나타났다. 특히 영국 등 외국 언론의 부정적 기사가 보도된 직후 북한이 도발할 확률이 더 높다는 점을 발견했다. 이외 북한의 각종 기념일, 엄포성 발표, 한국 및 미국 정부의 동향 등 다양한 변수와 북한의 행동 간의 상관관계를 분석한 결과를 요약한다.
|
북한의 행동은 예측불가능성으로 유명하다. 특히 북한이 언제 핵 실험 등의 도발을 감행 할지는 더욱 내다보기 힘들다. 지정학적 돌발사태들은 특성상 예측이 매우 어렵다. 더욱이 북한의 경우 정보를 구하기도 매우 힘들고 정보를 구하는 데도 많은 물적·인적 자원을 투입해야 한다. 이 같은 문제의식을 바탕으로 필자를 포함한 연구진은 북한의 행동을 효율적이면서도 효과적으로 예측할 수 있는 방법을 연구했다. 그중에서 연구진은 언론에 나온 북한 관련 정보와 그에 담긴 감성적·정성적 논조를 주목했다.
언론사 기자들은 독자들을 위해 더 새롭고 유의미한 정보를 제공하려 한다. 이를 위해 다양한 정보원들과 소스를 경쟁적으로 접촉하고 그로부터 얻은 정보를 기사화한다. 따라서 기자들이 신문에 내는 기사들의 정성적인 논조를 컴퓨터 언어학적 도구(computational linguistic technique)로 분석하면 단순히 전통적인 방식으로 수집된 정보로는 잡을 수 없었던 새로운 사실을 알아낼 수가 있다. 즉 언론 기사라는 ‘빅데이터’로 분석과 예측의 정교함을 높일 수 있다는 것이다.
금융권에서는 이와 같은 방법을 거래에 활용한 헤지펀드들이 좋은 성과를 거둔 사례도 있다. 2007년 폴 텟록(Paul Tetlock)의 연구 이래로 많은 연구자들이 수만여 신문기사들에 나온 논조를 분석해 주가 지수의 향방과 기업의 수익성을 예측하는 데 사용해 왔다. 각종 펀드들도 이 기법을 이용해 국제 금융시장에서 더 많은 이익을 냈다고 한다. 이같이 언론 기사를 분석해 활용하는 방법이 학문적으로나 실무적으로 많은 도움을 준다는 점이 알려져 있다.
같은 선상에서 연구진은 신문기사의 논조를 분석해 이를 바탕으로 북한의 행동을 예측하는 일이 가능한지를 연구했다. 연구진은 1999∼2012년에 14년간 일어난 북한과 관련된 287개의 사건들에 대해 당시 북한의 행동을 호전성에 따라 4단계로 분류했다(0: 우호적인 행동, 1: 아무런 행동 없음, 2: 비우호적 외교행동 및 국지도발, 3: 핵 및 장거리미사일 실험). 한편 같은 기간 북한에 관한 영자신문 기사를 7만 개 이상 수집하고 컴퓨터 언어학적 기법을 동원해서 매일매일 북한에 관한 논조가 얼마나 부정적인지의 정도를 측정했다.또한 국내 영자신문(Korea Times, Korea Herald)과 외국 신문의 논조 중 어느 것이 북한의 행동을 잘 예측하는지도 분석했다.
<그림 1>은 월별로 영자신문에 나타난 논조와 북한의 행동 간 관계를 보여주는 그래프다. 붉은 선은 북한에 관한 각종 언론의 논조가 얼마나 부정적인지를 나타낸다. 푸른 선은 평균 대비 북한에 관한 기사가 얼마나 많이 등장하는지를 보여준다. 전반적으로 북한에 대한 부정적인 논조와 북한의 도발적 행동 간에 상관관계가 높았다. 특히 북한의 핵확산금지조약(NPT) 탈퇴와 2006년 최초의 핵실험에 관한 부정적인 논조가 특히 높았다.
연구진은 언론의 논조가 단순한 상관관계를 넘어 북한의 행동에 대해 예측력을 갖는지를 연구했다. 그 결과 북한에 관한 외국 언론의 기사가 부정적이면 다음날 북한이 도발할 확률이 더 높다는 것을 발견했다. 그러나 국내 영자신문 기사의 논조는 북한의 행동 예측에 도움이 되지 않았다.
연구진은 한글 기사와 한글 트위터 메시지도 빅데이터 기법으로 다양하게 분석했다. 다음소프트의 지원을 받아 한국 내 70여 한국어 언론매체의 북한 관련 기사와 북한 관련 단어가 들어가는 한글 트위터 메시지의 논조를 분석해 이 같은 한글 미디어 데이터가 북한의 행동을 예측하는 데 도움이 되는지를 살펴봤다. 그러나 재미있게도 연구진의 발견에 따르면 한글 데이터는 예측력이 없었다. 이는 전반적으로 한국의 미디어에서는 북한에 관해 워낙 광범위한 이슈들을 다루기 때문인 것으로 추측된다. 국내 언론의 북한 관련 기사는 군사적인 이슈 이외에도 북한의 각종 비군사적인 측면과 주민생활 등 관련 정보를 폭넓게 다룬다. 이에 비해 외국의 언론은 큰 관심을 끌 만한 군사적인 측면에 집중한다. 이 같은 차이가 외국 언론의 예측력이 높은 이유를 부분적으로 설명하는 것으로 보인다.
질문, 답변, 연관 아티클 확인까지 한번에! 경제·경영 관련 질문은 AskBiz에게 물어보세요. 오늘은 무엇을 도와드릴까요?
Click!
회원 가입만 해도, DBR 월정액 서비스 첫 달 무료!
15,000여 건의 DBR 콘텐츠를 무제한으로 이용하세요.