Academia&Business

북한 다룬 ‘언론 논조‘ 빅데이터, 北 도발 점친다.

169호 (2015년 1월 Issue 2)

 

 

Article at a Glance –전략

 

문제의식

종잡을 수 없는 북한의 행동 예측, 빅데이터라면 가능할까?

분석방법

북한과 관련한 7만여 신문 기사의 논조를 언어학적 도구로 분석해 기사의 논조가 북한의 도발적 행동을 예측할 수 있는지를 분석함.

결과

언론의 논조가 단순한 상관관계를 넘어 북한의 행동에 대해 예측력을 갖는 것으로 나타났다. 특히 영국 등 외국 언론의 부정적 기사가 보도된 직후 북한이 도발할 확률이 더 높다는 점을 발견했다. 이외 북한의 각종 기념일, 엄포성 발표, 한국 및 미국 정부의 동향 등 다양한 변수와 북한의 행동 간의 상관관계를 분석한 결과를 요약한다.

 

 

 

북한의 행동은 예측불가능성으로 유명하다. 특히 북한이 언제 핵 실험 등의 도발을 감행 할지는 더욱 내다보기 힘들다. 지정학적 돌발사태들은 특성상 예측이 매우 어렵다. 더욱이 북한의 경우 정보를 구하기도 매우 힘들고 정보를 구하는 데도 많은 물적·인적 자원을 투입해야 한다. 이 같은 문제의식을 바탕으로 필자를 포함한 연구진은 북한의 행동을 효율적이면서도 효과적으로 예측할 수 있는 방법을 연구했다. 그중에서 연구진은 언론에 나온 북한 관련 정보와 그에 담긴 감성적·정성적 논조를 주목했다.

 

 

언론사 기자들은 독자들을 위해 더 새롭고 유의미한 정보를 제공하려 한다. 이를 위해 다양한 정보원들과 소스를 경쟁적으로 접촉하고 그로부터 얻은 정보를 기사화한다. 따라서 기자들이 신문에 내는 기사들의 정성적인 논조를 컴퓨터 언어학적 도구(computational linguistic technique)로 분석하면 단순히 전통적인 방식으로 수집된 정보로는 잡을 수 없었던 새로운 사실을 알아낼 수가 있다. 즉 언론 기사라는빅데이터로 분석과 예측의 정교함을 높일 수 있다는 것이다.

 

 

금융권에서는 이와 같은 방법을 거래에 활용한 헤지펀드들이 좋은 성과를 거둔 사례도 있다. 2007년 폴 텟록(Paul Tetlock)의 연구 이래로 많은 연구자들이 수만여 신문기사들에 나온 논조를 분석해 주가 지수의 향방과 기업의 수익성을 예측하는 데 사용해 왔다. 각종 펀드들도 이 기법을 이용해 국제 금융시장에서 더 많은 이익을 냈다고 한다. 이같이 언론 기사를 분석해 활용하는 방법이 학문적으로나 실무적으로 많은 도움을 준다는 점이 알려져 있다.

 

 

같은 선상에서 연구진은 신문기사의 논조를 분석해 이를 바탕으로 북한의 행동을 예측하는 일이 가능한지를 연구했다. 연구진은 19992012년에 14년간 일어난 북한과 관련된 287개의 사건들에 대해 당시 북한의 행동을 호전성에 따라 4단계로 분류했다(0: 우호적인 행동, 1: 아무런 행동 없음, 2: 비우호적 외교행동 및 국지도발, 3: 핵 및 장거리미사일 실험). 한편 같은 기간 북한에 관한 영자신문 기사를 7만 개 이상 수집하고 컴퓨터 언어학적 기법을 동원해서 매일매일 북한에 관한 논조가 얼마나 부정적인지의 정도를 측정했다.또한 국내 영자신문(Korea Times, Korea Herald)과 외국 신문의 논조 중 어느 것이 북한의 행동을 잘 예측하는지도 분석했다.

 

 

 

<그림 1>은 월별로 영자신문에 나타난 논조와 북한의 행동 간 관계를 보여주는 그래프다. 붉은 선은 북한에 관한 각종 언론의 논조가 얼마나 부정적인지를 나타낸다. 푸른 선은 평균 대비 북한에 관한 기사가 얼마나 많이 등장하는지를 보여준다. 전반적으로 북한에 대한 부정적인 논조와 북한의 도발적 행동 간에 상관관계가 높았다. 특히 북한의 핵확산금지조약(NPT) 탈퇴와 2006년 최초의 핵실험에 관한 부정적인 논조가 특히 높았다.

 

 

연구진은 언론의 논조가 단순한 상관관계를 넘어 북한의 행동에 대해 예측력을 갖는지를 연구했다. 그 결과 북한에 관한 외국 언론의 기사가 부정적이면 다음날 북한이 도발할 확률이 더 높다는 것을 발견했다. 그러나 국내 영자신문 기사의 논조는 북한의 행동 예측에 도움이 되지 않았다.

 

 

연구진은 한글 기사와 한글 트위터 메시지도 빅데이터 기법으로 다양하게 분석했다. 다음소프트의 지원을 받아 한국 내 70여 한국어 언론매체의 북한 관련 기사와 북한 관련 단어가 들어가는 한글 트위터 메시지의 논조를 분석해 이 같은 한글 미디어 데이터가 북한의 행동을 예측하는 데 도움이 되는지를 살펴봤다. 그러나 재미있게도 연구진의 발견에 따르면 한글 데이터는 예측력이 없었다. 이는 전반적으로 한국의 미디어에서는 북한에 관해 워낙 광범위한 이슈들을 다루기 때문인 것으로 추측된다. 국내 언론의 북한 관련 기사는 군사적인 이슈 이외에도 북한의 각종 비군사적인 측면과 주민생활 등 관련 정보를 폭넓게 다룬다. 이에 비해 외국의 언론은 큰 관심을 끌 만한 군사적인 측면에 집중한다. 이 같은 차이가 외국 언론의 예측력이 높은 이유를 부분적으로 설명하는 것으로 보인다.

 

 

 

 

연구진의 발견에 따르면 한글 데이터는 예측력이 없었다. 이는 전반적으로 한국의 미디어에서는 북한에 관해 워낙 광범위한 이슈들을 다루기 때문인 것으로 추측된다.

 

 

국내 언론의 논조가 예측력이 없다는 연구 결과가 국내 언론이나 정보기관의 첩보력이 미흡하다는 것을 의미하는 것은 아니다. 왜냐하면북한이 핵실험을 할 것 같다는 첩보가 국내외 언론에 보도된 지 한 달 이내에 북한이 실제 핵실험을 할 확률이 유의하게 높았기 때문이다. 이는 한국의 첩보력이 유효함을 보여준다.

 

 

외국 언론사들을 국적별로도 분석했다. 영국의 신문기사 논조가 특히 예측력이 뛰어났다. 영국은 오래 전부터 북한과 수교해왔다. 양국 간 대사가 상주하며 영국에는 친북한 성향의 영국인 단체가 많다. 김영한과 정호성의 최신 연구(2014)에 따르면 북한의 군사적 도발이 있기 며칠 전부터 영국 국적의 자산운용사(헤지펀드)들이 한국 주가 지수를 전보다 더 적극적으로 공매도했다.이에 비추어 볼 때 영국에는 북한에 관한 고급 정보가 다른 나라들보다 유의하게 많고, 그것을 이용해 우리 주식시장에서 이익을 추구한다는 점을 유추할 수 있다. 영국이 007 같은 영화의 배경이 되는 일이 우연만은 아닌 것이다.

 

 

 

연구진이 언론의 논조를 분석하기 위해 사용한 방법

긍정적인 단어들과 부정적인 단어들은 Harvard IV dictionary에 따라 분류했다. 매일 북한 관련 신문기사들에서 부정적인 단어의 수에서 긍정적인 단어의 수를 뺀 수를 전체 단어 수로 나누었다. 특히, 북한 관련 단어들 관련해서는 byki.com이라는 사이트에서 자주 출현하는 북한 관련 영어단어 리스트를 수집해 긍정적인 단어와 부정적인 단어로 분류해 보완적으로 활용했다. 이같이 출현 빈도만을 가지고 측정함에도 불구하고 통계적 유의성이 발견된다면 의미가 더욱 크다고 볼 수 있다. 실제 이 같은 방식의 논조 측정 기법만으로도 기존의 연구들에서 의미 있는 결과를 얻은 바 있다. 실무적으로도 몇몇 헤지펀드들이 연구진과 거의 동일한 방식을 주식매매에 활용하고 있다(‘알고리드믹 트레이딩’). 더욱 세련된 기법들(예를 들면 부정적인 의미의 정도의 차이를 가중치로 줘 측정하는 방법)도 최근 개발되고 있어 향후 연구에 활용이 가능할 것으로 전망된다.

 

 

 

 

 

 

연구진은 여러 가지 통제변수를 집어넣어 북한의 행동에 어떠한 패턴이 있는지도 알아낼 수 있었다. 특징적으로, 김정은, 김정일, 김일성 생일을 전후한 5일 동안 도발이 유의하게 많은 반면, 인민군 창설 기념일, 노동당 창설 기념일, 정부 창설 기념일 등의 기념일 전후에는 특별히 도발이 더 많지는 않았다. 북한의 국내총생산 증가율 추정치도 아무런 상관관계가 없었다. 이는 지도자 한 사람에게만 집중돼 있는 전체주의적인 북한의 사회구조를 반영하는 것으로 보인다.

 

 

한국이 북한에 대해서 비우호적인 외교행동을 보인 지 한달 내에는 도발이 심하지만 미국이 북한에 대해 비우호적인 외교행동을 보인 지 한달 내에는 별다른 도발이 있지 않았다. 반면에 한국이나 미국이 우호적인 외교행동을 보인 지 한달 이내라고 해서 북한이 도발할 확률이 줄어들지는 않았다. 한국의 대통령과 미국의 대통령이 북한에 대해서 매파인지, 비둘기파인지 여부도 북한의 행동 예측에는 전혀 도움이 되지 않았다. 이는 북한이 미국보다는 한국과 치킨 게임을 추구하는 게 아닌가 추론하게 만든다.

 

 

한편 연구진은 북한이 스스로 핵무기나 미사일 실험을 감행하겠다는 발표를 한 지 한달 이내에 실제로 북한이 그러한 행동을 하는지도 분석했다. 그러나 북한의 발표와 행동 간의 상관관계는 크지 않았다.이는 북한의 핵실험 계획 발표가 상대적으로 엄포성일 수 있다는 점을 보여준다.

 

연구진의 연구는 예측하기 어려운 지정학적 사건(geopolitical event)들도 빅데이터 기법을 활용하면 좀 더 효과적이고 효율적으로 예측할 수 있다는 점을 보여줬다는 데에 의의가 있다. 이 같은 연구를 확장하면 북한 외에도 세계적으로 이슈가 되고 있는 다른 단체 및 국가의 행동을 예측하는 데도 도움이 되리라 기대한다.

 

 

 

 

이 글은 김영한, 강형구, 이종규(한국개발연구원 북한연구팀 연구원) 공저인 다음 논문의 내용을 바탕으로 작성됐습니다. Kang, Hyoung Goo and Kim, Y. Han (Andy) and Lee, Jong Kyu, Can Big Data Predict the Behavior of North Korea? (September 3, 2014). Available at SSRN: http://ssrn.com/abstract=2490693 or http://dx.doi.org/10.2139/ssrn.2490693

 

 

정리=한인재 기자 epicij@donga.com

 

 

동아비즈니스리뷰 345호 Fake Data for AI 2022년 05월 Issue 2 목차보기