로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Financial decision making

불확실성 커진 금융시장, LLM 예측 모형으로 숫자 속 맥락 읽어야

박세영 | 411호 (2025년 2월 Issue 2)
Based on “Context-Based Interpretation of Financial Information”(2024) by Alex G. Kim and V. V. Nikolaev in Journal of Accounting Research, forthcoming.



GettyImages-1471547097


무엇을, 왜 연구했나?

비상계엄 선포 사태 이후 국내 금융시장은 2008년 글로벌 금융위기와 코로나19 사태 이후로 가장 큰 폭의 변동을 경험했다. 원·달러 환율 또한 외환위기 이후 최고점을 경신해 외환보유고가 적정한 수준으로 유지될 수 있을지에 대한 우려의 목소리가 높다. 반면 글로벌 금융시장의 상황은 어떤가? 지난해 12월 미국 나스닥 지수는 한때 2만 포인트를 넘어섰고 코인 시장 또한 호황기에 접어들어 전 세계적으로 투자자들의 적극적인 위험 투자가 계속되고 있다. 유독 국내 금융시장만 미국을 포함한 글로벌 경기의 상승세와는 반대로 디커플링(탈동조화)1 현상을 겪으며 하락세가 지속되는 추세다.

금융시장에서 위험자산에 대한 투자를 결정할 때 중요한 요소 중 하나는 기대수익률과 변동성으로 요약될 수 있는 투자기회집합(Investment Opportunity Set)이다. 통상 어떤 위험 자산의 기대수익률이 높고 변동성이 낮다면 그 자산의 투자기회집합은 좋다(Good)고 판단할 수 있어 투자를 감행하기에 큰 무리가 없다. 문제는 현재와 같이 금융시장이 큰 폭으로 요동치는 상황에서는 미래의 기대수익률과 변동성을 제대로 예측하기가 어렵다는 것이다. 다시 말해 현재 금융시장에서는 앞으로 위험 자산의 투자기회집합이 좋을지 나쁠지를 판단하기엔 불확실성이 매우 크다. 그래서 특정 자산에 대한 투자 의사결정을 내리기 힘들다.

미국 시카고대 경제학과 연구진은 거대 언어모델을 통해 금융시장에 존재하고 있는 불확실성을 학습할 수 있는 자산관리 해법을 제안했다. 연구진은 또한 사람이 하기 힘든 일을 챗GPT를 포함한 거대 언어모델이 할 수 있다고 분석한다. 정보의 홍수 속에서 금융시장 내 텍스트 마이닝(Text Mining)2 을 통해 호재 또는 악재로 작용할 수 있는 뉴스를 효과적으로 선별하고 분류해 투자에 적극 활용할 수 있다고 강조한다.


무엇을 발견했나?

노벨경제학상을 수상한 로버트 머튼(Robert C. Merton)의 포트폴리오 이론에 따르면 위험 자산에 대한 투자는 크게 세 가지 요소에 의해서 결정된다. 바로 투자자의 위험회피성향, 위험 자산의 기대수익률, 위험 자산의 변동성이다. 투자자의 위험회피성향은 선호 파라미터(Preference Parameter)로 분류된다. 이를 데이터를 통해 정확하게 추정하기는 어렵지만 보통 적게는 1에서 크게는 10 사이의 값을 갖는다고 알려져 있다. 한편 투자와 관련한 기존 연구에서는 역사적 데이터(Historical Data)를 통해 위험 자산의 기대수익률과 변동성을 추정해왔다. 그러나 이는 금융시장의 투자기회집합이 일정하다는 제한적인 가정에서만 투자에 활용될 수 있다. 왜냐하면 미래의 금융시장은 과거의 데이터를 통해 관찰됐던 대로만 움직이지 않기 때문이다. 2008년 글로벌 금융위기와 코로나19 사태가 그랬고 최근의 비상계엄 선포 사태 또한 바로 그 전날의 금융시장 데이터로는 전혀 예측이 불가능했던 사례다.

x축과 y축으로 대변되는 2차원 그래프를 상상해보자. 이 그래프에 수만 개의 점이 찍혀 있다. 이러한 점들을 가장 잘 설명할 수 있는 수학적 표현을 생각해보자. 기울기 a와 y절편 b로 표현할 수 있는 일차원 직선의 방정식 y=ax+b를 떠올릴 수도 있고 이보다 더 복잡한 이차함수, 삼차함수 등을 고려해 볼 수도 있다. 여기서 중요한 것은 결론적으로 무작위로 흩뿌려져 있는 그래프상의 수만 개의 점을 정확히 다 따라갈 수 있는 수학적 함수는 존재하지 않는다는 것이다. 어떻게 보면 현재의 경제 상황 또한 우리가 살아가고 있는 3차원의 공간 속에서 수많은 문자적 뉴스와 수치 정보가 무작위로 뒤섞여 혼재돼 있다고도 설명할 수 있겠다. 그러면 가장 중요한 것은 이러한 무작위 정보를 어떻게 유의미하게 해석할 수 있을까 하는 것이다.

본 연구는 거대 언어모델이 금융시장과 관련한 수많은 수치 데이터(Numeric Data)를 유용하게 해석하는 데 큰 역할을 할 수 있다고 주장한다. 이는 궁극적으로 거대 언어모델이 텍스트 마이닝 기법과 결합해 뉴스의 홍수 속에서도 금융시장에 작용할 호재와 악재를 가려낼 수 있음을 시사하고 있다. 구체적으로 BERT(Bidirectional Encoder Representations from Transformers) 거대 언어모델을 활용해 문서의 수익 공시(Earnings Disclosure)와 관련된 정보를 중심으로 유용한 서사적 정보(Narrative Information)를 해독해 금융시장에 필요한 정보를 선별한다. 그리고 인공신경망(Artificial Neural Network)3 을 통해 해독한 서사적 정보와 문서에 주어진 수치 데이터 사이의 복잡한 관계를 해석하는 과정을 거친다. 실제로 1995년부터 2021년까지의 MD&A(Management Discussion and Analysis) 데이터4 를 활용해 분석한 결과 단순 회계 정보(Accounting Information)만을 통해 기업의 수익을 예측하는 벤치마크 모형의 경우 56.1%의 정확도를 보이는 반면 수치 데이터에 대한 해석과 서사적 정보를 상호 결합할 수 있는 본 연구의 거대 언어모델 예측 모형은 64.86%의 정확도를 보였다. 이는 거대 언어모델이 기존 모형보다 약 16% 정도 예측력을 향상시키는 결과다.

본 연구의 결과 중 흥미로운 사실은 거대 언어모델 예측 모형은 경제의 불확실성이 클 때 더 효과적일 수 있다는 점이다. 이는 서사적 정보가 갖는 문맥의 중요성이 어떤 경제 시나리오가 놓여 있는지에 따라 크게 달라지기 때문이다. 보통 경제가 호황기에 접어들어 미래에 대한 불확실성이 크지 않은 상황에서는 공시된 수치적 데이터 그 자체가 줄 수 있는 정보가 큰 의의를 갖는다. 예를 들어 어떤 특정 기업이 어닝 서프라이즈를 발표했다면 그 발표에 포함된 수치 자체는 기업과 금융시장에 작용할 호재로 해석될 수 있다. 그러나 2008년 글로벌 금융위기, 코로나19 사태 또는 최근의 비상계엄 사태와 같은 상황에서는 수치적 데이터 그 자체가 줄 수 있는 정보가 크게 많지 않을 수 있다. 워낙 변동성이 큰 상황이기 때문에 가령 지금과 같이 원·달러 환율이 치솟고 있는 수치 자체를 크게 해석할 필요가 없는 것과 마찬가지다. 그러나 이렇게 경제가 극단적으로 불확실한 상황일수록 서사적 설명의 형태로 주어지는 정부의 여러 보도자료와 발표는 주어진 금융시장의 수치 데이터를 해석하는 데 매우 중요한 역할을 할 수 있다.

GettyImages-905574422_[변환됨]



연구 결과가 어떤 교훈을 주나?

2016년 3월 이세돌 9단과 구글 딥마인드의 인공지능 알파고의 세기의 바둑 대결을 우리는 아직도 기억하고 있다. 당시 이세돌 프로의 승리를 예견하는 사람들이 지배적이었으나 결과는 4대1 알파고의 승리로 끝이 났다. 그러나 인공지능의 원리를 조금이라도 이해하고 있는 사람이라면 이세돌 프로의 1승 그 자체는 ‘신의 기적’이라 표현할 만하다. 인공지능은 의사결정을 내릴 때 사람이 할 수 없는 수만 번의 예측 시나리오를 먼저 시뮬레이션하고 그 결과를 미리 본 다음에 가장 성공 확률이 높은 방향으로 판단을 하기 때문이다.

챗GPT를 비롯한 최근의 거대 언어모델은 이러한 인공지능의 엄청난 계산력과 함께 복잡도를 해석할 수 있는 인공신경망까지 결합함으로써 이제 미래에 대한 사람의 예측력을 훨씬 상회하기에 이르렀다. 본 연구에서처럼 거대 언어모델은 금융시장의 수익성을 정확하게 예측할 수 있고 이는 실제로 애널리스트들의 분석 및 투자 자문에도 적극적으로 활용되고 있다.

이제 우리는 앞으로 더 발전하게 될 거대 언어모델의 무한한 가능성에 대해 이렇게 질문해야 할지도 모른다. 거대 언어모델을 따르면 더 정확할 수 있고 더 많은 수익을 낼 수 있는데 과연 그렇게 하는 것이 합당한가? 왜냐하면 아직까지 거대 언어모델은 시뮬레이션에 기반한 확률적 의사결정을 내릴 뿐 그 의사결정에 대한 합당한 이유, 즉 리즈닝(Reasoning)을 제공하지는 못하기 때문이다. 어쩌면 이세돌 9단이 작년 구글코리아와의 인터뷰에서 인공지능과 관련해 공공선을 위한 개발 원칙을 세워야 한다고 말했던 것도 이와 비슷한 맥락일 듯하다.
  • 박세영seyoung.park@nottingham.ac.uk

    노팅엄경영대 재무 부교수

    필자는 연세대 수학과를 졸업하고 포항공대에서 투자, 위험관리 전공으로 박사학위를 받았다. 이후 여신금융협회 조사역으로 재직한 후 싱가포르국립대 박사후과정을 거쳐 2017년부터 2019년까지 영국 러프버러경영대에서 재무 조교수로 재직했다. 주요 연구 분야는 포트폴리오 이론을 중심으로 한 투자, 위험관리와 은퇴, 보험, 연금 등 생애주기 전반에 걸친 자산관리 등이다.

    이 필자의 다른 기사 보기
인기기사

질문, 답변, 연관 아티클 확인까지 한번에! 경제·경영 관련 질문은 AskBiz에게 물어보세요. 오늘은 무엇을 도와드릴까요?

Click!