빅데이터 리더십

AI가 北核보다 무섭다고? 진단 분석·이상탐지는 생명을 살린다

232호 (2017년 9월 Issue 1)



Article at a Glance


디지타이징 비즈니스(digitizing business) 유형 중 진단 분석/이상 탐지 사례 분석

1. 진단 분석

: 데이터 속에서 일관적인 경향을 나타내는 패턴을 잘 파악해 문제를 발생시키는 원인이나 상황을 찾아내는 것. 언제, 어디서, 어떤 일이 얼마나 발생했는지를 파악해 체계적으로 정리함으로써 문제 해결. 빅데이터에 기반한 ‘약한’ 인공지능의 발달로 유용성 배가.


2. 이상 탐지

: 문제(사건)에 대해 즉각 대응할 수 있도록 현재 무슨 일이 벌어지고 있는지를 조기에 탐지하는 것. 과거 데이터를 통해 왜 그런 일이 일어났는지를 파악하는 ‘지도학습’ 기법을 기초로 한 시스템을 근간으로 함. 고객(회원) 이탈, 사기 탐지, 채무불이행 예측, 병원에서의 환자 이상 탐지, 첨단 기계에서의 고장 탐지 등 다양한 비즈니스 영역에 걸쳐 활용.

 

편집자주

 
4차 산업혁명의 중심에 빅데이터가 자리 잡고 있습니다. ‘혁명적인 변화’가 일어나고 있는 만큼 리더십 자체도 혁명적으로 변화해야 합니다. 국내 최고의 빅데이터 전문가인 김진호 교수와 영업혁신의 대가 최용주 교수가 ‘빅데이터 리더십’을 통해 새로운 리더십 해법을 제시합니다.

 

 

문제는 데이터를 찾는 것이 아니라 데이터로 무엇을 할지 생각해내는 것이다.

- 마이크 루카이즈 오라일리 부사장

 

DBR 229호 아티클에서는 빅데이터 시대의 5대 핵심 기술(소셜미디어, 모바일, 사물인터넷, 클라우드, 빅데이터 분석)을 통해 사업을 혁신하는 디지타이징 비즈니스(digitizing business)의 7가지 유형에 대해 소개했다. 이번 호 아티클에서는 이 중 첫 번째 유형(생산성 향상이나 이상 탐지 등을 통해 기존 사업의 운영 효율 제고), 즉 진단 분석과 이상 탐지 사례에 대해 다루고자 한다.

 
232_100_2

 

 

진단 분석의 중요성



진단 분석은 종종 어떤 일이, 언제, 어디서, 얼마나 발생했는지를 파악해 체계적으로 정리하는 것인데 이것만으로도 의사결정에 중요한 통찰을 찾아낼 수 있는 경우가 많다. 따라서 어떤 문제에 대해 자료를 수집하고, 표와 그래프로 만들어 정리해 그 의미를 해석하는 것이 매우 중요하다. 이런 측면을 잘 나타내는 두 개의 사례, 즉 산욕열(産褥熱, puerperal fever)과 벤포드법칙(Benford's law)에 대해 살펴보자.

 

1. 산욕열

 

산욕열은 출산 후에 산모가 감염으로 섭씨

38도 이상의 고열을 내는 질환이다. 흔히 산욕 패혈증이라고도 한다. 현재는 위생관념의 발달로 대부분의 나라에서 거의 박멸된 질병이지만 위생상태가 나쁘고 항생제는 물론 세균이란 개념조차 존재하지 않던 시기에는 엄청나게 무서운 병이었다. 특히 19세기 초 유럽에서는 병원에서 출산한 산모 중 약 25∼30%가 산욕열로 숨질 정도였다.

 

이렇게 사망률이 높은 데도 불구하고 그 원인에 대해서는 전혀 알지 못했다. 당시에 몇몇 의사들은 산욕열이 의사가 유발하는 질병이라고 주장했다. 예를 들면 미국의 유명한 의사인 홈스(Oliver Holmes, Sr.)는 “내 자식을 의사와 간호사들의 손에 묻어 있는 이 끔찍한 질병의 증기에 노출시키기보다는 차라리 마구간에서 낳겠다”고 말하기도 했다. 하지만 이런 주장은 의사가 병의 원인이 된다는 이론에 거부감을 느낀 산부인과 의사들의 심한 반대에 부딪혔다. 또한 당시는 질병을 일으키는 세균을 발견하기도 전이었다.

 

1846년에 빈(Vienna) 종합병원에서 산부인과 의사로 일하던 제멜바이스(Ignaz Semmelweis)는 집에서 분만할 때보다 병원에서 분만할 때 산욕열이 훨씬 높다는 사실에 의문을 가졌다.1   더욱이 빈 병원에는 산부인과 병동이 2개 있었는데 <표 1>에서 보듯이 산욕열로 인한 사망률이 병동에 따라 차이가 컸다.

 

우선, 1병동의 산욕열 사망률은 평균 약 10%였지만 2병동의 사망률은 4% 이하로 훨씬 낮았다. 이런 사실은 병원 외부에도 잘 알려져 있었다. 두 병동은 교대로 환자들을 받았는데 환자들은 서로 2병동에 입원하기를 간청했다. 심지어 어떤 산모들은 1병동으로 가기보다는 길거리에서 분만하려고 했는데 길거리 출산의 경우에도 산모들이 산욕열로 사망한 경우는 매우 드물었다. 제멜바이스는 이런 차이가 왜 일어나는지, 즉 무엇이 이 파괴적인 산욕열을 발생시키거나 막는지를 규명하고자 했다.

 

두 병동은 유사한 환경에서 동일한 기술을 사용하고 있었다. 단지 1병동에서는 의과대학생들이, 2병동에서는 조산사 학생들이 수업을 받는 게 유일한 차이였다. 하지만 그런 차이가 산욕열에 의한 사망률의 차이와 어떻게 연관되는지는 전혀 알 수 없었다. 1847년 초에 제멜바이스는 돌파구가 되는 매우 중요한 단서를 발견했다. 그의 친한 친구인 콜레츠카(Jakob Kolletschka)가 부검을 하다가 한 학생의 메스에 실수로 상처를 입어 패혈증으로 사망했는데 콜레츠카의 부검 결과가 산욕열로 사망한 산모의 결과와 유사했던 것이다.

 

제멜바이스는 시체에서 나온 어떤 독성 물질(cadaverous particles)이 부검을 한 의대생들의 손을 거쳐 산부인과 1병동의 산모에게 전염돼 산욕열을 일으킨다고 추리했다. 분만실에 들어가기 전에 종종 부검을 실시하던 의사들과 의과 학생들이 산부인과 검사와 출산 중에 자신도 모르게 산모에게 전염시키는 것이었다. 2병동에 있는 조산사 학생들은 부검을 하지 않아서 사체와 접촉이 없었기 때문에 그 병동에서는 산욕열로 인한 사망률이 낮았던 것이다.

 

제멜바이스는 부검 후 산모 진료 전에 염화칼슘액(calcium chloride solution)으로 손을 소독하는 규칙을 만들었다. 염화칼슘액은 감염된 부검 조직에서 나오는 부패한 냄새를 가장 잘 제거했기 때문이었다. 이 방침은 놀라운 결과를 가져왔다. 1병동의 사망률이 무려 90%나 감소해 2병동과 유사한 수준이 됐던 것이다. 그해 4월 18.3%에 달하던 사망률은 5월 중순부터 손 씻기가 시행된 이후 ▲6월 2.2% ▲7월 1.2% ▲8월 1.9% 등 1∼2%대로 떨어졌다.


하지만 산욕열이 의사들의 청결하지 못한 손에서 전염된다는 제멜바이스의 가설은 매우 극단적인 주장이었고, 다른 의사들의 심한 저항을 불러일으켰다. 결국 그는 해고됐으며 경멸과 조롱의 대상이 됐다. 제멜바이스는 의학계의 이런 무책임한 태도에 크게 분노했으며 유럽의 저명한 산부인과 의사들에게 무책임한 살인자들이라고 비난하는 편지를 공개적으로 보내기도 했다. 동시대 의사들은 물론 부인에게조차 미친 사람 취급을 받은 그는 1865년에 정신병원으로 보내졌고 거기에 수용된 지 14일 만에 구타로 숨졌다. 제멜바이스의 가설은 그가 죽은 지 1년 후에 파스퇴르(Louis Pasteur)가 질병을 일으키는 세균을 증명함으로써 인정받게 됐다. 오늘날 제멜바이스는 현대 소독법의 선구자로 인정받고 있다.


232_100_1


2. 벤포드법칙

 

벤포드법칙은 숫자의 첫 자리와 관련된 패턴이다. 모든 숫자는 1과 9 사이의 어느 한 수로 시작된다. 사람들은 직감적으로 1이나 5나 혹은 9로 시작하는 숫자의 비율이 모두 약 11%(1/9)로 같을 것이라 생각한다. 과연 그럴까? 이는 각 수로 시작하는 숫자의 비율을 정리해서 표로 만들면 확인할 수 있다. 실제로 숫자들을 분석해서 표로 만들었더니 전혀 다른 결과가 나왔다. 이런 결과는 현재 아주 유용하게 쓰이고 있다. 첫 자리 법칙(first-digit law)이라고도 불리는 벤포드법칙은 1881년에 천체학자 뉴컴(Simon Newcomb)이 처음 발견했는데, 그는 로그 변환표에서 1로 시작하는 페이지가 다른 부분들에 비해 월등히 많이 참조돼 상대적으로 훨씬 더 손때에 닳은 사실을 주목했다. 1938년에 물리학자인 벤 포드 박사는 뉴컴보다는 훨씬 더 많은 양의 데이터에서 동일한 패턴을 발견했다. 그는 강(江)의 면적, 야구 통계, 잡지 기사 속의 숫자, <아메리칸 멘 오브 사이언스>지에 실린 342명의 주소들처럼 아주 상이한 영역에서 2만2029개의 수를 선택해 표로 만들어 봤다. 그 결과는 사람들의 직감을 크게 벗어난 것이었다. 즉, 모든 경우에 있어 첫 자리가 1로 시작하는 수가 30%, 2로 시작하는 수가 17%, 3이 12.5%, 4가 9.7%, 5가 7.9%, 6이 6.7%, 7이 5.8%, 8이 5.1%, 9로 시작하는 수는 4.5%를 차지한 것이다. 1과 2로 시작하는 숫자의 비율은 11%(1/9)보다 훨씬 높았고, 반대로 5 이상 숫자로 시작하는 비율은 훨씬 낮았다. 이러한 첫 자리 숫자의 비율은 전기요금 청구서, 번지수, 주식 가격, 인구수, 사망률, 수학이나 물리에서의 상수 등 다양한 자료에서 일관되게 나타나는 것이 확인됐다.

 

1972년에 경제학자인 할 베리안(Hal Varian)은 각종 제안서 속에 제시된 사회-경제 자료가 조작된 것인지를 탐지하는 데 벤포드법칙이 이용될 수 있음을 보여줬다. 사람들이 자료를 조작할 때는 숫자들이 고르게 나오도록 조작하기 때문에 제출된 숫자의 첫 자릿수의 비율과 벤포드법칙의 비율을 간단히 비교하면 조작 여부를 알 수 있다는 것이다. 실제로 많은 수학·통계학자들은 이 법칙이 데이터의 조작탐지와 횡령, 탈세자 탐지 등과 같은 데 사용될 수 있는 놀랍도록 강력한 도구라고 확신한다. 현재 미국의 여러 주 세무서에서는 벤포드법칙에 바탕을 둔 탐지 시스템을 운용 중인데 이 시스템은 상당히 정확하게 불법 탈세나 중요한 회계상 변화를 탐해 낸다고 한다. 또한 미국에서는 형사재판에서 피고나 원고가 증거로 제출하는 숫자에 대해 상대방은 벤포드법칙에 의한 조작 여부를 검증할 수 있고 이 결과는 숫자 조작의 증거로 채택되고 있다.2   

 



3. 진단분석과 인공지능

 

인공지능은 인간과 기계가 싸우는 파란만장한 이야기가 아니다; 실제로 인공지능은 기계의 에너지를 가진 인간의 이야기다.

- 수딥토 고시 콜로라도주립대 컴퓨터공학과 교수


많은 변수들이 복잡하게 작용하는 문제들은 왜 그런 일이 일어났는지를 찾아내는 과정이 쉽지 않다. 이런 경우에는 상대적으로 복잡한 통계 모델 혹은 인공지능을 활용해 진단분석을 해야 한다. 여기서 우리가 말하는 인공지능은 ‘약한(weak)’ 인공지능을 의미한다. 사람처럼 생각하고, 판단하고, 행동하는 로봇을 만들고자 했던 인공지능 분야는 초기의 호언에도 불구하고 거의 성과를 내지 못했다. 그로 인해 인공지능 분야는 몇 번의 암흑기를 거치면서 협소한 영역에서 실용적인 결과를 내고자 하는 약한 인공지능에 초점을 맞추기 시작했다. 약한 인공지능은 미리 정의된 특정한 형태의 문제를 해결하는 데 있어서 눈부신 성과를 내기 시작했는데 그 이유는 빅데이터 시대의 도래 때문이다. 약한 인공지능은 학습을 위해 많은 양의 데이터와 이를 빠르게 처리할 수 있는 기술(하드웨어와 소프트웨어)이 필요한데 엄청난 양의 다양한 데이터가 폭증하고 클라우드와 오픈소스 소프트웨어가 쉽게 접근 가능한 빅데이터 시대에 이르러 그야말로 ‘찰떡궁합’으로 높은 성과를 내고 있다.

 

인공지능의 시대라고 불리는 오늘날 이미 인공지능은 검색엔진, 인터넷 쇼핑몰, 광고, 물류, 미디어 등 많은 영역에서 혁신을 주도하고 있으며 거의 모든 산업은 물론 일상생활에서까지 유용하게 활용되고 있다. 앞으로도 인공지능은 더 넓은 영역에서 더욱 세세한 문제에 이르기까지 그 적용이 확장되면서 높은 성과를 낼 것으로 보인다. 최근에 인공지능 바둑인 알파고가 바둑 최고 프로들을 가볍게 이긴 것은 인공지능이 어디까지 왔는지 그 수준을 보여줬다. 하지만 동시에 인공지능에 대한 우려도 높아지고 있다. 특히 흥미 있는 기사를 써야 하는 언론도 종종 이런 우려를 조장하거나 과장하는 경향이 있다. 첨단의 인공지능 로봇이 등장하는 드라마나 영화에 영향을 받은 사람들도 많다. 우리는 이미 외로운 사람들에게 대화와 위로를 제공하는 인공지능도 봤고, 심지어 인종적인 차별을 학습한 로봇도 경험했다. 인공지능으로 대체할 수 있는 직업도 이전보다는 훨씬 많아져서 사람들은 일자리가 크게 줄어드는 것을 심각하게 우려하고 있다. 그래서 일부에서는 인공지능이 곧 세상을 지배할 것이라고, 혹은 곧 ‘특이점(technical singularity)’에 도달할 것이라고 걱정하기도 한다. 특이점이란 인공지능이 인간과 유사하거나 그 이상의 지능을 갖게 돼 인간의 역사를 되돌릴 수 없게 되는 전환점을 의미하며, 이 이후에 인류는 인공지능에 의해 지배를 받게 된다.

 

인공지능의 잠재력이 초래할 미래에 대해서는 현재 정반대의 시각이 대립하고 있다. 페이스북의 설립자인 마크 저커버그(Mark Zuckerberg)와 테슬라자동차의 최고경영자(CEO)인 일론 머스크(Elon Musk) 간에 벌어지고 있는 최근의 논쟁은 그런 대립을 극명하게 보여준다. 머스크는 트위터에서 “당신이 AI의 안전성에 관해 걱정하지 않는다면 반드시 걱정해야만 할 것”이라며 “북한의 핵과 미사일 위협보다 AI가 엄청나게 더 위험하다”고 말했다. AI를 선제적으로 규제하지 않으면 영화 ‘터미네이터’에서처럼 인류의 근본적인 생존과 미래를 크게 위협하게 될 것이라는 평소 지론을 강조한 것이다. 하지만 저커버그는 “AI 부정론자나 재앙을 예언하는 이들을 그냥 이해할 수 없다. 이는 매우 부정적이고 실은 무책임하다”고 반박하며 AI가 가져올 수 있는 긍정적인 측면들을 강조했다. 그러자 머스크는 “저커버그의 이 분야(AI)에 대한 지식은 한정돼 있다”라고 재반박했다.3   이런 대립과 논쟁은 이제 막 가열되기 시작한 것으로 앞으로도 한동안 계속될 것이다.

 

필자들은 머스크보다는 저커버그에 가까운 입장을 갖고 있다. AI에 대한 우려는 매우 비현실적이며, 영화에서 많이 등장하는 인간 수준의 ‘강한(strong)’ 인공지능이 탄생하려면 감각과 동작 등 극복하기 거의 불가능한 장애를 넘어서야 한다는 것이 필자들의 생각이다. 심지어 필자들은 영화에서 많이 등장하는 인간 수준의 인공지능이 현실적으로 실현될 가능성은 없다고 본다. 모든 사람이 누구나 갖고 있는 지능이란 무엇일까? 지능의 실체는 너무 다양해서 제대로 정의하기도 어렵다. 따라서 인공적으로 지능을 만들 수도 없다. 우리가 알지도, 파악하지도 못하는 것을 우리가 만들어 낼 수는 없기 때문이다.

 

의학이나 과학 등이 매우 발달한 현재도 아직 우리가 인간 자체에 대해 알고 있는 것은 극히 제한적이다. 그렇기 때문에 인간이 지닌 자의식, 섬세한 감정, 열정, 반사 신경 등 수많은 요소를 흉내 내는 건 불가능하다. 영화는 픽션이니까 영화로 즐기면 되지 현실에서 일어날까 봐 걱정할 필요는 없다. 알파고는 세계 최고 수준을 크게 넘어선 바둑을 두지만 정작 자신이 바둑을 두는 줄도 모른다. 아니, 자기 자신이란 것도 아예 없는 소프트웨어일 뿐이다. 바둑돌을 집어서 바둑판 위의 원하는 지점에 놓을 줄도 몰라서 프로그래머인 아자 황이 대신 손 역할을 해 돌을 집어 바둑판 위에 놓아 줬다. 이런 동작을 할 줄 아는 로봇을 만들기란, 설령 엄청난 비용과 시간을 투자한다고 해도 거의 불가능할 정도라고 생각한다.

 

하지만 약한 인공지능은 우리의 삶을 윤택하게 하는 보조적인 도구로서 없어서는 안 될 중요한 역할을 하고 있다. 미래학자 켈리(Kevin Kelly)는 “앞으로 로봇과 얼마나 잘 협력하느냐에 따라 연봉이 달라질 것”이라고까지 말했다. 이제 우리는 약한 인공지능이라는 도구를 유용하게, 그리고 현명하게 활용할 줄 알아야 한다. 그러기 위해서는 우선 인공지능이 무엇을 할 수 있고, 할 수 없는지를 제대로 이해해야 한다. 현재 인공지능은 과연 무엇을 할 수 있을까?

 

4. 인공지능이 할 수 있는 것: 지도 학습


과거를 통제하는 자가 미래를 장악한다.
- 오손 웰스(소설가)

 

인공지능은 현재 어디까지 왔고 과연 무엇을 할 수 있을까? 스탠퍼드대 앤드루 응(Andrew Ng) 교수는 딥러닝의 대가 중 한 사람이다. 그는 스탠퍼드대 인공지능연구소 소장을 지냈으며, 구글에서 브레인팀(Brain Reaearch Team)을 만들었고, 바이두에서는 1200명의 인공지능 전문가들을 이끄는 인공지능센터장을 맡았다. 응 교수는 인공지능이 할 수 있는 것에 대해 이렇게 말한다.4 

 

“놀랍게도, 인공지능이 가져온 충격의 크기(breadth)에도 불구하고, 전개되고 있는 발전의 형태는 여전히 극히 제한적이다. 인공지능의 최근 발전에서 거의 모든 것은 한 가지 형태를 통해 이뤄졌다: 어떤 입력 데이터(A)를 활용해 어떤 간단한 출력(B)을 빠르게 만들어 내는 것.”


232_100_3

 

인공지능이 이미 거의 모든 영역에서 변혁을 주도하고 있지만 응 교수가 지적했듯이 거의 모든 혁신의 형태는 A를 입력해 B를 출력하는 한 가지 형태다. A를 입력해서 출력 B를 만들어내기 위해서는 기계학습을 활용해야 한다. 기계학습이란 기계, 즉 컴퓨터 프로그램이 데이터 속에서 문제를 발생시키는 일관적인 패턴을 찾아내는(학습하는) 것을 말한다. 이 용어를 만든 사무엘(Arthur Samuel)은 기계학습을 ‘명시적으로 프로그래밍을 하지 않고도 컴퓨터가 학습할 수 있는 능력을 갖게 하는 것’이라고 정의했다. 우리가 이미 알고 있듯이 컴퓨터는 사전에 명시적으로 프로그램된 명령어에 따라 작동을 한다. 하지만 어떤 문제들은 수작업으로 명령어를 사전에 프로그램하기가 불가능하다. 예를 들어 항공기는 운항 중에 엔진에 장착된 수백 개의 센서를 통해 진동, 압력, 온도, 속도 등의 데이터를 위성을 통해 전송한다. 데이터 센터에서는 이 데이터를 실시간 분석해 연료 효율과 엔진 결함 등의 이상을 탐지한다. 이런 경우에는 변수의 수와 변수 간의 복잡한 상호관계로 인해 명시적으로 사전에 결함을 탐지하는 프로그램을 작성하기가 거의 불가능하다. 그래서 기계학습을 활용할 수밖에 없게 된다. 현실 속 많은 문제들이 이런 사례에 해당한다. 스팸 제거, 상품 추천, 글자 인식, 이미지 인식, 클릭 기록 분석, 의료기록 분석, DNA 분석, 자율운행(차, 헬기) 등이 이에 해당한다.

 

기계학습 기법 중 A를 입력해 B를 출력하는 기법은 지도학습이다. 이를 간단한 예로 설명해보자. <그림 1>은 어떤 비행기 엔진의 고장에 관련한 데이터를 시각적으로 나타낸 것이다.

 

X1과 X2는 엔진 속의 센서 데이터를 나타내고, O는 엔진이 정상적이었던 경우, X는 고장이 났던 경우를 각각 가리킨다. 기계학습은 센서 데이터 X1과 X2를 활용해 엔진의 고장 여부(O와 X)를 잘 구분해내는 모델(함수)을 찾아내는 것이다. 물론 A와 B 모두에 대한 많은 사례, 구체적으로는 최소한 수만 건 이상의 센서 데이터(X1과 X2)와 각각의 경우에 대한 엔진의 고장 여부(O와 X) 데이터가 있어야 한다. 이미 데이터에 주어진 고장 여부(O와 X)의 결과를 활용하므로(지도받으므로) 지도학습이라고 한다. 이렇게 해서 좋은 모델을 개발하면(학습하면), 다음에 새로운 상황이 주어질 때, 즉 새로운 엔진의 센서 데이터 X1과 X2가 주어질 때, 이 학습된 모델을 활용해 과연 엔진 결함이 일어날 것인지를 예측한다.

 
232_100_4


응 교수는 지도학습을 간단히 이해할 수 있도록 대표적인 사례를 <표 2>와 같이 제시했다.

 

<표 2>는 대표적인 사례를 제시한 것으로, 현재 A→B 시스템은 거의 모든 산업에서 빠르게 확산되며 개선되고 있다. 응 교수는 A→B 시스템의 파괴력이 더욱 확산돼 “보통의 사람이 1초 이내의 생각으로 할 수 있는 정신적인 과제들을 우리는 지금 혹은 가까운 미래에 인공지능을 사용해 자동화할 수 있을 것이다. 현재는 사람들에 의해 수행되는 가치 있는 많은 작업들이 1초 이내에 수행될 것이다. 수상한 행동을 탐지하기 위해서 보안 비디오를 검사하고, 차가 행인을 칠 것인지를 판단하고, 모욕적인 온라인 게시물을 찾아내 제거하는 등의 작업들은 자동화에 아주 적합하다”고 예측한다.5 



 

A→B 시스템은 A→B 관계를 파악하기 위해 엄청난 양의 데이터가 필요하다는 약점을 갖고 있다. 지도학습을 위해 A와 B 모두에 대한 많은 사례를 제공해야 하기 때문이다. 예를 들어, 대출 승인을 하는 소프트웨어를 만들려면 수만 건에서 수십만 건의 대출 신청(A)과 각각의 대출이 상환됐는지를 알려주는 라벨(B)이 필요하다. 사진 태깅(tagging)을 하는 인공지능도 수만 장에서 수십만 장의 사진(A)과 그 사진 안에 사람이 있는지를 알려주는 라벨(B)이 있어야 가능하다. 마찬가지로 음성인식 시스템을 만들기 위해서는 수만 시간의 오디오(A)와 함께 그 오디오를 글로 옮긴 것(B)이 필요하다. 인공지능 연구자 간에는 아이디어와 심지어는 오픈소스 코드까지 발표하고 공유하고 있기 때문에 다른 사람들의 소프트웨어를 1∼2년 내에 거의 그럴듯하게 복사하는 것이 가능하다. 예를 들면 알파고가 등장한 후에 일본에서는 딥젠고, 중국에서는 줴이 등 유사한 성능의 인공지능 바둑프로그램이 1년 내에 등장했다. 하지만 관련된 막대한 양의 데이터를 얻거나 다른 누군가의 데이터에 접근하는 것은 무척이나 어렵다. 인공지능 시대에는 소프트웨어가 아니라 데이터가 많은 사업에 있어서 자산이자 방어적인 진입장벽이 되고 있다.

 


이상 탐지

 

이상 탐지는 문제(사건)에 대해 즉각 대응할 수 있도록 현재 무슨 일이 벌어지고 있는지를 조기에 탐지하는 것을 말한다. 그 바탕은 위에서 설명했듯이 과거 데이터를 기반으로 왜 그런 일이 일어났는지를 지도학습 기법으로 개발한 A→B 시스템이다. 현실에서는 거의 모든 산업의 광범위한 영역에서 이상 탐지가 일상적으로 이뤄지고 있는데 특히 많이 적용되는 문제들을 요약하면 <표 3>과 같다.

 
232_100_5


인공지능의 잠재력이 매우 큰 이유는 바로 <표 3>의 사례들이 대부분 인공지능으로 자동화될 수 있기 때문이다. 해상 시추선의 예방 정비 사례를 보자. 센서 데이터를 이용해 장비나 설비의 이상을 조기에 탐지하는 것을 예방 정비(preventive maintenance) 혹은 예지 정비(predictive maintenance)라고 한다. 해상 시추선 밑에는 해저에서 작동하는 수중 전기 펌프가 있다. 이 펌프는 한 번 해저에 설치되면 수명 3년 동안에는 접근하기가 매우 어렵고 펌프 대체 비용도 약 240억 원이나 된다. 더욱이 펌프를 대체하는 동안에 시추 작업 중단으로 인한 생산 손실은 최대 2400억 원이다. 펌프의 이상을 사전에 탐지하기 위해서 수중 환경과 펌프 작동 상황을 실시간 측정한 센서 데이터를 자동으로 분석하는 인공지능은 해상 시추 작업에서는 필수적이다.

 

1. 어떤 가입자가 보험을 해지할 것인가?

 

어떤 문제(사건)가 왜 발생했는지를 탐지해 실시간으로 대응하기 위해서는 대부분의 경우에 다양한 기계학습 기법, 예를 들면 로지스틱 회귀분석, 신경망, 의사결정트리 모형 등을 적용한 뒤 이상 탐지 성능이 가장 좋은 모델을 선정한다.6 

보험 고객(회원)의 이탈 탐지 사례를 보자. 기존 고객이 계속 회원으로 남아 있도록 하는 것은 통신사, 보험사, 은행, 증권사, 포털사이트 등 회원들로 운영되는 대부분의 조직에서 매우 중요한 문제다. 왜냐하면 기존 고객을 유지하는 데 드는 비용이 고객을 확보하는 데 드는 비용보다 매우 적기(약 1/7) 때문이다.

 

구체적인 데이터로 회원 이탈을 탐지하는 과정을 보자. 한 보험사의 4만4942명의 회원에 대한 실제 데이터를 <표 4>와 같이 정리했다.7 



 
232_100_6


회원의 현재 상태는 유지는 0, 해지는 1로 나타냈으며 기계학습 모델은 어떤 회원에 대한 정보, 즉 그 회원에 대한 11개의 설명변수(X1 ∼ X11)가 주어졌을 때 그 회원이 보험을 해지할 확률을 계산한다. 계산된 확률이 0.5를 넘으면 그 회원은 해지 예상자로 분류해 경고를 내리고 필요한 조치를 취하게 된다. 본 사례에 대해 이런 종류의 분석에서 가장 많이 쓰이는 로지스틱 회귀분석 기법을 사용한 결과를 보자. 우선 각 변수가 회원의 현재 상태에 미치는 영향을 보면 해지한 경험이 있거나 해지한 횟수가 많으면 해지할 확률이 증가했다. 또한 납입기간이나 보험기간이 길면 역시 해지할 가능성이 높아졌다. 반대로 남자일수록, 운전자일수록, 계약시기가 최근일수록, 납입횟수가 많을수록, 연체횟수가 많을수록 해지할 확률은 낮아졌다. 연령이나 주보험금의 크기는 해지 확률에 유의한 영향이 없었다. 해지에 미치는 영향력의 크기는 성별, 운전 여부, 납입횟수가 가장 높았으며 부할 횟수는 가장 낮았고 나머지 변수들의 영향력은 중간 정도로 비슷했다.

 
232_100_7


이 모형이 얼마나 유용한가는 우리가 이미 아는 회원의 현재 상태를 이 모형이 얼마나 잘 맞추고 있는지를 분석하면 된다. 모형의 유용성은 <표 5> 같은 분류표(classification table)로 설명된다.

 

<표 5>에서 가로축은 회원의 현재 상태, 즉 해지 상태인 1만9609명과 유지 상태인 2만5333명을 나타낸다. 세로축은 모델이 해지 혹은 유지라고 예측한 것이다. 해지 상태인 1만9609명의 고객에 대해서 모델은 1만5664명을 해지할 것으로 예측했지만 3945명은 유지 상태로 잘못 예측하고 있다. 또한 유지 상태인 2만5333명의 고객에 대해 모델은 2만2459명을 유지라고 올바로 예측했지만 2874명은 해지 상태로 잘못 예측하고 있다.

 

모델의 정확도(accuracy), 즉 올바르게 예측한 비율은 84.8%로 높은 편이라고 할 수 있다. 이 비율은 표에서 대각선의 비율인 ‘(1만5664+2만2459)/4만4942’를 계산한 것이다. 모델 예측력에서 더욱 중요한 것은 모델 개발의 목적인 해지 고객을 해지상태라고 제대로 식별하는 데 있다. 따라서 모델의 정확도 외에도 해지 회원을 해지라고 정확히 예측하는 재현율(recall)도 평가해야 한다. <표 5>에서 재현율은 해지 고객(1만9609)을 해지라고 정확히 예측한(1만5664) 비율인 79.9%다(1만5664/1만9609). 이 모델은 정확도가 84.8%이고 재현율도 약 80%이므로 좋은 모델이라고 할 수 있다.8    참고로 이 데이터에 인공신경망 모델을 적용했더니 정확도는 77.8%, 재현율은 67.1%로 나타나서 로지스틱 회귀분석 모델보다는 못한 결과가 나왔다.

 

2. 캐나다 아동병원의 아르테미스 프로젝트

 

미숙아란 일반적으로 임신 37주 미만으로 태어난 아기를 말하며 정상 개월 수를 다 채우지 못하고 태어났기 때문에 특히 폐의 기능과 면역 체계가 미숙한 상태다. 따라서 미숙아는 감염에 취약하고 그로 인한 사망률도 매우 높다. 캐나다에서는 미숙아의 약 25%가 감염을 일으키고 그중 약 10%는 사망한다.9  신생아 중환자실의 각종 의료 장비는 미숙아의 심장박동, 맥박, 호흡수, 그 외의 신체 기능을 모니터한다. 하지만 이러한 수치들과 감염 간의 관계는 매우 미묘해서 경험이 많은 의사라고 할지라도 감염 여부를 조기에 감지해 증세가 악화되기 전에 미리 대응하는 것이 어렵다.

 

캐나다 토론토대 의학정보연구소장인 맥그리거(Carolyn McGregor) 박사는 미숙아의 데이터를 심층적이고 포괄적으로 분석한다면 미숙아의 감염 여부를 조기 진단할 수 있을 것이라 확신했다. 이전에 유통 분야 컨설턴트였던 그녀는 고객들의 쇼핑 행위를 분석하듯이 미숙아들의 데이터를 분석해 미묘한 이상을 탐지하는, 즉 감염 여부를 조기 경보하는 알고리즘을 개발하려 했다. 아르테미스(Artemis)10 

라고 명명된 이 프로젝트는 미숙아들의 생리적인 데이터와 임상 정보를 실시간으로 수집하고 종합적으로 분석해 감염이나 그 외 합병증들을 조기경보하는 플랫폼이다. 의사들은 미숙아 감염의 증상이 수동적으로 확인되기 24시간 전에 조기경보를 받음으로써 사전에 대응(치료)해 생명을 구할 수 있다.

 

미숙아 한 명당 측정되는 데이터는 생리적인 데이터와 임상 데이터로 구분된다. 생리적인 측면에서는 초당 측정되는 맥박, 호흡수, 혈중산소농도가 하루에 8만6400개의 수치를 만들어낸다. 심장 박동 수는 한 시간에 7000번 이상, 하루에는 약 17만 번이다. 심전도에서는 초당 1000개의 수치가 나온다. 미숙아의 신경 기능 측정에서도 하루에 수천만 건의 데이터가 생산된다. 임상적 측면의 데이터는 약물 주입과 영양 주입이며 미숙아 한 명당 최소한 10개 이상의 약물 주입이 동시에 진행되는데 여기서 발생하는 데이터는 하루에 1GB 이상이다. 아르테미스는 이 데이터를 스트림 처리(stream processing)를 통해 분석한다. 모델 개발의 바탕은 지도학습이다. 감염이 됐던 미숙아와 그렇지 않았던 미숙아에 대한 엄청난 양의 데이터에서 조기 경보의 알고리즘을 학습한 것이다. 2009년에 토론토의 아동병원(The Hospital for Sick Children)에서 시작된 이 프로젝트는 IBM과 제휴해 클라우드 컴퓨팅 버전으로 개발됐고 지금은 캐나다의 여러 아동병원으로 확산됐다. 국제적으로는 미국 프로비덴스, 중국의 상하이와 선전 등의 아동병원에서도 활용하고 있다. 

 

 
김진호 서울과학종합대학원 빅데이터 MBA학과 주임교수 jhkim6@assist.ac.kr

최용주 서울과학종합대학원 산학협력단장 yjc@assist.ac.kr


김진호 교수는 서울대 경영대를 졸업하고 펜실베이니아대(Wharton School)에서 경영학 석사와 박사 학위를 받았다(통계학 부전공). 사회와 기업의 다양한 문제를 계량 분석적으로 접근하는 연구를 주로 했다. 저서로는 와 <빅데이터가 만드는 제4차 산업혁명>이 있으며 DBR에 ‘Power of Analysis’를 연재했다. 최근 알파고와 이세돌 9단과의 대국을 앞두고 많은 바둑 전문가들과는 달리 알파고가 5대0으로 완승할 것이라고 예측해 주목을 끌었다.

최용주 교수는 교수로서는 드물게 기업경영 성과에 직접적인 영향을 미치는 기능인 영업(Sales)에 대한 연구를 해왔다. 연구의 결과로서 <영업의 미래>라는 저서와 <영업혁신>을 발간했다. 최근 들어 ‘영업성과의 향상을 위한 빅데이터 활용에 관한 연구’를 진행하고 있다. 국내 제약회사 및 식품회사의 현장사업본부장 및 부사장, 컨설팅사 대표를 역임했다. 현재 서울과학종합대학원(aSSIST) 교수이자 산학협력단장으로 재직하고 있다.
동아비즈니스리뷰 289호 Boosting Creativity 2020년 1월 Issue 2 목차보기