로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

빅데이터 리더십

AI가 北核보다 무섭다고? 진단 분석·이상탐지는 생명을 살린다

최용주,김진호 | 232호 (2017년 9월 Issue 1)


Article at a Glance


디지타이징 비즈니스(digitizing business) 유형 중 진단 분석/이상 탐지 사례 분석

1. 진단 분석

: 데이터 속에서 일관적인 경향을 나타내는 패턴을 잘 파악해 문제를 발생시키는 원인이나 상황을 찾아내는 것. 언제, 어디서, 어떤 일이 얼마나 발생했는지를 파악해 체계적으로 정리함으로써 문제 해결. 빅데이터에 기반한 ‘약한’ 인공지능의 발달로 유용성 배가.


2. 이상 탐지

: 문제(사건)에 대해 즉각 대응할 수 있도록 현재 무슨 일이 벌어지고 있는지를 조기에 탐지하는 것. 과거 데이터를 통해 왜 그런 일이 일어났는지를 파악하는 ‘지도학습’ 기법을 기초로 한 시스템을 근간으로 함. 고객(회원) 이탈, 사기 탐지, 채무불이행 예측, 병원에서의 환자 이상 탐지, 첨단 기계에서의 고장 탐지 등 다양한 비즈니스 영역에 걸쳐 활용.

 

편집자주

 
4차 산업혁명의 중심에 빅데이터가 자리 잡고 있습니다. ‘혁명적인 변화’가 일어나고 있는 만큼 리더십 자체도 혁명적으로 변화해야 합니다. 국내 최고의 빅데이터 전문가인 김진호 교수와 영업혁신의 대가 최용주 교수가 ‘빅데이터 리더십’을 통해 새로운 리더십 해법을 제시합니다.

 

 

문제는 데이터를 찾는 것이 아니라 데이터로 무엇을 할지 생각해내는 것이다.

- 마이크 루카이즈 오라일리 부사장

 

DBR 229호 아티클에서는 빅데이터 시대의 5대 핵심 기술(소셜미디어, 모바일, 사물인터넷, 클라우드, 빅데이터 분석)을 통해 사업을 혁신하는 디지타이징 비즈니스(digitizing business)의 7가지 유형에 대해 소개했다. 이번 호 아티클에서는 이 중 첫 번째 유형(생산성 향상이나 이상 탐지 등을 통해 기존 사업의 운영 효율 제고), 즉 진단 분석과 이상 탐지 사례에 대해 다루고자 한다.


 
20230620_153934


 

진단 분석의 중요성



진단 분석은 종종 어떤 일이, 언제, 어디서, 얼마나 발생했는지를 파악해 체계적으로 정리하는 것인데 이것만으로도 의사결정에 중요한 통찰을 찾아낼 수 있는 경우가 많다. 따라서 어떤 문제에 대해 자료를 수집하고, 표와 그래프로 만들어 정리해 그 의미를 해석하는 것이 매우 중요하다. 이런 측면을 잘 나타내는 두 개의 사례, 즉 산욕열(産褥熱, puerperal fever)과 벤포드법칙(Benford's law)에 대해 살펴보자.

 

1. 산욕열

 

산욕열은 출산 후에 산모가 감염으로 섭씨

38도 이상의 고열을 내는 질환이다. 흔히 산욕 패혈증이라고도 한다. 현재는 위생관념의 발달로 대부분의 나라에서 거의 박멸된 질병이지만 위생상태가 나쁘고 항생제는 물론 세균이란 개념조차 존재하지 않던 시기에는 엄청나게 무서운 병이었다. 특히 19세기 초 유럽에서는 병원에서 출산한 산모 중 약 25∼30%가 산욕열로 숨질 정도였다.

 

이렇게 사망률이 높은 데도 불구하고 그 원인에 대해서는 전혀 알지 못했다. 당시에 몇몇 의사들은 산욕열이 의사가 유발하는 질병이라고 주장했다. 예를 들면 미국의 유명한 의사인 홈스(Oliver Holmes, Sr.)는 “내 자식을 의사와 간호사들의 손에 묻어 있는 이 끔찍한 질병의 증기에 노출시키기보다는 차라리 마구간에서 낳겠다”고 말하기도 했다. 하지만 이런 주장은 의사가 병의 원인이 된다는 이론에 거부감을 느낀 산부인과 의사들의 심한 반대에 부딪혔다. 또한 당시는 질병을 일으키는 세균을 발견하기도 전이었다.

 

1846년에 빈(Vienna) 종합병원에서 산부인과 의사로 일하던 제멜바이스(Ignaz Semmelweis)는 집에서 분만할 때보다 병원에서 분만할 때 산욕열이 훨씬 높다는 사실에 의문을 가졌다.1   더욱이 빈 병원에는 산부인과 병동이 2개 있었는데 <표 1>에서 보듯이 산욕열로 인한 사망률이 병동에 따라 차이가 컸다.

 

우선, 1병동의 산욕열 사망률은 평균 약 10%였지만 2병동의 사망률은 4% 이하로 훨씬 낮았다. 이런 사실은 병원 외부에도 잘 알려져 있었다. 두 병동은 교대로 환자들을 받았는데 환자들은 서로 2병동에 입원하기를 간청했다. 심지어 어떤 산모들은 1병동으로 가기보다는 길거리에서 분만하려고 했는데 길거리 출산의 경우에도 산모들이 산욕열로 사망한 경우는 매우 드물었다. 제멜바이스는 이런 차이가 왜 일어나는지, 즉 무엇이 이 파괴적인 산욕열을 발생시키거나 막는지를 규명하고자 했다.

 

두 병동은 유사한 환경에서 동일한 기술을 사용하고 있었다. 단지 1병동에서는 의과대학생들이, 2병동에서는 조산사 학생들이 수업을 받는 게 유일한 차이였다. 하지만 그런 차이가 산욕열에 의한 사망률의 차이와 어떻게 연관되는지는 전혀 알 수 없었다. 1847년 초에 제멜바이스는 돌파구가 되는 매우 중요한 단서를 발견했다. 그의 친한 친구인 콜레츠카(Jakob Kolletschka)가 부검을 하다가 한 학생의 메스에 실수로 상처를 입어 패혈증으로 사망했는데 콜레츠카의 부검 결과가 산욕열로 사망한 산모의 결과와 유사했던 것이다.

 

제멜바이스는 시체에서 나온 어떤 독성 물질(cadaverous particles)이 부검을 한 의대생들의 손을 거쳐 산부인과 1병동의 산모에게 전염돼 산욕열을 일으킨다고 추리했다. 분만실에 들어가기 전에 종종 부검을 실시하던 의사들과 의과 학생들이 산부인과 검사와 출산 중에 자신도 모르게 산모에게 전염시키는 것이었다. 2병동에 있는 조산사 학생들은 부검을 하지 않아서 사체와 접촉이 없었기 때문에 그 병동에서는 산욕열로 인한 사망률이 낮았던 것이다.

 

제멜바이스는 부검 후 산모 진료 전에 염화칼슘액(calcium chloride solution)으로 손을 소독하는 규칙을 만들었다. 염화칼슘액은 감염된 부검 조직에서 나오는 부패한 냄새를 가장 잘 제거했기 때문이었다. 이 방침은 놀라운 결과를 가져왔다. 1병동의 사망률이 무려 90%나 감소해 2병동과 유사한 수준이 됐던 것이다. 그해 4월 18.3%에 달하던 사망률은 5월 중순부터 손 씻기가 시행된 이후 ▲6월 2.2% ▲7월 1.2% ▲8월 1.9% 등 1∼2%대로 떨어졌다.


하지만 산욕열이 의사들의 청결하지 못한 손에서 전염된다는 제멜바이스의 가설은 매우 극단적인 주장이었고, 다른 의사들의 심한 저항을 불러일으켰다. 결국 그는 해고됐으며 경멸과 조롱의 대상이 됐다. 제멜바이스는 의학계의 이런 무책임한 태도에 크게 분노했으며 유럽의 저명한 산부인과 의사들에게 무책임한 살인자들이라고 비난하는 편지를 공개적으로 보내기도 했다. 동시대 의사들은 물론 부인에게조차 미친 사람 취급을 받은 그는 1865년에 정신병원으로 보내졌고 거기에 수용된 지 14일 만에 구타로 숨졌다. 제멜바이스의 가설은 그가 죽은 지 1년 후에 파스퇴르(Louis Pasteur)가 질병을 일으키는 세균을 증명함으로써 인정받게 됐다. 오늘날 제멜바이스는 현대 소독법의 선구자로 인정받고 있다.


20230620_153945


2. 벤포드법칙

 

벤포드법칙은 숫자의 첫 자리와 관련된 패턴이다. 모든 숫자는 1과 9 사이의 어느 한 수로 시작된다. 사람들은 직감적으로 1이나 5나 혹은 9로 시작하는 숫자의 비율이 모두 약 11%(1/9)로 같을 것이라 생각한다. 과연 그럴까? 이는 각 수로 시작하는 숫자의 비율을 정리해서 표로 만들면 확인할 수 있다. 실제로 숫자들을 분석해서 표로 만들었더니 전혀 다른 결과가 나왔다. 이런 결과는 현재 아주 유용하게 쓰이고 있다. 첫 자리 법칙(first-digit law)이라고도 불리는 벤포드법칙은 1881년에 천체학자 뉴컴(Simon Newcomb)이 처음 발견했는데, 그는 로그 변환표에서 1로 시작하는 페이지가 다른 부분들에 비해 월등히 많이 참조돼 상대적으로 훨씬 더 손때에 닳은 사실을 주목했다. 1938년에 물리학자인 벤 포드 박사는 뉴컴보다는 훨씬 더 많은 양의 데이터에서 동일한 패턴을 발견했다. 그는 강(江)의 면적, 야구 통계, 잡지 기사 속의 숫자, <아메리칸 멘 오브 사이언스>지에 실린 342명의 주소들처럼 아주 상이한 영역에서 2만2029개의 수를 선택해 표로 만들어 봤다. 그 결과는 사람들의 직감을 크게 벗어난 것이었다. 즉, 모든 경우에 있어 첫 자리가 1로 시작하는 수가 30%, 2로 시작하는 수가 17%, 3이 12.5%, 4가 9.7%, 5가 7.9%, 6이 6.7%, 7이 5.8%, 8이 5.1%, 9로 시작하는 수는 4.5%를 차지한 것이다. 1과 2로 시작하는 숫자의 비율은 11%(1/9)보다 훨씬 높았고, 반대로 5 이상 숫자로 시작하는 비율은 훨씬 낮았다. 이러한 첫 자리 숫자의 비율은 전기요금 청구서, 번지수, 주식 가격, 인구수, 사망률, 수학이나 물리에서의 상수 등 다양한 자료에서 일관되게 나타나는 것이 확인됐다.

 

1972년에 경제학자인 할 베리안(Hal Varian)은 각종 제안서 속에 제시된 사회-경제 자료가 조작된 것인지를 탐지하는 데 벤포드법칙이 이용될 수 있음을 보여줬다. 사람들이 자료를 조작할 때는 숫자들이 고르게 나오도록 조작하기 때문에 제출된 숫자의 첫 자릿수의 비율과 벤포드법칙의 비율을 간단히 비교하면 조작 여부를 알 수 있다는 것이다. 실제로 많은 수학·통계학자들은 이 법칙이 데이터의 조작탐지와 횡령, 탈세자 탐지 등과 같은 데 사용될 수 있는 놀랍도록 강력한 도구라고 확신한다. 현재 미국의 여러 주 세무서에서는 벤포드법칙에 바탕을 둔 탐지 시스템을 운용 중인데 이 시스템은 상당히 정확하게 불법 탈세나 중요한 회계상 변화를 탐해 낸다고 한다. 또한 미국에서는 형사재판에서 피고나 원고가 증거로 제출하는 숫자에 대해 상대방은 벤포드법칙에 의한 조작 여부를 검증할 수 있고 이 결과는 숫자 조작의 증거로 채택되고 있다.2   

 

가입하면 무료

인기기사

질문, 답변, 연관 아티클 확인까지 한번에! 경제·경영 관련 질문은 AskBiz에게 물어보세요. 오늘은 무엇을 도와드릴까요?

Click!