분석 시스템

“40만건을 10분에 점검” 진화하는 분석툴로 성과 높여라

107호 (2012년 6월 Issue 2)




새로운 기회를 포착하고 이상 징후를 감지하며 가까운 미래를 예측할 수 있다는 점에서 빅데이터 분석은 비즈니스 거의 모든 곳에 적용할 수 있다. (그림1) 금융권에서는 개인정보 도용방지와 신용위험 평가 등 예방적 모델에 사용할 수 있고 소매업체에서는 수요 예측 시나리오를 기반으로 실시간으로 다양한 상품의 가격을 최적화해서 수익을 올릴 수 있다. 미국의 한 주() 정부는 빅데이터 분석을 활용해 의료보험 청구 사기로 발생할 뻔했던 1400만 달러의 손실을 미연에 방지할 수 있었다. 이어 2700만 달러 규모의 부정 청구 행위를 적발해 관련 용의자들을 기소했다. 같은 방식으로 한 해에만 1100만 달러의 비용을 절감한 보험회사도 있다. 이처럼 빅데이터 분석은 경제적이고도 실질적인 이점을 제공할 뿐 아니라 그 결과를 구체적으로 평가할 수 있다.

 

1 하지만 빅데이터 분석을 잘못 적용하면 오히려 손해를 볼 수도 있다. 세계적으로 유명한 한 모기지 은행은 마케팅 캠페인에서 잠재 고객을 잘못 타깃팅한 분석 모델 때문에 무려 10억 달러 이상의 손실을 입었다.

 

빅데이터를 성공적으로 분석하기 위해 가장 첫 번째로 갖춰야 할 역량은기술이다. 상상할 수 없을 만큼 대용량의 데이터를 처리하고 그 속에 숨은 의미를 발견 및 분석하기 위해서는 전통적인 데이터베이스와 아키텍처만으로는 부족하다. 소프트웨어와 하드웨어가 소통하는 방식을 더 잘 이해할 수 있는 새로운 차원의 기술이 필요하다. 며칠, 적어도 몇 시간이 소요되던 분석 작업을 몇 분 안에 완료할 수 있게 하는 초고속 분석 솔루션이 있어야 한다. SAS가 보유한 ‘하이 퍼포먼스 애널리틱스(High Performance Analytics)’를 중심으로 빅데이터 분석에 필요한 기술적 솔루션 및 성공 사례를 소개한다.

 

효과적인 빅데이터 분석툴이 필요한 이유

많은 기업들이 방대한 양의 데이터에서 통찰력과 가치를 이끌어내기 위해 새로운 분석기법 도입에 관심을 보이고 있다. 분석 기술은 의사결정을 위한 프레임워크를 제공할 뿐 아니라 당면한 문제를 해결하고 성과를 개선하며 기술혁신을 통해 기업이 지속가능한 성장을 할 수 있도록 돕는다. 또한 미래의 변화를 예상하고 계획하는 동시에 리스크를 관리할 수 있도록 하기도 한다.

 

그러나 복잡한 비즈니스 문제를 해결하기 위해서는 더 많은 데이터와 사용자, 그리고 애플리케이션 활용이 필요하다. 특히 중요한 것은 시간이다. 모바일 기기와 클라우드 서비스 등으로 각종 데이터가 급증하면서 IT 부서는 확장 가능한 업무 환경과 응답 시간 단축과 관련해 거센 압력을 받고 있다. 통상 가격을 책정하는 데 서른 시간 정도 걸리는 것으로 알려져 있는 소매업체들이 단 두 시간 만에 최적의 가격을 찾아낼 수 있다면 아마도 수백만 건의 가격 결정 시나리오를 신속하게 실행해서 매장별 재고 처리와 마진 감소 등의 문제를 해결할 수 있을 것이다. 또는 대형 금융회사에서 전체 리스크 포트폴리오를 재계산하는 시간을 18시간에서 12분으로 줄일 수 있다면 새로운 상품 출시 여부, 기존 상품의 철수 여부 등을 신속하게 결정할 수 있을 것이다. 금리나 환율이 급변하더라도 다양하게 노출되는 리스크에 정교한 대처가 가능해질 것이다. 이 같은 작업을 가능하게 하는 시스템이 바로 빅데이터 분석기술을 도입한 하이 퍼포먼스 애널리틱스다.

 

시스템에 세 개의 심장을 달다

빅데이터 분석 시스템은 대용량의 복잡한 분석 작업을 신속하고 효율적으로 처리하면서도 정확한 예측 결과를 내놓을 수 있어야 한다. 그래야 의사결정 속도를 높여 급변하는 비즈니스 환경에서 민첩성을 유지할 수 있다.

 

새로운 분석 기법의 핵심은 크게 세 가지다. -메모리 분석(In-Memory Analytics)과 그리드 컴퓨팅(Grid Computing), -데이터베이스(In-Database Processing)가 그 주인공이다. (그림2)


 

-메모리 분석

이는 고도로 복잡한 데이터 분석 작업을 실시간에 가까운 속도로 처리할 수 있게 하는 방법이다. 정보를 분석하느라 엄청난 양의 계산을 한꺼번에 할 경우 데이터 병목 현상이 발생할 수 있다. 이 분석 기법은 데이터를 하드디스크에 저장하지 않고 메모리에 저장해서 복잡한 분석을 메모리풀 전체에 병렬 방식으로 분배한다. 병렬식으로 늘어서 분석하는 기법 덕분에 데이터 처리 속도가 훨씬 빨라지고 특정 분야에 분석량이 집중돼 노이즈가 발생할 위험이 적다.실제로 이 기법을 적용한 후 1000만 건에 달하는 한 금융기관 모기지 상품의 상환 방식 리스크 값 산출에 소요된 모델 실행 시간이 약 96시간에서 4시간 정도로 크게 줄어들었다.

 

그리드 컴퓨팅

이는 데이터 분석 작업을 보다 빠르고 효과적으로, 그러면서도 보다 저렴하게 수행할 수 있게 한다. 또한 컴퓨팅 능력이 요구되는 애플리케이션들을 하드웨어 리소스 전반에 골고루 분산시켜 업무 성과와 비즈니스 연속성을 개선시킨다. 이때 그리드에는 복수의 서버를 둔다. 이렇게 하면 대규모 데이터가 입력되더라도 여유가 있는 가용 서버에서 작업을 수행할 수 있어 속도가 느려지지 않는다.미국의 상업은행 뱅크오브아메리카(BoA)는 그리드 컴퓨팅 방식을 활용해 대출 부도율 계산시간을 90여 시간에서 4시간으로, 대출 40만 건에 대한 스코어링 작업을 3시간에서 10분대로 단축했다.

 

-데이터베이스 프로세싱

이는 데이터 통합과 분석을 데이터베이스 내부에서 수행해서 보다 신속하게 결과를 얻을 수 있도록 한다.데이터 양 자체가 너무 크기 때문에 네트워크상 반복적으로 복사하는 일이 어려운빅데이터 엔터프라이즈 분석과 여러 비즈니스 커뮤니티들이 데이터 소스를 공유할 수 있는중앙 집중식 엔터프라이즈 데이터 웨어하우스가 필요한 경우에 효과적이다. 아시아 시장 공략에 나서며 잠재 고객을 잘못 타깃팅했던 한 다국적 은행은 인-데이터베이스 프로세싱을 통해 1000만 명 이상의 고객에 대한 재평가 작업을 월 단위에서 일 단위로 단축하고 재평가 소요 기간을 1개월에서 수시간 또는 수분으로 단축할 수 있었다.

 

 

 

빅데이터 분석툴, 이럴 때 진가를 발휘한다

하이 퍼포먼스 애널리틱스는 인-메모리 분석과 그리드 컴퓨팅, -데이터베이스 프로세싱을 결합해서 기존에 다루기 어려웠던 대용량 데이터를 활용해 다양한 시나리오를 생성·탐구하고 모델링하며 고도의 분석 알고리즘을 빠르게 처리할 수 있도록 했다. 따라서 신속하게 분석적 통찰을 도출해서 문제를 해결하고 의사결정 방식을 획기적으로 개선할 수 있다.

 

이때 정보를 생성하기 위한 반복적인 분석 라이프사이클<그림3>을 단축하면 분석가는 새로운 질문을 제기하고 여기에 답하는 시간을 줄일 수 있다. 새로운 질문은 새로운 아이디어를 유도하고, 새로운 아이디어는 진정한 의미의 혁신을 촉진하며, 이는 궁극적으로 비즈니스 전반을 변혁시키는 결과를 낳는다.



 

빅데이터 분석은 다음과 같은 상황에서 특히 진가를 발휘한다. 분석할 데이터 양을 부득이하게 제한해야 하거나 모든 데이터를 충분히 활용할 수 없을 때, 단순한 질문으로 만족해야 하거나 전혀 질문조차 던질 수 없을 때, 해결책을 신속히 도출해낼 수 없고 이로 인해 경쟁사와 차별화할 기회를 놓쳤을 때, IT에서 요구하는 기간의 특성상 이상적인 로지스틱 회귀 대신 단순한 선형 회귀 분석을 해야 하는 등 모델링 기법에 제약을 받을 때, 분석가가 복수의 반복 작업을 수행할 시간이 충분치 않아 모델을 테스트하고 개선할 여유가 없을 때 등이다.

 

위 상황 중 하나라도 해당된다면 빅데이터 분석툴 도입을 검토해야 한다. 빅데이터 분석을 위한 정밀한 툴을 도입한다면 데이터 전체를 충분히 활용해 분석 정확도를 개선하므로 목표 범위를 구체화해서 가장 효과적인 의사결정을 내릴 수 있다. 많은 변수와 복잡한 모델링 기법을 다룰 수 있을 뿐 아니라 반복해서 모델을 검증하고 새로운 아이디어를 테스트할 수 있다. 또 유사한 결과를 산출해내기 위해 통계적으로 의미가 있는 샘플을 찾아내는 데 시간을 허비하는 대신 중요한 분석 작업에 더 많은 시간을 할애할 수 있다.


 

BoA 사례

이 같은 분석툴은 산업 전 분야에 적용할 수 있다. 특히 금융권에서 일어날 수 있는 변화를 주목할 만하다. 은행은 매년 수백 개의 모델을 산출해야 한다. 그리고 그런 모델을 매달, 매주 변경해야 더 정확한 예측을 할 수 있다. 이러한 과정을 수백 배 빠르게 할 수 있다면 아마도 같은 시간 내 이전보다 몇 십 배 많은 모델을 산출할 수 있을 것이다.

 

뱅크오브아메리카(BoA) 사례를 보자. 이 은행은 빅데이터 솔루션 도입으로 신용 리스크 스코어링과 예측 부문에서 경쟁력을 얻은 경우다. 포트폴리오 신용 리스크 모델링은 오늘날 은행들이 수행해야 할 가장 기본적인 업무다. 마이너스통장(Lines of Credit), 담보대출, 신용카드와 같은 대출 상품들은 은행에 불가피한 리스크를 가져다준다. 이런 리스크는 경제 상황이 불안할수록 커진다. 채무 불이행은 대출자는 물론 대출기관에도 부정적인 영향을 주기 때문에 은행들은 신용 리스크 관리 프로세스를 도입해 정기적으로 신용 포트폴리오를 모니터링 및 평가하고 평가한 내용을 확인하며 수시로 자신의 리스크 상태와 자산가치를 파악해야 한다. 복잡하고 급변하는 금융 환경에서 엄격하며 정확한 신용 리스크 관리 프로세스와 기술은 매우 중요하다.

 

BoA는 세계 최대 금융기관 중 하나로 개인 고객과 중소기업 및 대기업들에 다양한 투자 및 자산 관리, 금융 및 리스크 관리 상품과 서비스를 제공하고 있다. BoA는 전 세계에 5900만 소비자와 중소기업, 6000여 곳의 은행 사무소와 18000개 이상 ATM을 갖고 있다.

 

CIG(Corporate Investments Group) BoA의 매도 가능 증권 포트폴리오를 관리하는 기관이다. CIG BoA가 공급하는 950만 개 담보 대출에 대한 부도율(PD)을 모델링하고 산출해서 리스크를 관리하는 데 기여한다. 시장가치와 조기상환 속도, 금리 변동에 대한 민감도를 산출하고 190억 달러의 채권 관리 권한 자산을 리스크로부터 보호한다. 최근에는 은행의 신용카드 포트폴리오 대출 손실을 예측하는 업무도 지원하기 시작했다.

 

CIG는 여러 해 동안 신용 리스크 모델링을 위해 SAS가 공급하는 분석 기능을 이용해왔다. 하지만 신용카드 손실 예측 책임이 추가되면서 새로운 접근을 했다. BoA의 요구 사항을 충족하기 위해 이 그룹은 SAS IBM이 고안한 빅데이터 전용 플랫폼으로 데이터 처리 작업을 이전시켰다. 플랫폼은 8개의 SOR(Systems of record)로부터 데이터를 가져오는데 이는 수억만 개의 레코드 또는 30테라바이트의 소스 데이터에 달한다. 새로 구축된 시스템은 초당 3.9기가바이트의 입출력 처리량을 소화할 수 있었다. 현재 대략 30만 명의 사용자들이 무제한 액세스하고 있는데 기존 공유 서비스 환경의 경우 많은 작업이 한꺼번에 실행되면서 시간이 많이 소요되고 응답시간이 천차만별이었으나 현재는 이전보다 3배 이상 더 빠른 속도로 처리되고 있다.

 

CIG 전무이사인 Stephen Lange우리는 여러 가지 시나리오를 짜고 40만 건의 특정 대출 포트폴리오를 점검해야 한다. 이런 프로세스는 통상 3시간 정도가 소요되곤 했으나 지금은 그리드 병렬화 기능으로 10분밖에 걸리지 않는다. 작업에 소요되는 시간이 대폭 줄어들면서 정보를 제공하고 의사결정을 내리는 능력도 향상됐다고 말했다.

 

빅데이터의 진정한 가치는 조직들이 만들어내는 방대한 양의 데이터와 빠르게 축적되는 다양한 데이터를 고급 분석을 통해활용이 가능한 정보로 만드는 데서 시작한다. 결국 기업에 비즈니스 가치와 통찰을 부여하는 것은 빅데이터 자체가 아니라 빅데이터 분석 및 활용이다. 빅데이터 활용에 필요한 요소는 여러 가지가 있겠지만 그중에서 가장 중요하고 선제적인 조건은 빅데이터 분석을 제대로 할 수 있는 툴을 확보하는 것이다. 빅데이터 분석툴을 제공하는 컨설팅회사들은 많다. 이 가운데 자사의 특성과 활용 업무 등을 고려해 효율적인 분석툴을 찾고 꼭 맞는 업무 분야에 적용하며 부족한 부분을 보완·개선하는 일이 빅데이터 활용의 첫걸음이라고 할 수 있을 것이다

 

 

신용원 SAS Korea PSD 본부 전무 yong-weon.shin@sas.com

신용원 전무는 서울대 해양학과에서 학사 및 석사를 취득하고 현대전자 SW연구소, 현대정보기술 DW팀에서 근무했다. 2003 SAS로 자리를 옮겨 분석(Analytics), 고객인텔리전스(CI)팀을 거쳐 현재 프로페셔널서비스본부(PSD) 총괄을 담당하고 있다. 특히 SAS9 플랫폼의 국내 출시를 주도했다.

 

동아비즈니스리뷰 329호 Fly to the Metaverse 2021년 09월 Issue 2 목차보기