분석 시스템
새로운 기회를 포착하고 이상 징후를 감지하며 가까운 미래를 예측할 수 있다는 점에서 빅데이터 분석은 비즈니스 거의 모든 곳에 적용할 수 있다. (그림1) 금융권에서는 개인정보 도용방지와 신용위험 평가 등 예방적 모델에 사용할 수 있고 소매업체에서는 수요 예측 시나리오를 기반으로 실시간으로 다양한 상품의 가격을 최적화해서 수익을 올릴 수 있다. 미국의 한 주(州) 정부는 빅데이터 분석을 활용해 의료보험 청구 사기로 발생할 뻔했던 1400만 달러의 손실을 미연에 방지할 수 있었다. 이어 2700만 달러 규모의 부정 청구 행위를 적발해 관련 용의자들을 기소했다. 같은 방식으로 한 해에만 1100만 달러의 비용을 절감한 보험회사도 있다. 이처럼 빅데이터 분석은 경제적이고도 실질적인 이점을 제공할 뿐 아니라 그 결과를 구체적으로 평가할 수 있다.
1 하지만 빅데이터 분석을 잘못 적용하면 오히려 손해를 볼 수도 있다. 세계적으로 유명한 한 모기지 은행은 마케팅 캠페인에서 잠재 고객을 잘못 타깃팅한 분석 모델 때문에 무려 10억 달러 이상의 손실을 입었다.
빅데이터를 성공적으로 분석하기 위해 가장 첫 번째로 갖춰야 할 역량은 ‘기술’이다. 상상할 수 없을 만큼 대용량의 데이터를 처리하고 그 속에 숨은 의미를 발견 및 분석하기 위해서는 전통적인 데이터베이스와 아키텍처만으로는 부족하다. 소프트웨어와 하드웨어가 소통하는 방식을 더 잘 이해할 수 있는 새로운 차원의 기술이 필요하다. 며칠, 적어도 몇 시간이 소요되던 분석 작업을 몇 분 안에 완료할 수 있게 하는 초고속 분석 솔루션이 있어야 한다. SAS가 보유한 ‘하이 퍼포먼스 애널리틱스(High Performance Analytics)’를 중심으로 빅데이터 분석에 필요한 기술적 솔루션 및 성공 사례를 소개한다.
효과적인 빅데이터 분석툴이 필요한 이유
많은 기업들이 방대한 양의 데이터에서 통찰력과 가치를 이끌어내기 위해 새로운 분석기법 도입에 관심을 보이고 있다. 분석 기술은 의사결정을 위한 프레임워크를 제공할 뿐 아니라 당면한 문제를 해결하고 성과를 개선하며 기술혁신을 통해 기업이 지속가능한 성장을 할 수 있도록 돕는다. 또한 미래의 변화를 예상하고 계획하는 동시에 리스크를 관리할 수 있도록 하기도 한다.
그러나 복잡한 비즈니스 문제를 해결하기 위해서는 더 많은 데이터와 사용자, 그리고 애플리케이션 활용이 필요하다. 특히 중요한 것은 시간이다. 모바일 기기와 클라우드 서비스 등으로 각종 데이터가 급증하면서 IT 부서는 확장 가능한 업무 환경과 응답 시간 단축과 관련해 거센 압력을 받고 있다. 통상 가격을 책정하는 데 서른 시간 정도 걸리는 것으로 알려져 있는 소매업체들이 단 두 시간 만에 최적의 가격을 찾아낼 수 있다면 아마도 수백만 건의 가격 결정 시나리오를 신속하게 실행해서 매장별 재고 처리와 마진 감소 등의 문제를 해결할 수 있을 것이다. 또는 대형 금융회사에서 전체 리스크 포트폴리오를 재계산하는 시간을 18시간에서 12분으로 줄일 수 있다면 새로운 상품 출시 여부, 기존 상품의 철수 여부 등을 신속하게 결정할 수 있을 것이다. 금리나 환율이 급변하더라도 다양하게 노출되는 리스크에 정교한 대처가 가능해질 것이다. 이 같은 작업을 가능하게 하는 시스템이 바로 빅데이터 분석기술을 도입한 하이 퍼포먼스 애널리틱스다.
시스템에 세 개의 심장을 달다
빅데이터 분석 시스템은 대용량의 복잡한 분석 작업을 신속하고 효율적으로 처리하면서도 정확한 예측 결과를 내놓을 수 있어야 한다. 그래야 의사결정 속도를 높여 급변하는 비즈니스 환경에서 민첩성을 유지할 수 있다.
새로운 분석 기법의 핵심은 크게 세 가지다. 인-메모리 분석(In-Memory Analytics)과 그리드 컴퓨팅(Grid Computing), 인-데이터베이스(In-Database Processing)가 그 주인공이다. (그림2)
인-메모리 분석
이는 고도로 복잡한 데이터 분석 작업을 실시간에 가까운 속도로 처리할 수 있게 하는 방법이다. 정보를 분석하느라 엄청난 양의 계산을 한꺼번에 할 경우 데이터 병목 현상이 발생할 수 있다. 이 분석 기법은 데이터를 하드디스크에 저장하지 않고 메모리에 저장해서 복잡한 분석을 메모리풀 전체에 병렬 방식으로 분배한다. 병렬식으로 늘어서 분석하는 기법 덕분에 데이터 처리 속도가 훨씬 빨라지고 특정 분야에 분석량이 집중돼 노이즈가 발생할 위험이 적다.실제로 이 기법을 적용한 후 1000만 건에 달하는 한 금융기관 모기지 상품의 상환 방식 리스크 값 산출에 소요된 모델 실행 시간이 약 96시간에서 4시간 정도로 크게 줄어들었다.
그리드 컴퓨팅
이는 데이터 분석 작업을 보다 빠르고 효과적으로, 그러면서도 보다 저렴하게 수행할 수 있게 한다. 또한 컴퓨팅 능력이 요구되는 애플리케이션들을 하드웨어 리소스 전반에 골고루 분산시켜 업무 성과와 비즈니스 연속성을 개선시킨다. 이때 그리드에는 복수의 서버를 둔다. 이렇게 하면 대규모 데이터가 입력되더라도 여유가 있는 가용 서버에서 작업을 수행할 수 있어 속도가 느려지지 않는다.미국의 상업은행 뱅크오브아메리카(BoA)는 그리드 컴퓨팅 방식을 활용해 대출 부도율 계산시간을 90여 시간에서 4시간으로, 대출 40만 건에 대한 스코어링 작업을 3시간에서 10분대로 단축했다.
인-데이터베이스 프로세싱
이는 데이터 통합과 분석을 데이터베이스 내부에서 수행해서 보다 신속하게 결과를 얻을 수 있도록 한다.데이터 양 자체가 너무 크기 때문에 네트워크상 반복적으로 복사하는 일이 어려운 ‘빅데이터 엔터프라이즈 분석’과 여러 비즈니스 커뮤니티들이 데이터 소스를 공유할 수 있는 ‘중앙 집중식 엔터프라이즈 데이터 웨어하우스’가 필요한 경우에 효과적이다. 아시아 시장 공략에 나서며 잠재 고객을 잘못 타깃팅했던 한 다국적 은행은 인-데이터베이스 프로세싱을 통해 1000만 명 이상의 고객에 대한 재평가 작업을 월 단위에서 일 단위로 단축하고 재평가 소요 기간을 1개월에서 수시간 또는 수분으로 단축할 수 있었다.
회원 가입만 해도, DBR 월정액 서비스 첫 달 무료!
15,000여 건의 DBR 콘텐츠를 무제한으로 이용하세요.