Management Science 2.0

화두는 빅 데이터…결정의 패러다임이 바뀐다

101호 (2012년 3월 Issue 2)

 




편집자주

 

경영 현장에 수많은 수학자와 과학자들이 포진해 있습니다. 이들은 전략, 기획, 운영, 마케팅 등 다양한 분야에서 첨단 수학·과학 이론을 접목시켜 기업 경쟁력 강화에 기여하고 있습니다. 경영 과학은 첨단 알고리즘과 데이터 분석 기술로 기업의 두뇌 역할을 하면서 경영학의 새로운 분야를 개척해나가고 있습니다. <경영학 콘서트>의 저자인 장영재 교수가 경영과학의 새로운 패러다임을 소개합니다.

 

과거 몇 년 전까지만도빅 데이터는 주로 학자들 간에 통용되는 언어였다. 당시에는 페타바이트(Petabyte)나 제타바이트(Zetabyte) 등 특정 용량에 따라 일반 데이터와 빅 데이터를 기술적으로 구별했다. 기존 데이터베이스 처리 방식으로 데이터를 저장하고 열람하기 어려운 대용량의 데이터를 빅 데이터라 칭하기도 했었다. 과거엔 기업에서 이러한 대용량 데이터를 담아 둘 기술이 부족했다. 설령 이런 데이터를 담아 둔다고 한들 의미 있는 분석이 불가능해 생성과 동시에 거의 폐기돼 버렸다. 대용량의 데이터를 분석한다는 건 구글처럼 우수한 인력을 확보하고 있는 소수 기업들의 전유물로만 여겨졌다.

 

하지만 최근 트렌드가 바뀌기 시작했다. 우선 기업들이 데이터의 가치를 재조명하기 시작했다. 한발 더 나아가 전문가가 아니더라도 대용량 데이터를 저장하고 분석할 수 있는 기술과 환경이 속속 등장하면서 방대한 정보를 모으고 함께 분석하는 가치가 새롭게 부상하면서 화두로 떠오르게 됐다.

 

이러한 새로운 트렌드에 맞춰 과거 전문가들 사이에서만 통용되던빅 데이터의 정의도 확대되고 있다. 과거 특정 용량 이상이나 기존 데이터베이스로 처리가 불가능한 양의 데이터를 빅 데이터라 칭하는 의미도 기술혁신에 맞춰 다시 정의돼야 했다. 새로운 데이터 처리 기술의 개발로 어제는 처리 못하던 용량의 데이터가 내일은 처리 가능하다면 어제의 빅 데이터가 오늘은 일반 데이터가 되는 모순이 생긴다. 이처럼 나날이 속속 신기술이 선보이는 세상에서 어느 특정 요량을 구분해 빅 데이터냐, 일반 데이터냐를 구분하는 건 의미가 없다. 그렇다면 요즘 부각되고 있는 빅 데이터의 의미는 무엇인가? 바로 현대 데이터 시대를 바로 보는 새로운 패러다임이다.

 

빅 데이터를 이용한 수백억 원대의 비용절감 사례

 

반도체 공장 운영의 핵심은 수억 원에서 수백억 원에 이르는 고가의 반도체 제조 장비다. 필자는 과거 박사 학위 취득 후 글로벌 반도체 기업인 마이크론 테크놀로지에서 근무했던 경험이 있다. 이곳 반도체공장에서 내부 운영과 각각의 장비 구성들에 대해 파악한 후 6개월째 되던 시점부터 반도체 장비를 다루기 시작했다. 그리고 실제 반도체 기계에서 생성되는 장비의 데이터를 수집하기 시작하며 흥미로운 사실을 발견했다. 어느 반도체 장비에서 생산되는 제품의 생산 시간을 뽑아 보니 시간이 균일하지 않고 거의 무작위적인 형태를 보였다. 예를 들어 제품을 20초에 하나씩 생산하다 갑자기 50초에 하나씩 생산하더니 15초에도 생산하고 거의 10초대와 몇 분대를 오가며 생산 시간이 불규칙한 것이었다. 제품 생산시간이 (최소한 이론적으로는) 일정해야 함에도 불구하고 왜 이렇게 들쑥날쑥한 걸까? 우선 이 문제를 여러 선임자들에게 물어 보니 돌아오는 대답은 두 가지였다. 지난 수년간 이 장비를 사용했고 이 장비의 생산시간이 불규칙한 것도 이미 알고 있었지만 그리 큰 문제는 없었다는 게 하나였다. 또 하나의 답변은 이제까지 별 문제가 없었기에 굳이 파고 들어가 봐야 별로 나올 게 없을뿐더러 그 원인을 파악할 수 있는 데이터를 구하기도 어려울 것이라는 것이었다.

 

과연 그럴까? 물론 선배들의 말에 그저 그렇구나 하며 돌아설 수도 있었지만 이 생산 시간의 결과치를 한번 분석해 보니 마치 풀어야 할 미스터리처럼 문제가 다시 다가왔다. 눈으로 보기에는 생산 시간이라는 결과치가 무작위적으로 보였지만 생산 시간 데이터를 좀더 깊이 들여다 분석해 보니 어떤 패턴을 따르고 있다는 사실을 발견했다. 과연 이 패턴은 무엇을 의미하는 것일까? 이 패턴을 파악하면 불규칙한 생산시간에 대한 미스터리를 풀 수 있을까? 그리고 이 미스터리를 파악한다면 과연 생산에 긍정적인 영향, 즉 비용을 절감하거나 생산 효율을 올리는 일에 기여할 수 있을까? 이들 질문에 답할 수 있는 방법은 단 하나뿐이었다. 바로 빅 데이터 분석이다.

 

이 문제에서 생산 시간은 결과치일 뿐이다. 즉 어떤 원인에 의한 결과이자 현상일 뿐 본질은 아니다. 본질을 파악하기 위해서는 생산시간을 구성하는 요소들을 면밀하게 분석할 필요가 있다. 그러기 위해서는 결과가 아니라 이 결과를 생성해 내는 다른 데이터를 분석해야 했다. 아쉽게도 필자가 원하는 데이터는 반도체 장비 내에 저장돼 있지 않았다. 최소한 겉으로 보기에는 그랬다. 장비 담당자도글쎄 그런 데이터가 있을까라고 반문했다.

 

그러나 반도체 장비 관련 연구를 경험했던 필자는 장비 내에서 이뤄지는 엄청난 많은 일들, 즉 장비 안에서 전류가 어떻게 흐르고 장비 내 로봇이 어떤 작업을 수해하는지, 또 장비 프로세스에 필요한 화학적 반응이 시시각각 어떻게 일어나는지 등의 데이터가 어딘가는 분명히 저장되고 있을 것이라는 확신이 있었다. 최첨단 기술의 집합체인 반도체 공정장비가 어떤 족적을 남기고 있는지 기록이 안 되고 있다는 사실은 마치 항공기가 어느 고도로 어떤 지점을 비행하고 있는지 행적을 기록하지 않는다는 것과 같다. 데이터가 저장되고 있지 않는 게 아니라 공장 기계 사용자 입장에서 이러한 데이터가 어디에 숨어 있는지 찾지를 못하는 것이라는 확신이 있었다.



 

그리고 이러한 믿음에 어긋나지 않게 모든 정보를 담고 있는 장비 내 데이터 베이스를 몇 주의 작업 끝에 찾을 수 있었다. 물론 이 정보는 반도체 장비를 다루는 사람을 위한 데이터베이스가 아니라 문제 발생 시 장비 업체의 AS 직원들만 접근할 수 있는 정보였다. 예상대로 1초에 수십만 건의 데이터 포인트가 저장되는 방대한 데이터였다. 결과치에 대한 명확한 이해를 위해서는 이 데이터 외에도 반도체 공장 내 모든 장비에 작업 지시를 내리는 MES라 불리는 시스템에서 각 장비로 보내지는 데이터도 함께 분석해야 했다. MES는 반도체 공장 내 모든 장비들과 모든 작업을 총괄하는 일종의 사람 두뇌와 같다. 현재 어떤 작업이 어떻게 이뤄져야 하는지 실시간 상황을 모니터 해 자동으로 의사결정을 내리는 시스템이다.

 

1)장비 내 제품 생산 시간이 얼마나 걸리는지를 알리는 결과치 데이터 2)장비 내부에서 생성되는 이벤트 데이터 3)공장의 두뇌인 MES데이터 이 세 가지를 함께 묶어 문제가 발생한 근본 원인을 파악할 수 있는 데이터를 새롭게 만들어 내는 작업을 수행했다. 이러한 작업을데이터 패칭작업이라고 한다. 흩어진 데이터를 모아 의미 있는 데이터로 새로 탄생시키는 작업이다. 비록 각각 독립적으로 저장된 데이터는 큰 의미가 없는 쓰레기일지라도 이들을 모아 필요한 부분을 엮으면 소중한 정보가 되는 원리를 이용한 것이다. (DBR 98조각 난 데이터? 연결하고 합치면 혁신의 보고!’ 참조.)

 

데이터 패칭작업을 마친 데이터의 가치는 기존에 각각 흩어진 데이터의 가치와는 비교할 수 없을 정도의 정보를 담고 있다. 원인과 결과를 규명해 줄 수 있는 새로운 지식으로 탈바꿈해버렸기 때문이다. 이처럼 새롭게 생성된 데이터를 근거로 분석해 보니 흥미로운 사실을 발견할 수 있었다. 즉 다양한 제품이 처리되는 반도체 특성상 제품이 처리되는 순서에 따라 처리 속도가 달라진다는 점이다. 예를 들어 A란 제품과 B란 제품이 생산되고 생산 시간도 35초로 같다 하더라도 A가 먼저 생산된 후 B가 생산되면 장비가 5초 정도 휴식을 취하게 되지만 B란 제품이 먼저 생산된 후 A란 제품이 생산되면 장비는 10초 정도의 대기시간을 갖게 됐다. 즉 다양한 제품을 처리하는 장비에서 각 제품이 실제 생산되는 시간은 동일하지만 어떤 순서로 장비에 유입되느냐에 따라 소요되는 생산 시간이 불규칙해진 것이다. 반도체 장비에서 생산되는 제품은 약 60여 종에 이르렀다. 너무 많은 종류의 제품들이 혼재하다 보니 결과치만으로는 분석이 불가능했지만 이들의 결과치를 구성하는 모든 데이터를 하나하나 패칭하고 이를 토대로 분석한 결과 근본적인 문제점을 발견할 수 있었다.

 

문제가 파악됐다면 이제는 이들을 어떻게 생산성 효율이나 비용절감이라는 직접적인 경영 결과의 성취로 연결시키느냐라는 문제가 남는다. 이 질문에 답하기 위해 선택한 게 바로수학적 최적화방식이다. 앞에서 작업의 순서에 따라 제품의 생산 시간이 불규칙해진다는 것을 발견했다. 이 의미는 작업의 순서 조합을 잘 맞추면 제품당 생산에 걸리는 시간을 줄일 수 있다는 뜻이다. 이에 따라 필자는 공장의 생산을 총괄 담당하는 데이터를 바탕으로 이 장비에 유입되는 제품 정보를 파악한 후 어떤 순서로 제품이 생산될 것인지를스케줄링이론이라는 수학적 알고리즘을 통해 구현해 냈다. 그리고 실시간 데이터를 바탕으로 작업순서를 바로 산출해 작업 순서를 정하는 의사결정 시스템을 만들었다. 결과는 매우 성공적이었다. 기존 방식에 비해 이 장비에서 생산되는 모든 제품의 시간을 10% 정도 단축할 수 있었다. 즉 예전에는 1시간에 100개를 만들 수 있었다면 실시간 데이터분석과 알고리즘으로 1시간에 110개를 생산할 수 있게 됐다. (DBR 78과학경영 승리의 길, 생산·유통 스케줄링참고)

 

당시 필자가 근무하던 공장뿐 아니라 전 세계 모든 공장에서 공장 확장 작업이 진행 중이었고 공장의 생산량을 늘리기 위해 반도체 장비의 추가 설비 투자가 고려되는 때였다. 그러나 앞에 설명한 생산성 향상으로 장비의 추가 구매 없이도 생산량을 확보할 수 있었다. 이 프로젝트로 실제 수백억 원에 이르는 비용절감 효과를 얻은 것은 물론이다.

 

빅데이터와 애널리틱스

 

앞의 사례는 빅 데이터의 가치와 효과적인 빅 데이터 활용 방식을 잘 설명해 준다. 기존 데이터 패러다임에서 각 데이터는 여러 다른 소스에서 생성되고 이들은 서로 혼재돼 있다. 그러나 빅 데이터 시대에는 필요한 요구에 따라 여러 데이터가 자유롭게 연결되고 반대로 연결된 데이터가 분석을 위해 분리되기도 한다. 즉 정적으로 남아 그저 고스란히 보존만 되던 데이터들이 역동적으로 필요에 따라 합체와 분리를 거듭한다. 필자는 당시 수많은 데이터를 직접 만든 프로그램을 통해 수작업으로 통합, 즉 패칭 작업을 수행했지만 요즘은 이러한 작업을 전문가가 아니더라도 쉽게 신속히 처리할 수 있는 솔루션들이 선보이고 있어 빅 데이터 분석의 대중화 길을 열고 있다.

 

빅 데이터의 가치를 이야기할 때 빼놓을 수 없는 단어가 바로 애널리틱스(Analytics). 애널리틱스란 영문을 직역하면분석이다. 그러나 일반적 비즈니스 분석과는 달리 애널리틱스는 복잡한 연산을 수학적 최적화나 고도의 알고리즘을 통해 실시간으로 분석해 그 결과를 도출한다는 의미로 통용되고 있다. 엄청난 양의 데이터를 분석하고 이를 바탕으로 필요한 의사결정을 실시간으로 내리는 작업은 과거 몇 년 전 까지만 해도 구글과 같은 데이터 전문기업들의 전유물이었다. 그러나 컴퓨팅 기술의 발달과 이러한 애널리틱스를 활용한 범용 소프트웨어가 속속 등장하면서 이제는 다양한 기업들이 이러한 고도의 수학을 응용해 데이터를 분석하고 실시간으로 의사결정을 내릴 수 있는 기반이 마련됐다.

 

또 빅 데이터 분석에서 가장 중요한 게 바로 결과 중심적 어프로치다. 과거에 충분한 데이터가 없던 시절에는 없는 데이터라도 모아서 이 데이터로 무엇을 할 수 있는지를 판단하는 방식으로 데이터 분석이 이뤄졌다. 즉 데이터를 모으고 이 데이터를 분석한 후 분석의 의미가 무엇인지 유추하고 리포트를 작성하는 방식이다. 이처럼 데이터 분석 산출물(output)의 대부분은 과거 트렌드를 분석한 리포트였다. 그러나 빅 데이터 시대에 데이터 분석은 매우 결과 중심적으로 변모하고 있다. 내가 원하는 게 무엇인지, 즉 비용을 줄일 것인지, 어떤 상품의 매출을 올릴 것인지, 혹은 특정 매장의 고객 유입 수를 늘릴 것인지 등 매우 구체적인 목적을 설정하고 이 목적을 위해 내려야 할 의사결정이 무엇인지를 파악한 후 데이터를 수집한다. 기존 방식과 달리 빅 데이터 분석에서 데이터 수집은 가장 마지막에 이뤄진다. 그 이유는 내가 원하는 데이터는 언제든지 충분히 구할 수 있다는 전제조건을 깔고 있기 때문이다. 앞의 사례에서 필자는 ‘이 미스터리를 해결할 수 있는 데이터는 어디엔가 분명히 있다는 가정 아래 프로젝트를 시작했다. 현대 데이터 사회에서 의사결정에 필요한 데이터는 어딘가는 분명히 쌓여 있고 설사 데이터가 현재는 쌓여 있지 않더라도 데이터를 새롭게 수집할 수 있다는 전제조건을 깔고 있다.

 

빅 데이터는 단순히 기술적 진보나 IT 트렌드가 아니다. 우리는 흔히 의사결정을 내릴 때 올바른 판단을 내리기 위해 필요한 정보나 데이터가 언제나 부족하다고 생각하곤 한다. 그러나 컴퓨팅 기기와 진보된 IT, 특히 스마트폰의 보편화로 인해 세상이 변하고 있다. 지금은 손안의 컴퓨터인 스마트폰을 이용해 필요한 정보를 언제든지 손쉽게 수집하고 이를 바탕으로 의사결정을 내릴 수 있는 시대다. 이는 과거 우리가 갖고 있던 의사결정에 대한 가정, 즉 좋은 판단을 내리기 위한 정보가 언제나 부족하다는 가정에서 의사결정에 필요한 충분한 데이터를 바로 구할 수 있는 새로운 현실로 바뀌고 있다. 소비자는 매장에서 상품을 구매할 때 휴대폰을 이용해 인터넷 가격비교 사이트에서 상품가격을 비교할 수 있고 글로벌 패션 브랜드인자라는 실시간으로 유입되는 판매 재고정보를 바탕으로 어느 매장에 어떤 상품을 배치할지 알고리즘을 통해 결정한다. 이처럼 이제 의사결정의 방식도 변화하고 있다. 이러한 새로운 패러다임을 이해하고 시대에 맞는 새로운 비즈니스 환경을 구축하는 게 바로 빅 데이터의 새로운 패러다임이다.

 

장영재 KAIST 산업 및 시스템 공학과 교수 yjang@kaist.ac.kr

 

필자는 미국 보스턴대 우주항공학과를 졸업한 뒤 미국 매사추세츠공대(MIT) 기계공학 석사 학위와 MIT 경영대학원(슬론스쿨)에서 경영과학 석사 학위를 받았다. 이어 MIT 기계공학과에서 불확실성을 고려한 생산 운영방식에 관한 논문으로 박사 학위를 취득했다. 이후 반도체 기업인 마이크론테크놀로지 본사 기획실의 프로젝트 매니저로 과학적 방식을 적용한 원가절감 및 전략적 의사결정을 지원했다. 현재는 카이스트 산업 및 시스템 공학과 교수로 재직 중이다. 저서로는 <경영학 콘서트>가 있다. 트위터 아이디는 @youngjaejang이다.

동아비즈니스리뷰 333호 Talent Transformation 2021년 11월 Issue 2 목차보기