로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Management by Map

‘개봉영화’ 쳤는데 ‘개봉동 영화아파트’ 뜬다면? 빅데이터, 내 절실함 풀어줘야 의미 있다

송규봉 | 165호 (2014년 11월 Issue 2)

Article at a Glance – 전략, 마케팅

빅데이터란 무엇인가? 이제 질문을 바꿔야 한다. 나의 절실한 문제를 해결하는 데 도움이 되는 데이터는 무엇인가? 그 데이터는 어디에 가면 찾을 수 있는가? 어떤 절차를 거쳐야 확보할 수 있는가? 어떻게 활용할 수 있는가? 성과를 만들어내기 위해 누구의 도움을 요청해야 하는가? 빅데이터에 관한 질문의 출발을 데이터가 아니라 자기 자신, 소속기관, 현실 업무, 미래개척의 관점에서 시작해야 한다.  

 

부산에 출점을 앞두고 있던 한 대형 유통업체는 기존 소비자 설문조사 팀, CRM 팀 이외에 다양한 빅데이터 분석 전문가들과 함께 이 질문을 던졌다. ‘우리는 무엇을 파는 곳이다라고 먼저 규정하고 소비자에게 강요하지 않았다. 어떤 데이터가 필요한지, 어디에 가면 구할 수 있는지, 어떻게 활용할 수 있는지에 대한 답을 내·외부 전문가들의 도움으로 제대로 찾아냈다. 데이터 분석을 통해우리는 무엇을, 어떻게, 누구에게 팔아야 하는 점포인지부터 다시 규정했고 제대로 된 전략을 짤 수 있었다.

  

편집자주

DBR은 지리정보시스템(GIS)을 활용해 경영 효율성을 높이거나 혁신에 성공한 사례를 소개하는 ‘Management by Map’ 코너를 연재합니다. 지도 위의 거리든, 매장 내의 진열대든, 선수들이 뛰는 그라운드든 공간을 시각화하면 보이지 않던 새로운 정보가 보입니다. 지도를 통해 경쟁력을 강화하기 위한 새로운 지혜와 통찰을 얻으시길 바랍니다.

 

빅데이터와 의회도서관

“빅데이터를 더 쉽게 설명해주세요. 잘 와 닿지 않습니다.” 사내 세미나에 참석한 어느 기업 임원의 요청이었다. 빅데이터를 어떻게 실감나도록 설명할 수 있을까? 세계에서 가장 장서 수가 많은 도서관을 검색해봤다. 보통 국내 대학교의 장서 수는 100∼200만 권 사이다. 세계에서 가장 많은 소장자료를 보유한 곳은 미의회도서관으로 총 15800만 종이 있다.

 

미의회도서관 공식 블로그는 스스로 데이터 크기에 대해 언급하고 있다.1 텍스트, 사진, 동영상, 오디오 등 모든 자료의 크기는 약 10테라바이트(이하, TB)로 추정하고 있다. 2014 8월 말 기준 1TB 외장하드 가격은 10만 원 내외면 구입할 수 있다. 100만 원이면 미의회도서관 모든 데이터를 저장할 수 있다. 외장하드는 스마트폰 크기와 비슷하다. 인터넷 쇼핑몰에는 5TB 외장하드까지 등장했다.

 

5TB에는 무엇을, 얼마나 저장할 수 있을까? 고화질 사진 약 100만 장, MP3 음원 약 130만 곡, HD 화질 영화 약 3500편을 저장할 수 있는 분량이다. 국립중앙도서관의 소장자료는 총 970만 종이다. 미의회도서관과 비교하면 1TB에 모두 담을 수 있는 분량이다. 물론 추정치다. 최근 저장용량이 1TB를 넘는 노트북이 속속 출시되고 있다. 노트북에 국립중앙도서관 데이터 전체와 외장하드 2개에 미의회도서관 소장자료 전체를 담아 활용할 수 있는 시대에 살고 있다.

 

국립중앙도서관이 보유한 책은 모두 950만 권이다. 2013년 대한민국 성인 연평균 독서량은 9.2권이다. 평균 독서량을 적용하면 한국의 성인 한 사람이 국립중앙도서관의 책을 다 읽는 데 100만 년이 걸린다. 만약 매일 1권씩 읽는다면 26027년이 필요하다. 성실함으로 어찌 해볼 수 없는 분량이다. 시스코는 전 세계 모바일 데이터 사용량이 2013년보다 11배 증가해 2018년에는 연평균 190엑사바이트에 달할 것이라고 전망했다. 테라바이트의 1024배가 페타바이트다. 페타바이트의 1024배가 엑사바이트다. 그러니 엑사바이트는 테라바이트의 100만 배 이상의 크기다. 빅데이터는 성실함으로 어찌해볼 수 없는 방대한 데이터다.

 

한국 기업의 현주소

데이터스토리지 전문기업 퀀텀(Quantum)이 발표한 설문조사에 따르면, 한국 기업 중에서 자사 데이터를 90% 수준으로 이용하는 경우는 24%였다. 정말이라면 좋겠다. 2013년 기업 차원에서 관리하는 전체 데이터 규모는 약 32% 1∼20TB로 가장 많았고, 20% 51∼500TB였다. 퀀텀에 의하면 한국의 데이터 소비 규모가 세계 평균보다 5%가량 높다. 데이터 유형별 비중을 묻는 질문에는 목적에 따라 분석이 가능한 형태의 데이터베이스(DB) 및 구조화된 데이터가 36%로 가장 높았고, 문서파일이 22%, e메일과 이미지가 각각 13%로 그 뒤를 이었다. 이는 전 세계 평균 데이터 유형과 비교해볼 때 정형화된 데이터가 10%가량 많은 것으로 나타났다.2 (그림 1)

 

 

 

미국 의회도서관 자료실(좌측구글 데이터센터 서버실(우측)i

 

대한상공회의소는 빅데이터 활용에 관한 연구보고서를 발표했다. 국내 기업 500개사를 대상으로 빅데이터 활용 현황을 조사했다. 응답 기업 81.6%활용하지 않는다고 답했다. ‘활용하고 있다는 기업은 7.5%에 그쳤고, ‘향후 활용 계획이 있다는 답변도 10.9%에 불과했다. ‘빅데이터 활용 분야를 묻는 질문에 마케팅(47.3%), 관리·운영(41.9%), 고객서비스(36.6%) 분야를 답한 비율이 높은 가운데 전략기획(24.7%), 연구·개발(20.4%) 등의 순으로 나타났다.

 

대한상공회의소는 국내 기업의 빅데이터 활용 수준을초기라고 진단했다. 빅데이터의 중요성에 대해 인지는 하지만 구체적으로 무엇으로부터 시작해서, 무엇을 할 수 있는지 의문을 가지고 있는 경우가 대부분이다. 빅데이터 활용이 어려운 이유로분석역량과 경험 부족’(19.6%), ‘예산 부족’(19.4%), ‘정보보호와 안정성 우려’(17.5%), ‘빅데이터에 준비되지 않은 기업문화’(15.9%), ‘투자 대비 수익 불투명’(15.1%), ‘적합한 데이터 관리 솔루션 부재’(12.5%) 등을 차례로 꼽았다.3

 

퀀텀과 대한상공회의소의 발표를 종합해보자. 한국 기업은 세계 평균에 비해 데이터를 더 많이 구축하고 저장하고 있지만 이를 적극적으로 활용하는 것에는 약하다. 구축하고 있는 데이터도 사내에서 양산되는 정형화된 데이터와 문서파일 위주다. 조직 내·외부의 비정형 데이터에 대해서 활발한 분석이 아쉽다. 빅데이터 업무에서 가장 중요한 분석역량 확보와 경험 축적을 체계적으로 준비할 것도 요구된다.

 

 

 

등대지기 프레임

빅데이터란 무엇인가? 이제 질문을 바꿔야 한다. 나의 절실한 문제를 해결하는 데 도움이 되는 데이터는 무엇인가? 그 데이터는 어디에 가면 찾을 수 있는가? 어떤 절차를 거쳐야 확보할 수 있는가? 어떻게 활용할 수 있는가? 성과를 만들어내기 위해 누구에게 도움을 요청해야 하는가? 빅데이터에 관한 질문의 출발을 데이터가 아니라 자기자신, 소속기관, 현실 업무, 미래 개척의 관점에서 시작해야 한다.

 

빅데이터에 관한이론적 이해실천적 활용두 바퀴로 전진해야 한다. 우선 <그림 2>를 살펴보자. 세상의 모든 데이터를 4개 상자로 구분했다. 기준은 두 가지다. 훌륭한 분류기법이다. 왜냐하면 데이터를 활용할 주인공이 부각되기 때문이다. 데이터를 바라보는 가장 중요한 출발점은 우선 자기자신 또는 소속 조직을 중심으로 살펴보는 것이다. 데이터의 생산지가 자기자신 또는 소속 조직 내부인지 물어본다. 다음으로는 형태가 정형인지, 비정형인지 묻는다. 서로 다른 2개의 기준이 만나 4개의 상자로 나뉜다.

 

<그림 2>를 가만히 살펴보면 한가운데에 점이 있다. 원본에는 없던 것을 일부러 추가했다. 그곳의 이름을등대지기라고 불러보자. 조직 내부와 외부, 형태상 정형과 비정형이 서로 짝을 이루는 4개의 해역 한복판에 동그란등대지기를 만든 이유는 간단하다. 데이터 활용의 주인 스스로가 등대처럼 두루 세상을 살피다가 정말 필요한 정보가 어디에 있는지 그때그때 활용하기 위함이다. <그림 2>의 미덕은 데이터 중심이 아니라 활용자 중심에 있다.

 

구글 인사본부는인재분석팀(People Analytics Team)’을 만들어 7년째 내부 데이터를 분석하고 있다. ① 내부·정형 데이터에서 구글의 미래를 발굴하고 있다. 그들은 외부·비정형 데이터에도 능하다. 어느 제과점 사장님은 기상청 날씨 데이터를 시간대별로 챙긴다. 어떤 제품을 더 만들지, 무엇부터 진열할지 날씨 데이터를 이용해 매출액을 올리고 있다. ② 외부·정형 데이터의 보물은 특히 공공데이터 속에 많이 숨어 있다. 인구, 가구, 주택, 교통, 기업체, 복지, 사회, 기상 데이터 등 모두 활용 가능하다. 대부분 무료다. 통계청 인구주택총조사 데이터(census data)는 예산 1800억 원이 투입됐다. 누구는 같은 데이터로 수천억 원의 가치를 발굴하고 누구는 거들떠 보지도 않는다.

 

신한카드 빅데이터센터는 외부의 비정형 데이터만 주목하진 않는다. 고객들이 회사 홈페이지, 블로그, 트위터, 페이스북, 콜센터에 남긴 메시지를 분석하고 있다. ③ 내부·비정형 데이터와내부·정형 데이터를 통합하고 때로는외부·비정형 데이터까지 한데 녹여 이탈고객을 70% 수준으로 예측하고 있다. ④번 해역이 가장 무섭다. 코닥, 모토로라, 노키아 같은 글로벌 선도기업들이외부·비정형 데이터의 파고와 암초를 피하지 못해 파산하거나 매각됐다. 개인도 예외가 아니다. 변화의 징후는에서 제일 먼저 예고편을 시작한다. 우리는 노련한 등대지기처럼 ①, ②, ③, ④ 각각의 해역을 번갈아 예의주시해야 한다. 기회와 위기는 어느 해역에서든 예고 없이 등장할 수 있으므로.

 

대형 유통점, 빅데이터를 실험하다

다양한 데이터 분석팀이 부산에 모였다. 대형 유통점의 부산 신규 점 출점을 축하하기 위해서다. 대형 유통점의 내부팀과 외부 데이터 분석 전문회사에서 3개 팀이 파견됐다. 프로젝트의 목표는 부산에 새로 개점할 매장의 차별화된 전략을 수립하고 경쟁우위를 확보하는 것이다. 이를 위해유통업체 내부의 정형 데이터를 다루는 CRM분석팀, ② 소비자 설문조사팀, ③ 외부 정형 빅데이터인 GIS 분석팀, ④ 외부 비정형 빅데이터인 SNS 분석팀이 하나의 목표로 협업했다. 사실 ①, ②의 분석 방법은 전통적으로 늘 수행해오던 방식이다. 빠르게 변화하는 고객의 요구를 이해하고 경쟁구도를 정확히 파악하고자 새롭게 ③, ④의 분석팀과 협업하기로 한 것이다.

 

협업을 통해 도출된 결과물을 바탕으로 신규 쇼핑공간의 전략적 방향을 정하고, 경쟁우위를 가져올 입점 브랜드의 구성을 제안하며, 지역 마케팅 방안을 수립하는 종합전략을 제시하는 것이다. 이를 위해 SNS 빅데이터 분석팀은 2008년 이후 약 56개월 동안 축적된 26000건의 쇼핑 관련 데이터를 분석했다. GIS 빅데이터 분석팀은 최근 1년 동안 부산에서 사용된 신용카드 결제건수 300만 건, 사용금액 2400억 원에 해당하는 데이터를 지원받았다. 여기에 각종 인구, 주택, 가구, 교통 데이터 등을 컴퓨터지도(GIS)에 입력해 전략상권을 추출하고 지역마케팅의 방향을 제시했다.

 

SNS 빅데이터 분석팀은 소비자의 마음을 읽어내기 위해 연관 키워드부터 분석했다. 소비자들이 생각하고 있는 쇼핑의 개념, 장소 선호도, 부산지역의 고객 특징, 경쟁 브랜드의 강점에 분석의 초점을 뒀다. SNS에서 쇼핑에 관한 연관 키워드 빈도수가 가장 많은 상위 4개를 골랐다. ‘가다’ ‘즐기다’ ‘사다’ ‘마치다로 압축된다. 키워드를 재구성해보자. 쇼핑이란 가서 즐기고, 물건을 사고, 쇼핑을 마치는, ‘시작과 끝이 존재하는 하나의 과정이다. ‘시작에 해당하는 행위와마치다에 도달한 행위는 서로 다르다. 이를 잡아내 공간계획에 어떻게 반영할까?

 

데이터 속에 숨은 마음을 읽다

쇼핑은 장소에 따라 서로 다른 의미를 가진다. SNS에서 건져 올린 소비자들의 행동패턴에서 쇼핑공간은 백화점, 아웃렛, 쇼핑센터가 서로 다르게 나타났다. 백화점은 엄마랑 선물이나 명품을 사는 곳, 아웃렛은 가족과 함께 찾는 곳이자 저렴한 가격에 물건을득템(아이템을 획득)’하는 곳, 쇼핑센터는 친구랑 전시회나 박람회를 관람하는 곳으로 표현된다. 장소에 따라 동반인과 소비행위가 달라진다. 장소의 특성에 따른 선호도 또한 변하고 있다. 자신이 아예 구매할 수 없는그림의 떡으로 넘치는 소외의 공간이 아니라 지불 가능하며 소비 가능한 곳을 선호한다. ‘내 것의 가능성이 있으면서고급스럽다거나고급지다는 표현이 어울리는 곳을 원했다.

 

국어학자의 관심은 언어의 변형이지만 데이터분석팀의 관심은 소비자의 마음과 행동의 연관성이다. 쇼핑은 앞서도 밝혔듯가서 즐기고 사서 오는시작과 끝이 있는 과정이다. 이렇게만 해석하면 전략적 포인트를 잡기가 어렵다. SNS 빅데이터의 키워드를 재구성해보았다. 쇼핑은눈으로 실컷 즐기며 돌아다니고, 저렴한 가격에득템하고, 준비해서 장만하며, 사고 싶은데 비싸서 고민하다가 지르는행위이기도 하다.

 

가장 중요한 대목은사전에 알아보고 비교하고 고민하는준비단계이다. 쇼핑은정보수집단계에서 시작된다. 수집된 정보를 비교하고 따져보고 다시 찾아보고 잠재 구매처를 둘러보는 것까지가정보분석단계다. 가장저렴한 가격으로 득템할 수 있고 결정적으로지를 수 있는장소는 쇼핑의 마지막 단계다. 신규 대형 유통점이정보수집단계에서부터 소비자의 마음을 사로잡는 공간이 될 것인가? 아니면 실제 물건을 구입하는마지막 단계를 위한 매력요인을 극대화할 것인가? 이 두 가지를 어떤 비율로 배합할 것인가? 세 가지 질문에 대한 대처가 중요한 고려사항이다.

 

‘고급지다’의 쇼핑심리학

백화점이나 대형마트에는 콩나물과 두부를 파는 코너부터 수백만 원이 넘는 명품과 캠핑장비가 함께 판매된다. 명품 매장과 푸드코트에서 느끼는 고급한 이미지는 서로 다르다. 쇼핑에 관해 SNS에 남겨진 키워드 분석에서고급스럽다고급지다는 단어는 분석가들의 관심을 빼앗았다. 한 글자 차이지만 공통점과 차이점은 흥미롭다. SNS 빅데이터 분석을 통해 드러난고급스럽다고급지다의 공통점은좋아하다’ ‘은은하다’ ‘비싸다’ ‘우아하다라는 연관어와 함께한다는 점이다. 대신, ‘고급스럽다세련되다’ ‘부드럽다’ ‘화려하다’ ‘시크하다’ ‘럭셔리하다등의 연관어로 표현된다. ‘고급지다는 미세하게 차이가 있다. ‘고급지다의 연관 키워드는가능하다’ ‘다르다’ ‘저렴하다’ ‘고맙다’ ‘기분 좋다와 사용된다.

 

‘고급스런’ 쇼핑공간과고급진공간은 서로 다르다. 비싸고 럭셔리한 공간은고급스럽다에 해당한다. 그런 동일한 제품이나 유사한 수준의 제품을 좀 더 합리적인 가격에 소비할 수 있을 때고급지다는 표현이 쓰였다. 저렴한 가격으로 소비할 수 있으니가능하다고맙다는 표현이 나온다. 쇼핑공간을 기획하고 제품과 서비스의 조합을 구성할 때 주목해볼 사안이다. 이는 쇼핑에 관한 정보수집, 정보분석, 최종구매 단계로 이어지는 소비자의 의식흐름과 매우 높은 상관관계를 갖는 것으로 해석할 수 있다.

 

지역적으로 쇼핑 장소의 차이점은 <그림 3· 4> 와 같았다. 아웃렛에 관한 전국적 SNS 연관어는 77%가 식당과 카페였다. 반면, 부산지역 아웃렛의 연관어는 49%가 워터파크, 영화관, 놀이터, 공원, 공연, 동물원, 온천처럼즐길거리가 차지하고 있었다. 전국과 부산과의 차이점을 더 찾아보기 위해즐길거리만 따로 연관어를 비교해봤다. 전국적으로는 전시, 야경, 콘서트 등의 키워드가 상위에 올랐다. 반면, 부산지역에서는 상대적으로 언급 횟수가 낮게 형성됐다. 부산지역에 대한 SNS 분석에서 다른 지역에 비해 아웃렛의즐길거리가 더 강하게 부각되는 것은 부산지역에 전시, 야경, 콘서트 등 다양한즐길거리가 부족함을 의미했다. 새로운 쇼핑공간을 기획할 때 별도의 배치를 제안했다.

 

전략적 승부처는 어디인가?

GIS분석팀의 핵심과제는 신규 유통점의승부처를 제시하는 것이다. ‘승부처는 단순히 전단지 배포대상지를 정하는 것보다 훨씬 더 중요한 전략적 의미를 갖는다. ‘승부처는 신규 점의 성패를 좌우할 중대사안이다. 누구를 대상으로 어느 지역에 집중할 것인지 정해야 한다. 우선, 전략상권 도출을 위해 내부 CRM과 외부 신용카드 데이터를 소지역별로 지도에 입력해서 분석했다. 20분이 관건이었다. 부산시에서 위치에 따라 운전시간 20분 거리는 경남과 울산지역까지 뻗어 간다. 총매출액의 67%는 부산시, 90%는 울산·경남권으로 확대됐다. A사 부산지역 기존 유통점들의 총매출액의 70%는 운전거리 20분 내에 집중됐다.

 

출점 담당 경영진은 서울 고객의 비중을 얼마로 할 것인지 오랫동안 고심해 왔다. 최근 부산은 더 많은 외래 관광객이 방문하고 있다. 여름에는 해운대·광안리해수욕장, 가을에는 국제영화제로 부산은 점점 사계절 관광도시로 변모하는 중이다. 출점 실무자들은 서울 고객을 포함해 타 지역 고객의 소비를 공격적으로 확보하겠다는 의지를 가지고 있었다. 하지만 신용카드 데이터의 거주지 분석 결과는 관광객이 가장 많이 몰리는 해운대에서도 서울 소비자의 대형 유통점 매출 비중은 3% 미만이었다. GIS 데이터 분석을 통해 부산지역에 집중하고 20분 권역을 석권하는 것이 무엇보다 중요하다는 결론을 얻었다.

 

유통시장에서 경쟁은 나날이 치열해져 백병전 양상을 띠고 있다. 경쟁자가 없는 독식상권은 점점 줄어들고 있다. 선점지역에 후발 경쟁매장이 진입하는 것은 일상이 되고 있다. <지도1·2>의 경우도 마찬가지다. 신규 점 예정지에서 운전으로 15분 거리에 대형 경쟁매장이 있다. 두 매장의 승패를 좌우하는 10∼20분 운전권역은 <지도 1> <지도 2>처럼 중첩지역과 별도지역으로 분리된다. 10분 운전권역 내에서 경쟁매장의 배후인구는 30만 명이다. 신규 예정 매장의 배후인구는 14만 명으로 경쟁점의 절반이다. 이처럼 배후인구가 상대적으로 열등한 조건에서 경쟁우위를 점할 수 있는 전략을 도출해야만 했다.

 

<지도 1> <지도 2>에서 고객을 창출하는 방법은 두 가지다. 첫째, 경쟁점도 확보하지 못한 지역의 고객을 새롭게 유치하는 것이다. 둘째, 경쟁점 배후상권의 고객을 후발 신규점으로 유도하는 것이다. 전통적인 설문조사와 CRM 데이터 분석을 통해 얻은 결론을 살펴보자. 소비력 있는 30∼40대 여성고객과 가족 단위 고객이 가장 중요했다. 문제는 타깃 고객들이 어디에 얼마나 거주하는지 파악하는 것이다. 경쟁점 영향권의 고객 견인과 경쟁점 영향권 밖의 새로운 전략지역에서 고객을 발굴하는 것이 가장 긴요한 과제로 떠올랐다.

 

CRM 데이터, 신용카드 데이터, 설문조사를 토대로 다양한 외부 데이터를 통합했다. 통계청이 제공하는 인구, 가구, 주택 데이터와 국토부가 제공하는 아파트 기준 시가 정보, 국민은행이 제공하는 입주 예정 아파트 단지 정보, 도로공사가 제공하는 도로망과 통행량 데이터를 참조했다. 이와 같이 지리공간적인 패턴분석을 바탕으로 운전거리 20분 권역에서 전략지역 10개 클러스터를 선정했다.

 

10개 전략지역은 부산·울산시 전체 면적의 2.3%에 불과하다. 하지만 배후인구만 116만 명이 살고 있다. 부산·울산시 총 인구의 24.5%에 해당한다. CRM 데이터를 이용해 전략지역 고객의 매출특징도 확인했다. 같은 부산·울산시의 타 지역에 비해 소득수준도 높고 유통점 지출도 강한 특징을 보였다. <지도 3> ⑨, ⑩ 지역은 운전거리 20∼30분 권역에 해당된다. 그럼에도 향후 1∼2년 동안 대형 아파트 단지가 계속 입주할 예정이며 30∼40대 인구 비중이 매우 높아 전략지역에 포함했다.

 

검색엔진의 작동비밀

인터넷 포털 네이버의 월 검색 건수가 19억 건을 넘긴 지 오래다.4 월 평균 20억 건을 적용하면 일 년에 2400억 건의 검색을 소화하는 셈이다. 검색 속도가 느리거나 검색 결과가 마음에 들지 않으면 방문객은 떠나고 말 것이다. 검색 사이트의 운명은 방문객이 얼마나 자주 찾고, 얼마나 오래 머물며, 얼마나 돈독한 관계를 형성하느냐에 달려 있다. 검색엔진은 그들에게 생존엔진이다.

 

 

 

인터넷 포털 검색본부장의 역할은 명료하다. 방대한 인터넷의 빅데이터와 방문자가 원하는 검색어를 신속하고 정확하게 연결해주는 일이다. 요즘 어떤 영화가 볼만 한지 궁금해개봉영화를 검색창에 입력했다. 검색결과에서울시 구로구 개봉동 영화아파트가 나온다면 기대와는 한참 거리가 멀다. 영화명량이후 이순신 장군에 대한 연관 검색이 늘었다. ‘노량을 검색했는데노량진 수산시장노량진 학원이 나오면 실망한다.

 

고객의 말귀를 알아듣고 마음을 헤아려 원하는 정보를 제때에 제공해야 한다. 마법사나 점쟁이가 아니라면 노력해서 분석할 수밖에 없다. 검색엔진의 성능이 좋아지려면 3가지가 필수다. 수집, 색인, 검색 모델링(랭킹) 3단계가 핵심이다. 검색엔진의 첫째 기능은 웹 문서를수집하는 것이다. 수집은 단번에 끝나지 않고 수시로 꾸준히 이뤄진다. 웹 문서의 양이 방대하기도 하지만 끊임없이 바뀌기 때문이다.

 

둘째, 색인(index) 기능은 언어처리에 관한 영역이다. 수능의 언어영역 시험처럼 문맥의 흐름과 숨은 의미를 제대로 파악해야 한다. ‘으리를 입력하면으리으리한커다란 집이 아니라의리라는 단어의 의도적인 유머표현이라는 것도 알아채야 한다. 사람마다 주소란에아파트를 기입할 때도 표현방법이 다양하다. GIS에서 주소엔진을 가동할 때 ‘A·a·@·네 가지 모두아파트라고 미리 색인을 붙여놓는 것과 같은 원리다. 셋째, 수집·색인 후에는 어떤 정보를 상단에 올릴 건지 우선순위를 정해야 한다. 이를 위해 검색엔진에는 수천만 줄의 컴퓨터 알고리즘이 숨어 있다.

 

매일 수억 건의 검색요청을 처리하는 일에 컴퓨터 엔지니어들이 참여한다. 검색 엔지니어들은 거대 도서관의 뛰어난 사서처럼 일한다. 그들은 텍스트, 이미지, 영상 자료를 수집하고 분류하며 색인을 붙이고 가중치를 부여한다. 저자, 출판사, 제목을 검색 전에 완전히 준비해오는 방문객은 그래도 쉽다. 막연히 한국 문화에 대해 궁금하다고 하면 어떻게 원하는 정보를 찾아가야 하는지 안내해야 한다. 도서관 사서, 검색엔진 개발자, 빅데이터 분석가, 유통회사 전략담당자는 전혀 다른 분야에서 일한다. 그럼에도 세상의 데이터를 처리해서 새로운 것을 만들어내기 위해 애쓰는 것은 비슷하다.

 

창조모드로 이동하다

헤밍웨이는 글을 쓸 때 링 위의 권투선수처럼 전력을 다한다고 강조했다. 헤밍웨이의 작업실 벽에 걸린커다란 도표 위에 쓰인 숫자는 450, 575, 462, 1250, 다시 512와 같이 다양하다. 헤밍웨이가 평상시보다 일을 많이 한 날 써놓은 큰 숫자는, 다음 날 낚시질을 하며 하루를 보내더라도 죄책감을 느끼지 않기 위한 것이다.”5 소설가 조정래는 원고지 한 장을 끝낼 때마다 자신의 이름이 새겨진 도장을 찍었다. 스스로 격려하기 위함이다. 더 이상 고치지 않아도 된다는 품질보증이기도 하다.

 

작가들의 작업방식은 빅데이터에 대한 인식의 전환을 요구한다. 빅데이터를 위한 하드웨어, 소프트웨어, 분석방법에만 주목하지 말고 창조모드로 이동하라는 제안이다. 가장 진부해 보이는 단어와 문장을 가지고도 새로움을 창조해보라 권유한다. 기업의 근본적인 존재 이유는 고객 창조다. 빅데이터의 활용 방향은 고객 창조를 담보해야 한다. 쉽지 않지만 고객 창조의 통찰이 만들어지도록 애써야 한다.

 

빅데이터가 있다고 통찰력이 저절로 만들어지지는 않는다. 데이터와 정보의 홍수 속에서 어떻게 통찰력을 얻을 수 있을까? 현 단계 빅데이터 중 외부 비정형 데이터의 대부분은 텍스트 데이터다. 미래전략 전문가 리처드 왓슨에게 물었다. 당신이 지식과 지혜를 얻는 원천은 어디인가? “나는 많이 읽는다. 신문은 말할 것도 없고 책과 잡지 등을 두루 읽는다. 내 컴퓨터의 시작 홈페이지는 <뉴욕타임스>. 내 독서 리스트에는 약 200개의 각종 읽을거리가 올라 있다. 나는 또 많은 사람과 이야기를 나누고 여행을 다닌다. 읽기와 대화하기와 여행하기에서 패턴과 연계성을 찾는다.”6

 

성실함만으로 어찌 해볼 수 없는 빅데이터 시대에 살고 있다. 하지만 여전히 성실한 텍스트 읽기와 행간을 읽어내는 사색은 절실하다. 미래학자 앨빈 토플러의 언급도 같은 맥락이다. “저에게는 마법의 구슬이 없어요. 읽은 수 있는 모든 것을 읽으려 합니다. 제가 가장 주목하는 것은 변화를 만들어 내는 사람, 새것을 창조하는 사람들을 위주로 읽고 그들을 직접 만나 인터뷰하는 것입니다.” 앨빈 토플러는 읽기와 인터뷰 사이에서 어떤 패턴이 정말 중요한 것인지 끊임없이 생각한다고 했다.7 읽기와 인터뷰로 미래의 징후를 포착한다니 부실한 분석 자세를 스스로 되돌아보게 된다.

 

송규봉GIS United 대표 mapinsite@gisutd.com

정보린GIS United 분석팀장 borin78@gisutd.com

송규봉 대표는 ㈜GIS United 대표를 맡고 있으며 연세대 생활환경과학대학원 겸임 교수로 재직 중이다. 미국 펜실베이니아대에서 GIS를 전공했으며 와튼경영대학원과 하버드대에서 GIS 연구원으로 재직했다. 저서로는 <미국 인터넷산업의 지도> <비즈니스 GIS> <지도, 세상을 읽는 생각의 프레임> 등이 있다. 정보린 팀장은 ㈜GIS United에 재직 중이며 미국 펜실베이니아대에서 건축학 및 도시공간 분석학을 전공했다. 현재 빅데이터 분석을 통한 지속가능한 친환경 도시·건축 구현에 대해 연구하고 있으며 공저로는 <공공정책을 위한 빅데이터 전략지도>가 있다.

 

  • 송규봉 송규봉 | - (주)GIS United 대표
    - 연세대 생활환경대학원 겸임교수
    - 와튼경영대학원, 하버드대 GIS연구원
    mapinsite@gisutd.com
    이 필자의 다른 기사 보기
인기기사