로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

AI•빅데이터 포럼: 기업 성장을 위한 데이터 중심 비즈니스 전략

데이터 리터러시가 기업 성장의 핵심
量 늘리기보다 수집 과정서 質 높여야

최호진 | 360호 (2023년 01월 Issue 1)
Article at a Glance

과거엔 빅데이터가 강조됐다면 최근엔 고품질 소량 데이터의 중요성이 부각되고 있다. 단순히 데이터양에 초점을 맞추기보다 데이터가 수집되는 과정에 집중해 데이터의 품질을 관리하는 것이 중요하다. 특히 사업 특성상 보유한 데이터가 많지 않은 경우에는 데이터 기반 예측 모델을 만들었을 때 어떤 성능이 도출되는지, 기존 프로세스보다 더 효율적인지 파악하는 등 업무 퍼포먼스 관점에서 접근하는 것이 바람직하다. 한편 모든 실무자가 고도의 빅데이터 분석이나 관리 기법을 배울 필요는 없다. 그보다는 데이터를 바탕으로 추론하고 문제를 해결하는 데이터 리터러시 역량이 중요하다. 이를 키우기 위한 방법으로는 데이터 분석 목적과 도출하려는 결과 등을 가정해보는 훈련이 도움이 된다.



KakaoTalk_20221220_110221413


『플랫폼 제국의 미래』를 쓴 스콧 갤러웨이 미국 뉴욕대 교수는 2023년 테크 분야 핵심 키워드로 ‘인공지능(AI)’을 꼽았다. 그는 글이나 음악, 이미지 등을 만드는 제너레이티브 AI, 텍스트 생성 AI 등을 언급하며 “AI의 거대한 도약이 목전에 있다”고 전망했다. 실제로 오픈 AI가 텍스트 생성 딥러닝 AI 모델인 GPT-4를 2023년 초 공개할 것을 예고해 관련 업계가 주목하고 있다. 2020년 공개된 GPT-3는 매개변수 1750억 개를 활용했는데 공개를 앞둔 GPT-4는 매개변수 100조 개를 사용해 훨씬 뛰어난 성능을 보일 것이라고 전문가들은 예측한다.

AI가 과연 인간을 대체할까? 적어도 AI를 활용하는 담당자가 그렇지 않은 담당자를 대체할 것이란 예측은 현실화될 가능성이 높다. 이에 일부 기업은 노코드 기반 AI 도구를 도입해 데이터에 대한 깊은 직관을 가진 도메인 전문가들이 AI 전문가로 성장할 기반을 다지고 있다. 한편 AI의 핵심인 데이터 중심 조직으로 탈바꿈해 변화를 모색하는 기업도 늘어나고 있다. 데이터 분석으로 사업 전략을 피벗하며 코로나19 위기를 극복한 여행 플랫폼 스타트업 마이리얼트립이 대표적이다.

기술 혁신이 가속화되는 가운데 기업은 성장을 위해 어떻게 체질 개선에 나서야 할까? 데이터와 AI를 비즈니스에 효과적으로 활용하기 위해 유념해야 할 점은 무엇일까? ‘기업 성장을 위한 데이터 중심 비즈니스 전략’을 주제로 2022년 12월7일 열린 ‘동아비즈니스포럼 2022’의 조인트 세션 ‘AI•빅데이터 포럼’의 주요 내용을 요약 소개한다.

기업 성장의 핵심, 리터러시 
082


강양석 딥스킬 대표

경영자 출신 데이터 전략가다. 딜로이트 컨설팅 전략 팀장, 인공지능 상장사 최고운영임원(COO)을 거쳐 현재 데이터 사고력 관련 강의, 출판 및 컨설팅 기업 딥스킬(deepskill.io) 대표로 재직하고 있다. 대표 저서로는 『데이터로 말하라(2015)』 『데이터 리터러시 (2021)』가 있다.

기업 성장을 위한 핵심 요소는 무엇일까? 강양석 딥스킬 대표는 데이터를 맥락에 맞게 읽고, 이를 기반으로 추론하는 역량인 ‘데이터 리터러시’의 중요성을 강조했다. 강 대표는 “모든 실무자가 고도의 빅데이터 분석이나 관리 기법을 배울 필요는 없지만 문제해결을 위해 데이터로 생각하는 힘을 길러야 한다”고 말했다. 데이터 리터러시를 키우기 위한 방법으로는 데이터 분석 목적과 도출하려는 결과 등을 가정하는 훈련을 반복할 것을 조언했다.

디지털 전환을 가속하는 데이터 리터러시

2018년 가트너가 전 세계 150여 명의 최고데이터책임자(CDO, Chief Data Officer)를 대상으로 업무에 가장 큰 걸림돌이 되는 요소를 조사한 결과, ‘변화를 받아들이려 하지 않는 마음’과 ‘데이터 리터러시 부족’이 각각 1, 2위로 꼽혔다. 미국의 데이터 시각화 소프트웨어 회사 태블로가 2020년 기업이 가장 중요하게 생각하는 데이터 교육을 조사한 결과, 디지털 트랜스포메이션을 가속화했던 기업일수록 데이터 분석 기법과 도구보다는 기본적인 데이터 리터러시를 더욱 중시하는 것으로 나타났다.1

이 두 설문 조사 결과는 데이터 리터러시의 중요성을 보여준다. AI를 특정 비즈니스 문제를 풀기 위해 활용한다면 데이터 과학자를 훈련하면 된다. 반면 AI를 조직 전체의 혁신 에너지로 쓰고자 한다면 현업 실무자가 데이터 프로젝트의 매니저, 즉 PM(Project Manager)이 될 수 있어야 한다. AI에 활용할 데이터의 적절성을 판단하고 데이터 과학자와 소통하며 데이터로 논증할 수 있는 데이터 리터러시 역량이 필요한 것이다.

또한 모든 개인이 자신의 실무 문제를 풀기 위한 데이터를 요청할 수 있어야 한다. 이는 세 가지 의미를 내포한다. 데이터로 문제를 해결하겠다는 욕망과 어떤 데이터로 문제를 해결할지 구상하는 기획력, 마지막으로 데이터에 대한 요구를 처리할 조직 체계를 갖추고 있음을 의미한다. 즉, 실무 문제를 해결하려는 목적으로 “이 데이터가 필요하다”고 직원 개인이 데이터 요청을 활발히 하는 조직이라면 데이터가 경영 체계의 자양분이 되고 있다고 볼 수 있다.

데이터 리터러시, 어떻게 키울까

083


[그림 1]을 보고 국내 테마파크 산업의 특징을 유추해보자. 95%는 이렇게 답변한다. “국내 테마파크 산업이 정체돼 있다.” “1~2위 기업이 거의 과점 구조를 가지고 있다.” “수도권 중심이다.” 반면 나머지 5%는 “2007년 롯데월드가 주춤했는데 다른 기업이 반응하지 않는 걸 보니 경쟁 관계가 아닌 것 같다”라고 유추한다. 이처럼 데이터를 기반으로 추론하는 사람은 차별화된다. 데이터를 분석할 때 사실성에 기반해 사고력을 보강하는 것은 좋지만 모든 데이터 기반 의사결정 과정에서 사실에 지나치게 집착하는 것은 바람직하지 않다. 그보다는 상상하며 추론하는 것이 중요하다. 앞서 언급한 롯데월드와 다른 기업들이 경쟁 관계가 아닐 것이라는 추론이 사실이 아닐 수 있다. 그러나 의심과 호기심을 통해 사실을 검증하는 과정이 중요하다. 상상하고 추론하지 않으면 사실을 검증할 기회조차 얻지 못한다. 개연성에서 사실성을 발견하는 힘, 즉 데이터 리터러시가 중요한 이유다.

목적에 맞게 관점을 설계하는 힘도 중요하다. 스타벅스에서 콘센트 좌석을 차지하기 위한 최적의 방문 시간을 구한다고 해보자. 어떤 데이터를 모아야 할까? 대부분의 사람은 시간대별 방문자 수와 와이파이 접속자 수, 전력 사용량 등을 얘기한다. 10%는 시간대별 이용자가 매장에 머무는 시간이라는 참신한 데이터를 요청한다. 이것이 관점의 차이며 데이터 리터러시 역량이다. 단순히 트래픽 관점에서 방문자 수만 보면 사람이 몰리는 점심시간인 오후 12시40분 강남역 스타벅스에 가는 현상을 설명하지 못한다. 하지만 고객 회전율 관점에서 보면 오후 12시40분은 방문자가 빠져나가는 제법 괜찮은 시간이다. 결국 ‘콘센트 좌석 차지를 위한 최적의 스타벅스 방문 시간’이라는 목적에 맞게 관점을 설계하는 힘은 데이터 리터러시 역량을 좌우한다.

그렇다면 데이터 리터러시를 어떻게 키울 수 있을까? 뉴욕타임스가 어린이들의 데이터 교육을 위해 만든 웹사이트 ‘What's Going On in This Graph?’가 좋은 예다. 이 웹사이트에 기자가 간단한 그래프와 질문을 올리면 아이들이 답변을 적는다. 가령 미국 22개 도시별 온도 추이 그래프와 함께 “이 그래프에서 무엇을 발견했습니까? 무엇이 궁금한가요?”라는 질문을 올리면 어린이들이 “많은 미국 도시의 기온이 급격히 상승했다는 점을 발견했습니다”라고 댓글을 단다. 수백 개씩 댓글이 달리고 서로 토론하며, 심지어는 그래프를 활용해 헤드라인을 달고 직접 기사를 쓰기도 한다. 과거 어린 학생들이 위인전을 보고 독후감을 썼다면 현재 미국 아이들은 데이터를 보며 기사를 쓰는 것이다. 데이터로 추론하는 힘, 즉 데이터 리터러시 역량을 기르는 실천적인 교육이라고 볼 수 있다. 코딩과 통계 기법 교육 일색인 우리 교육 현장에 의미 있는 시사점을 준다.

084


빠르게 성장하는 기업의 조건,
데이터 중심 조직 만들기

085


양승화 마이리얼트립 데이터 & 인사이트실장

네이버, 이음소시어스, SK텔레콤의 프로덕트 매니저를 거쳐 현재 여행 스타트업 마이리얼트립의 데이터 리드로 데이터 분석과 마케팅을 담당하고 있다. 데이터를 통해 서비스와 비즈니스가 직면한 문제를 해결하는 일에 관심이 많다. 책 『그로스 해킹』의 저자다.

데이터 중심 조직이라고 하면 빅데이터를 가진 대기업 혹은 AI나 머신러닝에 강점을 가진 기업을 흔히 떠올린다. 그러나 데이터를 지나치게 기술적으로 접근하거나 인프라 구축에 초점을 맞추다 보면 데이터로 어떤 문제를 풀어야 할지에 대해서는 놓치는 경우가 많다. 여행 플랫폼을 운영하는 스타트업 마이리얼트립의 양승화 데이터 & 인사이트실장은 “문제해결 관점에서 데이터 분석에 접근할 것”을 강조했다. 코로나 팬데믹 시기, 창립 이래 가장 큰 위기를 겪은 마이리얼트립이 데이터를 활용해 사업 전략을 피벗하며 위기를 극복한 사례를 소개한다.2

데이터가 흐르는 조직 만들기

여행업은 코로나 이전과 이후로 나뉜다. 코로나 이전부터 마이리얼트립은 데이터 중심 조직으로 성장하기 위해 준비하고 있었다. 2018년 마이리얼트립에 합류할 때만 해도 데이터 담당 인력이 없었다. 데이터가 필요하다고 요청하면 개발자가 데이터베이스에서 추출해줬고 그 과정이 1주일 정도 걸렸다. 막상 그렇게 받은 데이터가 원하던 것이 아닐 때도 있었다. 이 과정이 반복되면서 데이터 중심 조직에 대한 필요성이 대두됐다. 조직이 핵심 데이터 지표를 만들어 관리하고, 이 지표를 확인하기 위한 파이프라인을 구축해야 한다는 것이었다. 또 전사적으로 부서를 넘나들며 데이터를 요청하고 이를 분석하는 데이터 기반 문화를 만들자는 합의에 다다랐다.

처음에는 사내에서 유일한 데이터 담당자로 업무를 시작했지만 어느 정도 수월히 진행할 수 있었다. 데이터 분석을 위한 환경이 많이 좋아졌기 때문이다. 특히 최근 3~4년 사이 기술 인프라가 굉장히 발전했다. 과거에는 데이터 분석 환경 구축을 위해 인프라 개발자와 머신러닝, 하드웨어를 설치하는 일련의 과정이 필요했다면 최근에는 아마존웹서비스(AWS)에 계정을 생성한 뒤 클릭 몇 번으로 원하는 분석 환경을 만들 수 있다. 데이터 엔지니어가 담당하던 전처리 과정도 분석가들이 클릭과 드래그로 편하게 처리할 수 있게 됐다. 또 이렇게 쌓인 데이터로 대시보드를 만들거나 사내에 공유하는 여러 도구가 개발되는 등 작은 스타트업도 효율적인 방식으로 데이터 인프라를 활용할 수 있는 환경이 만들어졌다.

데이터 중심 조직을 만들기 시작한 당시 마이리얼트립의 지향점은 ‘데이터를 기반으로 업무를 진행하는 프로세스와 역량을 갖춘 회사’였다. 구체적으로 설명하면 복잡한 절차 없이 필요한 데이터를 누구든 찾아보고 분석할 수 있으며, 분석 결과물들이 사내에 체계적으로 쌓이고 실제 서비스에 반영되도록 하는 것이었다. 이를 위해 먼저 모든 구성원이 필요한 데이터를 스스로 찾아볼 수 있도록 사내 SQL 교육을 시작했다. SQL은 데이터베이스에서 데이터를 추출하는 대표적인 언어로, 흔히 알려진 자바(JAVA), 파이선(Python) 같은 범용 언어보다 문법이 훨씬 간단하다. 대표, 임원진을 포함한 전사 직원이 SQL 스터디를 진행하며 자신의 업무에 필요한 데이터는 1차적으로 스스로 추출해 쓰는 문화를 만들었다. 경영진에게 전달하는 보고서에도 SQL 쿼리 링크를 첨부하는 등 보고 문화도 데이터 기반으로 바뀌었다.

마이리얼트립의 코로나19 극복기

데이터 기반 조직 문화가 전사로 전파되고 어느 정도 성과를 보일 때쯤 코로나 팬데믹이 일어났다. 매년 3배씩 성장하는 회사였지만 코로나 팬데믹 이후 예약 건수가 급감했다. 2020년 1월 기준 거래액이 520억 원에서 4월 기준 10억 원대로 떨어졌다. 마이리얼트립은 피벗을 고민하기 시작했다. 회사의 강점이었던 해외여행에서 힌트를 얻었고 이와 가장 유사한 특성을 가진 국내 여행지인 제주도를 공략했다. 다른 회사들이 지사를 축소하고 인력을 감축할 때 마이리얼트립은 창립 이래 최초의 지사를 제주에 설립했다. 제주 공략을 위한 데이터 분석도 활발히 진행했다. 제주 여행자들이 누구와 함께 여행을 가고, 어느 정도 기간을 앞두고 예약하는지, 어떤 여행 상품을 구매하는지 등을 분석하며 전략을 세웠다. 분석 가설을 제주 지사에 전달해 실제로 실험해보고 시행착오를 반복하며 여행 상품을 개발했다.

086


대표적인 사례가 제주도 버스, 택시 투어다. 흔히 제주도로 여행 가면 렌터카를 빌릴 것이라고 생각하지만 실제 데이터를 분석해 보니 상대적으로 20대의 렌터카 예약 비율이 낮았다. 면허가 없거나 운전 미숙 등의 이유로 숙소 근처에서 제한적으로 활동하고 돌아오는 경우가 많았다. 실제로 조사해 보니 1인 여행자를 중심으로 버스, 택시 투어에 대한 수요가 있었고 이에 20~30대를 공략해 관련 상품을 브랜딩하면서 큰 성과를 거뒀다.

해외여행 수요자를 위해서는 랜선 투어를 기획했는데 데이터를 분석해 보니 어린이에게도 좋은 여행 상품이라는 인사이트를 발견했다. 방학 기간 팬데믹으로 갈 곳이 없어진 초등학생을 대상으로 랜선 투어를 튜닝해 만들었다. 데이터를 분석해 보니 만족도에 크게 영향을 끼치는 요소 중 하나가 랜선 투어 시 발생한 채팅 수였다. 참여자들끼리 직접 대화하고 추억을 공유하면서 커뮤니케이션이 활발할수록 만족도가 높아진다는 인사이트를 활용해 B2B 상품인 기업 워크숍용 랜선 투어를 기획하기도 했다. 데이터 분석으로 얻은 인사이트를 신상품 개발로 연결한 좋은 예다.

숙소의 경우, 결제 전환율이 너무 낮아 이를 높이기 위한 여러 노력을 했다. 의미 있었던 노력 중 하나는 숙소 사진 대신 동영상 리뷰를 보여주는 것이었다. 목에 카메라를 달고 해당 숙소 내외부를 돌며 실제 모습을 보여주는 등 결제 전환율을 올리는 실험을 진행했다. 이 밖에 트래픽을 늘리기 위해 제주도에서 할 수 있는 여러 체험을 지도로 만들어 항공편이나 렌터카, 주요 카페에 배포하기도 했다. 지도를 통해 들어오는 트래픽을 전부 추적해 어떤 채널에서, 어떤 상품이 가장 인기가 많은지 분석하며 전략을 계속 수정, 보완했다.

앞서 설명한 데이터 중심 접근법들은 팬데믹 시기, 해외여행에서 국내 여행으로 성공적으로 피벗하는 데 핵심 기반이 됐다. ‘데이터를 활용해 문제를 해결할 수 있는 조직을 만들자’라는 목표 아래 팬데믹 시기를 버틴 결과, 필요한 투자도 적시에 받을 수 있었고 현재 훨씬 좋은 성장 곡선을 그리고 있다.


데이터 중심 비즈니스를 위한
데이터 역량 강화 방안

088


손진호 알고리즘랩스 대표

AI 교육, 컨설팅 및 솔루션을 제공하는 기업 알고리즘랩스의 대표다. 업무 전문성을 가진 도메인 전문가가 AI 기술을 올바르게 이해하고 실무에 활용할 수 있도록 돕고 있다. 현재까지 LG, 현대, SK, KB, ASML 등 100여 개 기업의 실무자 1만3000여 명에게 AI 솔루션을 제공해왔다.

1950년대 처음 등장한 AI는 기술 중심의 많은 연구를 거쳐 현재 인간에 대적하는 높은 성능을 보이는 단계까지 진화했다. 과거에는 AI 모델의 성능에 초점을 맞췄다면 최근에는 AI에 활용되는 데이터에 집중하는 연구들이 활발한 추세다. 손진호 알고리즘랩스 대표는 “모델 중심의 AI에서 데이터 중심 AI로 트렌드가 변하고 있다”고 말했다. 또한 기존에는 빅데이터가 강조됐다면 최근 고품질 소량 데이터의 중요성이 부각되고 있는 점도 주목할 만한 변화로 언급했다. 손 대표는 “단순히 데이터양에 초점을 맞추기보다 해당 데이터가 수집되는 과정에 집중해 데이터의 품질을 관리하는 것이 중요하다”고 강조했다.

데이터 중심 사고로 전환하라

데이터 중심 비즈니스를 ‘역사는 반복된다’는 말에 비유할 수 있다. 역사는 반복되기에 역사를 알면 현재 방향을 설정하고 문제에 현명히 대처할 수 있는 지혜가 생긴다는 의미다. 데이터가 중요한 이유도 마찬가지다. 특정 업무가 일회성이 아닌 계속 반복적으로 수행되다 보면 그 과정에서 패턴이 생기고 담당자는 이를 통해 노하우를 얻을 수 있다. 이 노하우를 직관이라고 표현하기도 한다. 그러나 담당자가 조직을 이탈하면 그가 가진 직관도 기업에서 사라진다. ‘기업의 기억’이 사라지는 셈이다. AI를 활용하면 담당자의 이탈 여부와 관계없이 직관을 잘 보존할 수 있다. 특히 반복적으로 일어나는 패턴과 관련해서는 AI가 적용될 가능성이 높다.

말로 설명하기 어려운 패턴까지 잘 포착한다는 점에서 데이터 중심 사고의 중요성은 높아지고 있다. 대부분의 사람이 강아지와 고양이를 구분할 수 있지만 둘을 어떻게 구분하는지 말로 온전히 설명하기 어려워한다. 실제로 2010년 진행한 연구 결과에 따르면 강아지와 고양이를 말로 설명했을 때 가장 잘 맞춘 연구 집단의 정확도는 60%에 불과했다. 강아지와 고양이를 우리 뇌를 통해 구분할 수 있지만 말로 설명하는 데는 한계가 있음을 보여준다. 그러나 데이터는 말로 설명하기 힘든 패턴을 잡아낼 수 있다는 점에서 유용하다. 모호한 가설들을 데이터로 분석하면 분명한 패턴을 포착할 수 있다는 점에서 데이터 중심의 업무 가치가 높아지고 있다.

많은 기업이 데이터 중심 의사결정의 중요성에 공감하지만 이를 실행하기 위한 데이터가 충분하지 않다며 어려움을 토로한다. 실제로 업무 특성 자체가 빅데이터를 보유하기 쉽지 않은 여건인 경우가 많다. 예를 들어, 건설사의 경우 1년에 수백만 개씩 건물을 지을 순 없다. 빅데이터가 없기 때문에 AI를 못 쓸까? 그렇지 않다. 중요한 건 데이터의 절대적인 양이 아니다. 앤드루 응 미국 스탠퍼드대 교수는 “수백~수억 개 데이터 그 어느 지점에서도 유의미한 AI가 만들어질 수 있다”고 말했다. 데이터양보다는 현재 가진 데이터로 무엇을 할 수 있을지 고민하는 것이 중요하다. 보유한 데이터가 많지 않아도 데이터 기반 예측 모델을 만들었을 때 어느 정도의 AI가 도출되는지, 기존 프로세스보다 더 효율적인지 파악하는 등 업무 퍼포먼스 관점에서 접근하는 것이 바람직하다. 실제로 알고리즘랩스가 수백 개 수준의 데이터를 분석해 제조업 현장에서 기존 프로세스보다 약 3배가량의 정확도를 산출해낸 경험도 있다. 데이터양이 데이터 분석 프로젝트를 결정짓는다는 함정에 빠져서는 안 된다.

그렇다면 AI를 도입하고자 한다면 구체적으로 어떤 단계를 밟아야 할까? 흔히 데이터를 가장 먼저 떠올린다. 그러나 어떤 문제를 AI로 해결할지에 대한 계획부터 선행돼야 한다. 이후 계획에 맞게 데이터를 설계하고 이를 활용해 AI를 학습시켜야 한다. 그러고 나서 중요한 단계가 바로 상호작용(interaction)이다. AI를 의사결정 등에 어떻게 효과적으로 사용할지 고민해야 한다. 어떤 뛰어난 AI도 사람에게 연결돼 사용되지 않으면 무용한 기술에 불과하다.

한편 실무 현장에서 어떻게 데이터를 쌓고 알고리즘을 만들지에 대한 고충을 털어놓는 기업도 있다. 그러나 최근 노코드 기반 AI 도구가 개발돼 현장에서 사용하는 사례가 늘어나고 있다. 가령, AI 활용 절차를 동그란 위젯으로 만들어놓고 데이터 생성 및 학습 등을 간편히 진행하는 식이다. AI를 쉽게 활용할 수 있는 여러 인프라가 제공되고 있는 만큼 데이터에 대한 깊은 직관을 가진 도메인 전문가들이 향후 AI 전문가로서 역할을 할 것이라는 전망이 나오고 있다.

089


기술 혁신이 가속화되고 있다. 2022년 4월 구글이 발표한 AI 알고리즘 패스웨이가 단순한 대화를 넘어 문제를 풀거나 추론하고 이를 바탕으로 대신 코딩해주는 등 AI의 성능은 점점 진화하고 있다. 마치 인간 화가가 그린 것처럼 뛰어난 예술 작품을 만들어내는 AI도 있다. AI가 인간을 대체할 것인가에 대한 논의는 기존에도 있었고 앞으로도 치열할 전망이다. 그러나 적어도 AI를 활용하는 담당자가 그렇지 않은 담당자를 대체할 것이라는 예측은 의심의 여지 없는 사실이다. 이것이 지금, 데이터 중심 사고로 전환해야 하는 이유다.

비즈니스 현장의
AI 기술 적용 방법과 사례

090


이치훈 CJ그룹 AI센터장

CJ그룹 AI센터장으로 CJ그룹 내 여러 팀과 함께 첨단 머신러닝 연구개발(R&D)을 이끌고 있다. 특히 대규모 AI 머신러닝 시스템 개발에 주력하고 있다. 주요 연구 개발 분야는 자연어 처리와 컴퓨터 비전으로 NeurIPS, ICML, KDD, ECML 등 AI 머신러닝 분야에서 세계적으로 높은 권위를 자랑하는 국제 콘퍼런스에 여러 연구 논문을 게재했다.

AI는 지난 4~5년 사이 모든 영역에서 급성장했다. 구글 트렌드 분석에 따르면 ‘머신러닝’ 키워드 검색량은 2015~2016년에 급증했다. 현재 중고등학생들이 AI 모델을 만들고 시뮬레이션하는 등 AI에 대한 진입 장벽은 점점 낮아지는 추세다. 그러나 낮은 장벽과 달리 AI를 실제 서비스에 적용하기란 쉬운 일이 아니다. 이치훈 CJ그룹 AI센터장은 “실제로 AI 모델을 적용해보면 개발 과정에서의 성능과는 엄청난 차이를 보이는 경우가 많다”며 “실무 현장에서는 모델링보다 양질의 데이터 확보와 피처 엔지니어링(Feature Engineering)에 많은 노력을 기울여야 한다”고 조언했다.

AI 도입 시 고려해야 할 5가지 요소

넷플릭스의 영화 추천, 아마존의 상품 추천, 구글의 검색엔진 등 많은 분야에서 AI가 비즈니스의 핵심 기술로 활용되고 있다. 하지만 이런 성과의 이면에는 AI를 활용하는 실무 현장이 직면한 몇몇 어려움이 있다. 일례로 2021년 12월 아마존이 개발한 AI 알렉사가 어린아이의 질문에 감전을 유도하는 방법을 알려줘 큰 논란이 된 적이 있다. 이런 위험성은 현재 AI 기술이 직면한 한계와 도전을 보여준다. 이 밖에 방대한 데이터를 쌓기 위한 투자도 큰 장벽이다. 특히 투자가 위축되는 지금 같은 상황에서 자율주행 등 당장 상용화하기 어려운 서비스는 자금 조달에 어려움을 겪고 있다.

이런 리스크를 고려해 효과적으로 AI를 활용하려면 어떻게 해야 할까? 먼저 AI를 기업의 주요 비즈니스 목표와 일치시켜야 한다. 넷플릭스가 좋은 예다. 넷플릭스가 추천 시스템을 10~20년간 계속 개발할 수 있었던 이유 중 하나는 AI를 비즈니스 생존을 위해 꼭 적용해야 하는 필수 영역으로 여겼기 때문이다. 구글과 메타도 AI 기반 광고 시스템을 비즈니스 목표, 수익과 직결되는 영역으로 봤다. 따라서 초기에는 개발, 성능 면에서 만족스러운 성과가 나지 않았지만 지속적으로 개발한 결과, 현재는 광고 시스템 분야에서 톱티어로 자리매김했다.

091


두 번째로 고려해야 하는 요소는 데이터다. 데이터는 AI의 핵심이다. 데이터 파이프라인3 을 잘 정리하면 급변하는 비즈니스 환경에서 데이터의 패턴 변화를 기민하게 포착할 수 있다. 낚시에 비유하자면 데이터 파이프라인을 구축한 상태에서 AI를 활용하는 것은 낚싯대로 물고기 한 마리를 잡는 것이 아닌 크레인 장비를 동원해 방대한 양의 물고기를 한 번에 잡는 것과 같다.

정확도도 중요하다. 정확도를 위해 처음부터 딥러닝 같은 복잡한 모델을 적용하면 실패할 가능성이 높다. 처음에는 선형 회귀 같은 단순한 모델에서 시작해 점점 복잡한 모델을 적용하는 방법론을 택하는 것이 효과적이다. 또한 모델의 정확도와 함께 해당 모델이 일관된 성능을 보여주는지, 앞으로도 성능이 향상될 여지가 있는지도 함께 고려해야 한다.

그다음 AI로 실제 서비스를 만들고 상품화하고자 한다면 AI 시스템을 설계하는 시스템화(Systemization)가 필수적이다. AI 시스템은 생각보다 훨씬 복잡하다. 유기체라고 보면 된다. 넷플릭스의 추천 시스템을 살펴보면 오프라인과 온라인 데이터 등 여러 부분을 처리해야 한다. AI를 현실에 적용하려고 보면 막상 머신러닝 모델 수백 개가 필요한 경우도 있다. 예를 들어, 머신러닝 모델 200개를 적용한다고 하면 모델들을 훈련한 뒤 이 중 모델 하나를 업데이트했을 때 다른 모델은 어떻게 연동돼야 하는지 등 복잡한 문제들이 생겨난다. 이런 모든 문제를 미리 예측하고 준비하지 않은 채 AI를 적용하면 원하는 성능을 구현하기 어렵다. 면밀한 시스템화가 필요한 이유다.

마지막으로 고려해야 할 요소는 속도(speed)다. 구글에 따르면 사용자가 검색했을 때 페이지 화면이 1초 지연될 경우 수익 7%가 감소하는 것으로 나타났다. 구글의 막대한 광고 수익을 고려했을 때 7%는 어마어마한 수치다. 구글이 여러 데이터센터를 관리하며 AI의 속도에 신경 쓰는 이유다. 또한 한 번 만들어진 AI 모델은 결코 영원히 유지되지 않는다. 최근 각광받는 딥러닝 모델은 2주일만 지나도 퍼포먼스가 확연히 떨어진다. 이 경우 2주일 안에 재훈련해야 하는데 이는 엄청난 비용을 유발할 수 있다. 이를 방지하기 위해 최근에는 새로운 데이터를 순차적으로 학습해 환경 변화에 대응하는 연속 학습(Continual Learning) 등도 업계의 주목을 받고 있다.



정리=최호진 기자 hojin@donga.com
인기기사