로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Data Science in Practice

동영상이 대세? 텍스트는 죽지 않는다

유재연 | 282호 (2019년 10월 Issue 1)
Article at a Glance
이미지와 동영상이 넘치는 세상이지만 문자는 여전히 건재하다. 짧고 강렬한 후기는 트렌드를 보기에 좋고, 길고 촘촘한 글은 세상을 보기에 좋다. 텍스트 빅데이터와 인공지능의 만남은 우리의 삶을 분석하기도 하고, 새로운 삶을 구성하기도 한다. 기업 입장에서는 텍스트 환경의 변화에 대한 관심을 놓지 말아야 한다. 텍스트는 죽지 않는다. 멈춰 있지도 않다. 생동하는 텍스트를 우리는 계속 쫓아가야 한다. 그래야 그것을 쓰는 사람들을 알 수 있다.


편집자주
모두가 데이터 과학에 대해 말하고, 인공지능 활용에 대해 얘기하지만 정작 AI와 함께 일할 준비가 돼 있는 기업, 제대로 데이터 분석을 하고 AI를 학습해 비즈니스 경쟁력으로 만드는 기업은 흔치 않습니다. 영상 분석 등 최첨단 데이터 과학과 인공지능 분야를 연구하고 있는 유재연 연구원이 기업에서 실제로 활용되고 있고, 앞으로 활용될 데이터 과학과 인공지능 활용 방법론을 소개합니다.



베를린에 위치한 크라우드소싱 출판 스타트업 Inkitt 1 가 최근 1600만 달러, 우리 돈으로 194억 원에 달하는 투자 유치에 성공했다. ‘출판’ 스타트업이다. 책과 글이 지는 시대인 것 같아 보이지만 벤처 투자자들은 이 아이템에서 가능성을 봤다. 10만여 작가와 수백만 독자가 이 플랫폼에서 글을 쓰고, 글을 읽는다. 짤막한 에피소드들이 모이고 쌓여 베스트셀러도 만들어냈다. 이 회사 CEO인 알리 알바자즈(Ali Albazaz)는 테크크런치(TechCrunch)와의 인터뷰에서 ‘21세기의 디즈니’를 만들겠다는 야망을 드러내기도 했다. 2


Inkitt의 성공 이면에는 데이터 분석을 통한 21세기 디즈니 스타일 작문 가이드라인이 숨어 있었다. 앞서 언급한 보도에 따르면 이곳의 에디터들과 개발자들은 짧은 형식의, 메모리 용량도 조금만 잡아먹는 정도의 15분 분량 미니 에피소드가 사람들에게 더욱 몰입감을 준다는 것을 알아냈다. 마치 인스타그램의 사진을 하나씩 넘겨 보듯 스크린당 문단 하나만을 허용하고 있다는 것이다. 요즘 세대가 몰입할 만한 스타일로 꾸준히 읽을 수 있는 틀을 마련했다는 설명이다. (그림 1)



책과 문자는 이렇듯 우리 곁을 절대 떠나지 않는다. 길이와 형식이 조금씩 바뀌기는 하지만 그것은 마치 그림의 화풍이 시대별로 변하는 것과 비슷한 양상이다. 사람들은 계속 문장 또는 어구를 만들어내고 있고 기계는 그것들을 계속해서 쌓고 있다. ‘텍스트’로 묶이는 이 같은 말글은 최근 10년 새 산업 현장에서 활발하게 쓰이고 있다.


트렌드 분석의 출발점 :
텍스트를 모아 패턴을 찾아라

빅데이터 분석 역사에서 대중에게 꽤 임팩트를 준 사건으로 워드클라우드(word cloud) 출시를 빼놓을 수는 없을 것이다. SNS나 뉴스 속 말을 수십만 건 모아다가 그중 어떤 단어가 화제의 중심인지를 찾아 보여주거나, 특정한 이슈에 대해 어떤 말이 가장 많이 등장하는지를 살펴 구름 모양으로 시각화하는 툴이다. 사회 전체적인 트렌드, 혹은 자사 상품에 대한 후기를 종합적으로 한눈에 볼 수 있다는 점에서 지금도 여전히 좋은 도구라 할 수 있다.

이를 전면에 내세운 대표적 제조/마케팅 사례는 롯데제과 스낵 ‘꼬깔콘’이다. 지난해 여름 출시된 ‘버팔로윙’ 맛의 봉지에는 ‘버팔로윙 연관 검색어의 소비자 의견을 기준으로 키워드를 도출했다’고 쓰여 있다. (그림 2) 당시 언론 보도에 따르면 실제로 이 분석은 IBM 데이터분석팀과 롯데제과의 협업을 통해 진행됐다. 그때 주요하게 다룬 키워드는 ‘혼술족’이었다. 그 덕인지 두 달 만에 100만 봉지가 팔렸다. 필자 또한 너무나 자연스럽게 해당 과자를 맥주 안주로 집어 든 경험이 있다.



사람들의 목소리를 모아 모든 것을 분석할 것만 같아 보였던 텍스트 분석도 한계점을 드러내기 시작했다. 많은 경우 빈도를 중심으로 하기 때문에 소소하게 중요한 키워드를 놓칠 수 있다. 쓸데없는 단어(각종 조사와 주어, ‘ㅋㅋ’ 등)를 처리하느라 시간을 보내는 일도 너무 많다. 변칙적인 인터넷 용어를 반영하는 것도 버겁다. 전혀 관계없는 표현들을 데이터셋에서 제외하는 것이 좋을지, 혹은 그것으로부터 의외성을 찾아내는 것이 좋을지에 대한 의사결정 작업도 늘어난다. 해석을 위해 기존의 전문 지식이 있는 이들과의 협업 또한 필수다.


단, 한국말은 끝까지 보라

한국 시장에서 특히 주의할 점도 있다. 한 포털 사이트 관계자의 말을 인용하자면 “유쾌한 민족성을 잊지 말아야 한다”는 것이다. 영화나 글, 쇼핑 같은 카테고리에서의 정보 추천에 대해 예전에는 별점을 가지고 추천 툴을 구성했다고 한다. 하지만 이 경우 별점이 양쪽(매우 나쁨 또는 매우 좋음) 또는 한쪽(보통)에만 쏠리는 경향이 높았다. 그래서 사람들의 말글로 이뤄진 후기를 활용하기 시작했는데 문제는 그것이 꼭 진실은 아니라는 것이었다.



해학이 넘치는 우리 민족 특성상 평가가 좋지 않을 법한 영화에 ‘꼭 봐야 할 영화’라는 식으로 추천을 한다는 게 문제였다. 3 이를 그대로 쓸 경우, 추천을 제공하는 포털 사이트 입장에서는 ‘최악의 결과물’을 낸 셈이 된다. 기계가 인간 집단에게 된통 당하는 사례가 되는 것이다. 그런 이유로 한국어 후기를 다루는 텍스트 분석의 경우, 모니터링 그룹을 활용해 사람이 한 번 더 보도록 한다고 했다.

그 유명한 ‘에어비앤비’ 한국어 후기 사례도 비슷한 케이스다. (그림 3) 기계(정확히는 구글 번역기)는 오타를 제외하고, 해석 가능한 메시지만 남긴다. 한국인 숙박객들은 이를 역으로 이용한다. 좋은 말은 정확하게 쓰지만 불만 사항은 ‘의도적 오타’로 처리하는 것이다. 번역기가 놓친 오타에는 한국인만이 알아볼 수 있는 치명적인 메시지들이 숨어 있다. [그림 3]에도 나오는 “쥐가 나와서 내 과자를 까먹었다” 같은 것 말이다.



수만 가지 종류의 텍스트 가운데 어떤 것을 재료로 선택하는지도 아주 중요하다. 일례로, 한 국내 금융업계에서 우량주 분석을 위해 기존 변수(주식시황 등 숫자 위주의 데이터)가 아닌 다른 데이터로 뉴스 기사를 활용해봤다고 한다. 어느 정도의 도움은 받을 수 있었지만 언론이 다루는 업체가 종목 전체적으로 볼 때 매우 부분적이어서 그리 적합하지 않았다고 한다. 한 블록체인 업체 개발자는 유명 투자가의 트위터 분석을 시도했다고 했다. 흥미로운 부분을 발견할 수는 있었지만 특히 변동이 심한 업계 특성상 그의 말 한마디, 한마디를 가지고 패턴을 그리기는 쉽지 않았다고 했다. 뉴스, SNS 각각 화제성과 단발성이라는 특성에서 한계를 보였던 것이다.

하지만 틀이 명확한, 공식적인 텍스트로 옮겨 오면 이야기가 다소 달라진다. 얼마 전 AI와 변호사의 법률 대결이 그 예가 될 것이다. 4 법전과 같이 형식이 뚜렷하고 노드(node, 여기서는 법 조항) 간 연계가 명백하게 드러나는 경우 큰 착오 없이 알맞은 결과물을 내기에 좋다. 비슷한 경우로 미국 매사추세츠공대(MIT)에서는 셰익스피어의 문학을 분석해 인물 간 복수와 오해, 운명 등을 변수로 인물 노드 간 연계를 분석해내기도 했다. 이렇게 원인과 결과가 명시적으로 드러나면 키워드 간 관계를 설명하기에 아주 적합하다.



챗봇의 진화 :
쿠폰 제공 봇에서 면접 판단 봇으로

기업들도 ‘자주 하는 질문’이나 ‘광고 전송’같이 목표물(goal)이 분명한 텍스트를 100배 활용할 수 있다. 바로 챗봇(chatbot)에서다. 이미 많은 기업이 자체 챗봇을 운영해 맞춤형 Q&A에 대처하고 있다. 국내에서 가장 손쉽게 찾아볼 수 있는 챗봇은 카카오톡 플러스친구 추천 메뉴에 뜨는 수많은 업체의 ‘봇’일 것이다. 많은 경우 질문을 미리 정해놓고 궁금증을 그 안에서 고르기를 원한다. 정보 전달이나 쿠폰 전달처럼 입출력 메시지가 분명하고 목표가 확실한 경우에는 현행 챗봇 플랫폼을 활용하면 편리하다. 미국 월스트리트저널과 쿼츠 같은 언론사들도 콘텐츠를 전달하는 뉴스 플랫폼으로 챗봇을 활용해왔다. (그림 4)

하지만 이렇게 규칙 기반(Rule-based)으로 생성된 챗봇과 인간적인 대화를 한다는 것은 사실상 쉽지 않다. 우리가 이미 인공지능 스피커를 통해 로봇과의 대화에서 오는 답답함과 단절감을 익히 경험해 봤듯 말이다.

그런데 최근 기술 상황을 보면 정말로 기계와 인간의 대화가 가능해지는 수준으로 발전하는 모양새다. 지난겨울에 출시된 구글의 자연어 알고리즘 BERT는 Q&A에 특히 높은 강점을 보였다. 문단 내에서 특정 정보를 정확하게 파악하는 데 특화돼 있다. 그런 이유로 BERT는 토익 문제, 수능 영어 영역 문제 풀이에서 꽤 높은 적중률을 보이고 있다. 이렇게 문장과 맥락, 글의 연속성을 이해하는 것과 별개로 문장을 만들어내는 기술도 나날이 발전하고 있다. 인공지능 연구그룹 OpenAI가 최근 개발한 GPT-2 모델은 사용자가 설정한 문장 뒤로 계속해서 이야기를 이어갈 줄 안다.(그림 5) 5 말그대로 인간의 말을 이어 그에 맞는 글을 생성하는 것이다. 인간 대 인간 느낌의 대화 로봇이 차츰 가능해지고 있는 분위기다.



[그림 5]에서 필자가 John Tales라는 이름의 인공지능이
함께 글 한 편을 만들어가는 실험을 진행했는데 놀라운 점은 AI가 ‘ㅎㅎ’라는 말로 대화를 이어가고 있다는 것이다. 필자가 한국인이라고 밝힌 바 없지만 아마 e메일 주소 끝 ‘kr’이나 ‘콩글리시’를 인식했을 가능성도 있다.

‘면접봇(recruitment chatbot)’ 분야도 텍스트 생성 및 분석 기술 발전에 힘입어 빠르게 성장하고 있다. 이미 펩시콜라와 이케아(러시아 공장)에서는 Robot Vera라는 러시아 기업 기반 챗봇 서비스를 이용하고 있는데 채용 단계에서 효율이 크게 올랐다고 한다. (그림 6) 수천 건씩 들어오는 이력서를 빠르게 헤쳐보고, 기계를 통해 면접을 진행한 뒤, 적합한 인재 리스트를 인간 평가자에게 넘기는 프로세스라고 한다. 6



미국의 스타트업 VCV.ai에서 개발한 챗봇도 로레알의 인턴십 선발에 쓰였는데 1750명의 지원자 가운데 80명을 걸러내 인간 면접관에게 보냈고 이후 27명이 최종 선발됐다고 한다. 전형 앞머리인 디지털 온라인 테스트와 비디오 인터뷰가 로봇에 의해 치러진 것이다. 7 국내에서도 이 같은 시도가 틈틈이 진행되고 있는 것으로 알려져 있다. 모두 텍스트 데이터 확보와 학습이 없었다면 불가능한 일이다.


DBR mini box: 텍스트 데이터 잘 활용하려면?
- 당사로 수집되는 텍스트 데이터(후기, 설문 조사 로데이터 등)는 꼭 모아두자. 언제든 쓸 수 있다. 영상이나 이미지에 비하면 저장 용량도 크지 않다.
- 텍스트 데이터로 할 수 있는 시나리오를 구상하자. 트렌드 분석을 할까, 맞춤형 챗봇을 만들까, 아니면 HR에 쓸까.
- 텍스트를 잘 아는 사람을 구하자. 경험 많은 개발자든, 언어학자든, 아니면 뉘앙스를 잘 파악하는 인재든. 텍스트 그 자체에 대한 이해도가 높은 사람이 필요하다. 그래야 큰 실수를 저지르지 않는다.


사람은 계속 문장을 만들어낸다

글은 계속 생성된다. 창작의 욕구와 함께 나타나기도 하고, 배설의 욕구와 함께 드러나기도 한다. 소비자들은 음식 사진을 보고도 그 식당의 후기를 글로 찾아본다. 시절이 이미지와 동영상으로 옮겨갔다고들 하지만 여전히 문자 또한 놓치지 않는 모양새다. 지속적으로 생성될 이런 데이터를 기업 입장에서는 그냥 흘려보내서는 안 된다. 수집해서 마음껏 써먹어야 한다. 현행의 규칙 기반 챗봇은 간단한 서비스 업무를 하기에는 좋지만 그보다 더 사람들의 마음을 끌어야 하는 업종, 예를 들면, 의료나 상담, 교육 등에서는 한계를 보일 것이다. 하지만 조만간 우연히 중대한 결론에 이르게 하는 이벤트(세렌디피티)를 발생시킬 수 있을 정도까지 커나갈 수 있다. 친구에게 진로 상담을 하다가 상대방의 무심한 한마디에 문득 ‘생각해보니 원래 내 꿈은 요리사였잖아!’라는 깨달음이 오게 하는 그런 순간을 챗봇이 구현하게 될 날도 머지않았다.

기업 입장에서는 텍스트 환경의 변화에 대한 관심을 놓지 말아야 한다. 서두에서 언급한 크라우드소싱 출판업체가 제시한 그림은 최근 화두로 떠오른 ‘90년대생’, 더 나아가 ‘21세기생’들의 텍스트 작성과 독해, 소통 방식을 미리 보여주고 있는 것일 수 있다. 조직원 관리 차원에서, 혹은 시장 분석 차원에서 절대 놓쳐서는 안 되는 포인트가 여기에 숨어 있다. 텍스트는 죽지 않는다. 멈춰 있지도 않다. 생동하는 텍스트를 우리는 계속 쫓아가야 한다. 그래야 그것을 쓰는 사람들을 알 수 있다.


필자소개 유재연 서울대 융합과학기술대학원 연구원 you.jae@snu.ac.kr
필자는 서울대 융합과학기술대학원에서 석사 학위를 받고 동 대학원에서 박사 과정에 재학 중이다. 인간과컴퓨터상호작용(HCI) 분야에서 데이터사이언스를 공부하고 있고 그중에서도 미디어 영상 데이터를 활용한 딥러닝 연구를 진행하고 있다. 진학 전까지 언론인으로 일했다.
인기기사