DBR Case Study: 美 음성 기록 기반 협업 서비스 ‘오터(Otter.ai)’의 기술 전략

화자 식별에 사투리-외국인 억양도 인식
“음성 변환해주는 오터 없인 회의 못해요”

333호 (2021년 11월 Issue 2)

Article at a Glance

인공지능 기술의 발전 덕분에 네이버 클로바노트 등을 활용해 음성을 텍스트로 실시간 변환하고 업무에 활용하는 사람들이 늘고 있다. 미국에서는 이 시장을 2018년 등장한 신예, 오터(Otter.ai)가 주도하고 있다. 오터는 기술 개발 초기부터 여러 명의 사람이 장시간에 걸쳐 나누는 대화 인식 및 기록에 초점을 맞추고 중국, 이탈리아, 독일 등 비영어권 출신의 영어 억양까지도 잘 알아듣도록 기술을 개발했다. 또한 줌, 구글, 마이크로소프트 등의 화상회의 플랫폼과 적극적으로 손잡고 실시간 자막, 회의록 공유 등 다양한 통합 서비스를 제공, 원격근무에 필수적인 협업 도구로 자리매김했다. 오터의 다음 목표는 자연어 처리 고도화를 통해 텍스트를 넘어 컨텍스트(문맥)까지 이해하고 정보를 처리하는 수준으로 AI 기술을 끌어올리는 것이다. 오터의 기술과 전략을 통해 사람 간 대화까지도 빅데이터로 저장하고 활용하는 미래 사회를 가늠해본다.



한국을 벗어나면 구글 지도는 생존에 꼭 필요한 도구가 된다. 낯선 도시에서 목적지를 찾아내 가장 빠른 길과 가능한 교통편을 안내해줄 뿐만 아니라 구글 지도에서 호텔이나 식당 예약도 바로 할 수 있다. 또 유용한 기능 중 하나는 ‘블루닷(blue dot)’이다. 구글 지도는 사용자의 현 위치를 파란 점으로 표시하고, 사용자가 이동하는 방향을 실시간으로 보여준다. 블루닷 덕분에 사용자는 목적지를 향해 맞는 방향으로 가고 있는지 바로 확인할 수 있다.

샘 량(Sam Liang)은 이러한 블루닷 기술을 개발한 구글 팀의 일원이었다. 베이징대 졸업 후 미국으로 건너온 량은 스탠퍼드대에서 대규모 분산 시스템 연구로 박사 학위를 받은 후 2006년 구글에 입사했다. 실리콘밸리 일대 가로등에 와이파이 라우터를 설치하는 프로젝트를 진행하던 그는 곧 통신 기록으로 노트북의 현재 위치를 파악할 수 있는 아이디어를 착안했다. 그의 팀은 구글 위치 플랫폼 프로젝트(Google location platform project)를 가동했고, 이를 블루닷으로 발전시켰다. 이듬해 블루닷 기능이 포함된 구글 지도가 아이폰 1세대에 탑재됐다.

량은 2010년 구글을 퇴사하고 ‘알로하(Alohar)’라는 스타트업을 창업했다. 당시 위치 기반 소셜네트워크서비스(SNS) 포스퀘어(Foursquare)가 큰 인기를 누렸다. 량은 스마트폰 애플리케이션(앱)을 켜고 방문한 식당을 직접 기록하는 포스퀘어에서 한발 더 나아가 사용자의 위치 정보를 자동으로 추적하는 기술을 개발했다. 배우자나 자녀의 위치를 파악해 알려주는 이 기술은 꽤 성공적인 것으로 평가됐다. 2013년 알로하는 중국 알리바바에 인수됐다.

실리콘밸리의 성공한 창업가로 바쁜 나날을 보내던 이 무렵, 량은 한 가지 어려움을 겪었다. 매일 참석하는 숱한 회의에서 주고받은 말을 금세 잊어버리곤 하는 것이었다. “구글 지메일에선 10년 전 메일도 검색해 찾아볼 수 있는데 왜 세 시간 전에 한 회의 내용은 그럴 수가 없지?” 이러한 문제의식을 가지고 량은 알로하의 동료 윈 푸(Yun Fu)와 함께 해결책을 찾아나섰다. 하지만 구글과 마이크로소프트 등의 음성인식 기술 수준은 매우 낮았고 품질도 좋지 않았다. 량과 푸는 다음 창업 아이템을 ‘인공지능(AI)을 활용한 음성 기록 서비스’로 정했다.

이들은 2016년 오터(Otter.ai)를 공동 창업하고, 2018년 음성을 텍스트로 자동 변환해주는 오터 서비스를 출시했다. 그해 화상회의를 녹음해 텍스트로 변환해주는 기술을 찾던 줌(Zoom)은 구글 등 빅테크 대신 오터를 선택했다. 그만큼 오터의 기술이 우수하다고 판단한 것이다. 뛰어난 정확성에 힘입어 오터는 인터뷰 등 녹음 파일을 듣고 적을 일이 많은 학자, 언론인, 작가, 팟캐스트 제작자 등에게서 호응을 얻었다. 21년 전인 1990년 미 시사지 애틀랜틱에 ‘컴퓨터가 좀 더 유용해지려면 음성을 텍스트로 정확하게 변환할 수 있어야 한다’는 취지의 기사를 썼던 제임스 팰로 기자는 “마침내 전사(轉寫) 소프트웨어가 제대로 작동한다”며 “오터가 직장생활을 더 나은 방향으로 바꿨다”고 평가했다. 1

오터는 어떻게 사업 모델을 정하고 어떤 성과를 내고 있을까. DBR가 오터의 임직원 인터뷰 등을 통해 그 비결을 취재했다.

073



DBR mini box I
오터.ai란?

AI 기술을 활용한 음성 기록 기반 협업 서비스. 사람과 기계 간 명령/질문 중심의 애플 시리와 달리 사람 간 대화에 초점을 맞춘다. 음성-텍스트 변환 정확도가 95%로 알려졌으며 비영어권 사용자의 영어 억양까지도 이해하는 강점을 가진다. 실시간 자막, 가상 비서, 회의록 공유 등 다양한 서비스를 줌 등 원격 화상 플랫품과 연동해 제공한다. 지난해 9월 미 온라인 매체 메이크유즈오브닷컴이 ‘당신에게 필요한 최고의 AI 기반 생산성 앱’으로 꼽는 등 영어 사용자들 사이에서 업무 효율성을 높여준다는 평가를 받고 있다. 코로나 팬데믹으로 인한 원격 근무 확대로 빠른 성장을 구사하고도 있다.

미국 캘리포니아 로스 알토스에서 구글 출신 샘 량과 야후 출신 윈 푸가 2016년 창업했다. 현재 량은 최고경영자(CEO), 푸는 엔지니어링 담당 부사장을 맡고 있다. 올 2월 5000만 달러의 시리즈B 투자를 유치했으며 자연어 처리 고도화에 초점을 맞춘 기술 개발을 위해 AI 과학자 등 인력을 3배로 충원할 계획이다.

서비스 출시 4년 차… 1억5000만 건 이상 회의에 활용돼

신종 코로나바이러스 감염증(코로나19) 사태는 오터에 비약적 성장의 기회로 작용했다. 원격 근무가 일상화되면서 2020년 매출은 전년 대비 8배나 증가했다. 2018년 2월부터 올 7월까지 오터가 사용된 누적 회의(meeting) 수는 1억5000만 건인데 그중 올해(1∼7월) 열린 회의만 1억 건 이상이다.

이러한 성장세에 힘입어 오터는 올 2월 5000만 달러(약 600억 원)의 시리즈B 투자를 유치하며 도약의 발판을 마련했다. 매출이나 사용자에 대한 구체적 수치를 밝히진 않지만 줌을 통한 접속을 제외하고도 수백만 명의 사용자를 확보했다고 말한다. 현재 량은 오터의 최고경영자(CEO), 푸는 엔지니어링 담당 부사장을 맡고 있다.

물론 오터 이전에도 음성인식 기술은 존재했다. 1990년대 이후 미국에선 IBM의 비아보이스(ViaVoice)와 드래곤시스템스의 드래곤 내츄럴리 스피킹(Dragon Naturally Speaking)이라는 음성인식 소프트웨어가 출시됐다. 하지만 컴퓨터가 말을 알아들을 수 있도록 한 음절씩 끊어서 천천히 말해야 했고, 그나마 오류가 많아 일일이 수정해야 했다. 차라리 사람이 직접 녹음 파일을 듣고 받아 적는 게 더 빠르고 정확했다. 2010년 이후에는 구글 음성 검색이나 애플의 시리(Siri), 아마존의 알렉사(Alexa) 같은 음성 처리 기술이 등장했다. 하지만 이들도 회의나 인터뷰 등 장시간에 걸친 대화를 텍스트로 전환하기에는 적합한 기술이 아니었다.

오터가 등장한 이후에야 영어 사용자들은 음성을 텍스트로 기록하는 작업을 소프트웨어에 실제로 의존해 처리할 수 있게 됐다. 오터는 서비스가 출시된 첫해부터 큰 주목을 받았다. 매년 미국에서 열리는 창업 콘퍼런스 ‘테크크런치 디스트럽트 샌프란시스코’ 2 는 2018년부터 오터가 만들어주는 실시간 자막을 모든 연설 및 패널 토론에 적용하고 있다. 벤처비트 서밋(VentureBeat Summit)이나 웹 서밋(Web Summit) 같은 굵직한 IT 행사에서도 오터가 활용됐다. 일부 팟캐스트는 오터로 생성한 각 에피소드의 전문을 공개하고 있다. 이제 팟캐스트를 듣지 않고 ‘읽을’ 수 있는 것이다.

오터가 빠르게 성공할 수 있었던 첫 번째 요인은 정확성이다. 음성을 텍스트로 변환하는 오터의 정확도는 소음 등이 없는 최상의 환경에서 95%에 달한다고 한다. 취재 업무에 오터를 활용하는 필자가 체감하기에도 인터뷰 녹음 파일을 듣고 받아 적는 일 정도는 오터에 믿고 맡겨도 될 정도로 정확도가 매우 우수하다.

하지만 이것이 유일한 성공 요인은 아니다. 오터는 특히 원격 근무가 일상화된 변화된 업무 환경에서 저렴한 비용으로 사용할 수 있고 생산성을 높여주는 협업 도구로 작용하고 있다. 사명을 ‘수달(otter)’로 지은 것도 수달이 아이큐가 높고 기억력이 뛰어난 동물일 뿐만 아니라 서로 앞발을 맞잡고 있는 두 마리의 수달의 모습이 협업을 지향하는 오터의 철학과 잘 맞아떨어지기 때문이다. 출시 첫해부터 비즈니스 잡지 패스트컴퍼니가 선정한 ‘2018년 최고의 새로운 앱’, 디지털 미디어 마사블(Mashable)이 꼽은 ‘2018년 최고의 앱 7’ 등에 오르며 큰 주목을 받은 것도 정확성과 협업, 사용 편의성 등에서 다른 음성인식 서비스와 비교해 큰 우위를 차지했기 때문이다. 오터의 기술과 전략, 서비스를 하나씩 짚어보자.

074

1. 처음부터 ‘대화’에 집중해 기술 개발

투자자들이 오터에 가장 많이 던진 질문은 “음성 처리는 이미 애플 시리, 아마존 알렉사, 구글 어시스턴트가 해결한 기술 아니냐”는 것이었다.3 신생 스타트업이 빅테크에 도전하는 것은 당연히 승산이 없어 보이기 때문이었다. 하지만 이는 음성인식 기술에 대한 오해에서 비롯된 의문이라는 게 오터의 생각이었다.

사용자가 시리나 알렉사와 나누는 대화는 “내일 날씨가 어때?” “아침 6시에 알람해 줘” 정도의 간단한 수준에 그친다. 화자(話者)는 단 한 명이고, 대개의 경우 소음 없는 조용한 환경에서 AI 비서에게 말을 건다. 빅테크의 음성인식 서비스는 애초에 사람 간 대화에 적합한 기술로 설계되지 않았다.

오터는 처음부터 ‘대화를 기록한다’는 목표를 분명하게 세우고 기술 개발의 초점을 ‘사람 간 대화 인식’에 뒀다. 시리, 알렉사보다 복잡할 수밖에 없는 기술을 자체 개발하기로 목표로 설정한 것이다. 2016년 창업해 2년 뒤 서비스를 처음 출시하기까지 량과 푸는 구글, 페이스북, 야후, 뉘앙스커뮤니케이션스 등 내로라하는 기술 기업과 스탠퍼드대, 듀크대, 매사추세츠공대(MIT) 등에서 컴퓨터 과학자들을 오터에 합류시켜 AI 기술 개발에 몰두했다.

이들은 수백만 시간의 실제 대화 녹음 데이터를 주입해 딥러닝 AI 알고리즘을 훈련시켰다. 엄청난 양의 데이터에 수천 가지 변형을 줘 다양한 상황을 인식하도록, 또 소음이 있는 환경에서도 대화를 잘 파악하도록 알고리즘을 고도화해나갔다. 량은 “우리는 전적으로 자체 기술을 구축했다”며 “오터는 구글 API(응용프로그램 인터페이스)보다 더 잘 작동하며, 특히 매우 시끄러운 환경에서의 정확도가 마이크로소프트를 크게 앞지른다”고 밝혔다.4

이러한 차별화된 기술력은 실리콘밸리에서 인정받았다. 2017년 말 오터는 자체적으로 개발한 AI 음성인식 기술인 Ambient Voice Intelligence™를 선보였고, 호라이즌벤처(Horizons Ventures)의 주도하에 1000만 달러(약 118억 원) 규모의 시리즈A 투자를 유치했다. 이 투자에는 세계적 벤처투자가 팀 드래이퍼(Tim Draper), 구글의 최초 투자자이자 량의 스탠퍼드대 지도 교수였던 데이비드 셰리턴 등이 참여했다. 구글, 페이스북, 테슬라, 딥마인드 등의 초기 벤처투자가들이 신생 스타트업에 함께 투자한 보기 드문 사례였다.

075


2. 화자 식별하고 다양한 억양 알아들어

여러 명이 참석한 1시간짜리 회의를 AI가 텍스트로 받아 적을 때 각 화자를 구별해 적어주지 않는다면 무용지물이 될 수 있다. 사람이 일일이 각 화자를 구별해 텍스트를 수정하느라 많은 품을 들여야 하기 때문이다.

사용자들이 오터를 선호하는 이유 중 하나가 바로 이 점이다. 오터는 화자 식별에 매우 뛰어나다. 개별 화자의 음성에 고유한 지문(voice print)을 생성해 누가 말하고 있는지를 거의 정확하게 구별해낸다. 세 명이 참석한 회의라면 오터는 각 화자가 한 말을 ‘Speaker 1’ ‘Speaker 2’ ‘Speaker 3’로 구분해 텍스트로 기록한다. 5

또 오터는 다양한 억양을 알아듣는다. 이민자의 나라 미국에서 영어는 단일 언어라 할 수 없다. 미국 내 지역별 억양도 다르고, 출신 국가에 따라서도 억양이 제각각이다. 중국 출신인 량은 자신을 포함해 세계 곳곳에서 온 사람들이 영어를 사용한다는 점을 고려해 개발 초기 단계부터 오터가 다양한 영어 억양을 이해할 수 있도록 하는 데 중점을 뒀다. 량은 “나도 미국에 온 지 30년이 됐지만 영어 억양이 도무지 좋아지지 않는다. 하지만 오터는 내 영어의 대부분을 잘 알아듣는다”고 말했다.6 량은 DBR와의 서면 인터뷰에서 “오터는 미국 남부, 캐나다, 영국, 스코틀랜드, 아일랜드 등 영어권 국가의 억양뿐만 아니라 중국, 러시아, 이탈리아, 독일, 스위스, 스칸디나비아 등 비영어권 국가의 억양도 인식할 수 있다”며 “앞으로 더 많은 억양을 추가해 정확성을 더욱 높여나갈 것”이라고 밝혔다.

3. 검색, 주요 키워드, 해당 포인트부터 듣기…

신제품 프로모션 행사와 관련해 이벤트 대행업체와 한 회의를 녹음했다고 가정하자. 비용과 관련한 논의 내용을 다시 꼼꼼하게 확인하려면 과거엔 필요한 부분을 찾느라 녹음 파일을 여러 번 돌려 들어야 했다.

오터는 이러한 수고를 덜어준다. 오터가 생성한 텍스트는 키워드 검색이 가능하고 텍스트 내 특정 단어를 클릭하면 해당 단어부터 음성 듣기를 지원한다. 또 오터는 해당 녹음 파일에서 빈번하게 등장하는 키워드들을 추출해 텍스트 상단에 자동으로 나열한다. 그중 한 단어를 클릭하면 해당 단어가 몇 회 나왔는지 알려주면서 텍스트 내에서 해당 단어를 찾아 하이라이트로 표시해준다. “지메일처럼 과거에 나눈 대화도 손쉽게 검색해 찾아볼 수 있게 하자”는 당초의 기획 취지에 부합하는 기능이라 할 수 있다.

이외에도 오터는 다양한 기능을 제공한다. 각 화자의 이름을 입력할 수 있고 전문 용어나 약어 등 사용자가 정의한 용어를 오터가 인식하도록 설정할 수도 있다. 텍스트 내에 특정 단어나 문단을 하이라이트하고 댓글이나 이미지 등을 첨부할 수도 있다.

076


4. 무료는 알차고 유료는 저렴

오터는 무료 혹은 유료로 사용할 수 있다. (표 1) 사람이 직접 수행하는 속기 비용은 매우 비싸다. 국내에선 1시간 이내 회의를 속기하는 비용이 15만∼20만 원이다. 미국에서도 속기가 기술로 대체되면서 사람이 직접 수행하는 속기 비용이 낮아지는 추세지만 현재도 분당 1.5∼5달러가량이다. 시간당으로는 90∼300달러인 셈이다. 거의 모든 대화를 속기하기에는 비용 부담이 여전히 큰 수준이다. 오터 등장 이전에 이미 시장에는 레브(Rev), 트린트(Trint) 등 사람이나 기계에 의한 음성 기록 서비스가 존재했지만 일상적으로 회의록을 만들어놓고 업무에 활용하기에는 너무 비쌌다. 오터는 누구나 비용적으로 ‘접근 가능한’ 서비스를 지향한다. 지메일처럼 거의 모든 과거 대화를 기록하고 다시 찾아볼 수 있으려면 비용 부담이 없어야 하기 때문이다.



베이식(Basic) 플랜으로는 월 600분까지 무료로 음성을 텍스트로 변환할 수 있다. 단, 한 번에 최대 40분까지만 텍스트 변환이 가능하다. 1시간짜리 회의라면 오터를 40분간 작동시킨 뒤 한 번 더 녹음 버튼을 눌러 재작동시켜야 한다. 조금 귀찮긴 하지만 장시간 대화도 무료로 사용하는 게 불가능하지 않은 셈이다. △화자 식별 △키워드 추출 △실시간 텍스트 변환 △키워드 검색 △특정 부분부터 다시 듣기 △편집 △실시간 주석 달기 △공유 링크 생성 등 주요 기능도 무료로 제공한다.

유료 상품은 프로(Pro)와 비즈니스(Business) 플랜으로 나뉘며 각각 월 8.33달러와 20달러다. 7 프로는 오터를 자주 사용하는 헤비 유저에게, 비즈니스는 소규모 팀이나 조직이 오터를 협업 도구로 활용할 때 적합한 요금제다. 베이식과 프로의 가장 큰 차이는 용량이다. 프로 플랜에서는 월 6000분, 회당 4시간까지 음성을 텍스트로 변환할 수 있다. 비즈니스 플랜 회원에게는 오터의 가상 비서 서비스인 ‘오터 어시스턴트(Otter Assistant)’가 제공된다. 또 줌 등 화상회의에서 오터가 생성하는 실시간 자막을 사용할 수 있다. 한편 오터는 학생과 교사, 비영리 교육기관에 프로 요금제를 50% 할인해준다.

5. 다양한 통합 서비스로 협업 수월하게

오터는 서비스 출시 초기 단계부터 줌과 파트너십을 맺고 줌에서 바로 실시간 음성 기록 서비스(Otter Live Notes)를 이용할 수 있게 했다. 코로나19 사태로 원격 회의 수요가 폭증하자 통합 서비스를 빠르게 확대함으로써 시장을 넓히는 전략에 보다 심혈을 기울이고 있다. 통합 대상도 줌 외에 구글 밋(Google Meet), 마이크로소프트 팀(Teams), 시스코 웹엑스(Webex) 등으로 넓혔다.

우선 2020년 11월 줌 화상회의 화면에 실시간 자막(Live Captions)을 띄울 수 있는 기능을 도입했다. 호스트가 오터의 자막 기능을 설치하면 회의 참석자 모두가 화면에 실시간으로 뜨는 자막을 볼 수 있다. 이는 참석자들의 주의를 환기시키고, 특히 영어가 모국어가 아닌 이들에게 큰 조력자 역할을 함으로써 원활한 커뮤니케이션을 돕는다는 평가를 받고 있다. 올 1월부터 구글 밋에서도 오터의 실시간 자막 기능을 사용할 수 있게 됐다.

사람들이 오터를 사용하는 주요 목적 중 하나는 대화 내용을 다른 이들과 공유하기 위해서다. 물론 오터가 만들어준 회의록을 파일이나 링크 형태로 보내줄 수 있다. 하지만 올 9월 오터는 회의록을 보다 수월하게 공유하고 관리할 수 있는 기능을 새로 출시했다. 구글 캘린더에서 사용할 수 있는 ‘오터 회의록 첨부(Add Otter Meeting Notes)’ 기능이다. 화상회의 일정과 접속 URL을 구글 캘린더를 통해 공유하고 기록하는 사용자들이 많은데 여기에 오터 회의록 첨부 버튼을 활성화하면 회의 종료 후 따로 오터 회의록을 공유하지 않아도 된다. 또 ‘지난주 월요일 오후3시에 열렸던 신제품 프로모션 결산 회의’의 회의록을 찾아 메일함이나 파일함을 뒤질 필요도 없다. 구글 캘린더에서 해당 회의 일정을 클릭하면 바로 오터 회의록을 찾아볼 수 있다.


6. ‘줌 피로’ 덜어주는 오터 어시스턴트

미국에선 원격 근무가 장기화되면서 ‘줌 피로(Zoom Fatique)’라는 신조어가 생겼다. 오터가 미국과 영국의 재택근무자를 대상으로 최근 실시한 설문 조사에 따르면 “풀타임으로 사무실에 출근하고 싶다”고 응답한 비율이 18%에 그쳤을 정도로 원격 근무에 대한 선호도가 높다. 8 하지만 42%가 “줌 피로를 경험했다”고 답했을 정도로 일상화된 화상회의는 또 하나의 스트레스가 됐다. 또 다른 설문 조사에서 미국과 캐나다의 재택근무자 중 18%는 “화상회의가 너무 많다”고 호소했다. 9

080


가상 비서 오터 어시스턴트(Otter Assistant)는 이러한 줌 피로를 덜어줄 수 있는 서비스다. 오터 어시스턴트는 얼굴 없는 참석자로 줌 화상회의에 들어가 회의 내용을 기록해준다. 회의에 오터 어시스턴트를 대신 들여보냄으로써 회의에 빠져도 추후 회의 내용을 파악할 수 있다. 10 동시에 두 개의 화상회의가 잡혔을 경우에도 한 회의에는 오터 어시스턴트를 들여보냄으로써 두 회의의 내용을 모두 놓치지 않을 수 있다. 오터 어시스턴트는 올 5월 줌에서 처음 출시됐고 8월에 구글 밋, 마이크로소프트 팀스, 시스코 웹엑스로 확대됐다.

청각장애인, 원격 수업에도 유용

이처럼 단순한 음성 기록에 그치지 않고 다양한 서비스를 제공함으로써 오터는 원격 근무 시대에 유용한 업무 도구가 돼가고 있다. 오터 유튜브 채널에 등장한 사용자 후기를 살펴보자. 전 직원이 원격 근무를 하는 회사에서 프로덕트 매니저로 일하고 있는 메건은 화상으로 진행하는 고객 인터뷰를 모두 오터로 기록한다.11 그는 “고객을 인터뷰할 때 따로 메모할 필요가 없으니 고객의 말을 더욱 집중해 들을 수 있고, 오터로 기록한 텍스트를 반복해 읽을 수 있어 업무에 매우 도움이 된다. 또 전국에 흩어져 있는 팀원들과도 인터뷰 내용을 쉽게 공유할 수 있어 업무 효율을 높여준다”고 평가했다.

오터는 청각장애인에게도 큰 도움이 된다. 리더십 컨설팅 회사를 운영하는 청각장애인 에이미 모글린은 “말 그대로 오터가 나를 살렸다”고 말한다. 12 입 모양으로 상대의 말을 이해하는 그는 코로나19 사태로 모두가 마스크를 착용하기 시작해 더는 입 모양을 읽을 수 없게 되자 사람들과 대화를 나눌 때 오터 앱을 켜놓는다. 독일 베를린에 거주하는 소프트웨어 개발자 괴르겐 괴크멘은 자신의 블로그에 “청각장애가 있는 내게 오터는 시끄러운 환경에서 내가 듣지 못한 말들을 대신 듣고 기록해준다. 특히 코로나19 이후 병원이나 기차역, 은행에서 사람들이 하는 말을 이해하는 데 큰 도움을 줬다”고 썼다. 13

특히 원격 수업이 보편화된 교육 영역에서 오터가 즐겨 활용될 수 있을 것으로도 기대된다. 오터가 실시간 자막을 제공하고 강의록을 대신 작성해줘 학생들의 학습을 도울 뿐만 아니라 ‘서기’ 역할을 담당한 학생으로 하여금 오터가 자동 생성하는 강의록에 하이라이트나 관련 설명을 추가하게끔 함으로써 학생들의 수업 참여를 촉진할 수 있다. 또 학생마다 태그를 지정하면(Tagging Speakers) 교사는 수업 중 누가 발언하는지를 더 빨리 파악할 수 있다.

오터는 이러한 원격 교육에 적합한 기능들로 구성된 오터 포 에듀케이션(Otter for Education) 서비스를 출시했다. 한편 콘퍼런스 등에서의 활용에 최적화한 서비스 오터 포 이벤트(Otter for Events)도 제공하고 있다. 오터 포 이벤트를 활용하면 오터의 기능들을 이벤트 앱과 통합해 활용할 수 있고 연사의 강연 전문을 쉽게 찾아보거나 공유할 수 있다.

회의록 요약해주고, 액션 아이템 알려주고

오터의 다음 목표는 더욱 똑똑한 AI 기술을 선보이는 것이다. 그 방향에 대해 량 대표는 DBR와의 서면 인터뷰에서 “우리는 일의 미래를 만들어가고 있다. 특히 대면 및 원격 근무를 병행하는 하이브리드 근무 환경에 필요한 서비스를 선보이고자 한다”며 “앞으로 AI 자연어 처리(AI Natural Language Processing) 기술의 고도화에 더욱 집중할 것”이라고 밝혔다.

081


자연어 처리란 컴퓨터 프로그래밍 언어같이 인공적으로 만들어진 언어가 아닌 사람이 실제 사용하는 언어를 분석•처리하는 기술을 가리킨다. 기계로 하여금 문맥(context)을 고려해 개별 단어와 문장의 의미를 정확하게 이해하도록 하는 이 기술은 AI 영역에서 가장 어려운 분야로 꼽힌다. 언어는 인류 역사상 가장 복잡한 발명품이다. 매일 새로운 단어와 약자가 생겨나고 동음이의어도 많다. 같은 말이어도 어조에 따라 그 의미가 다르다. 아직은 기계가 이것을 다 이해할 수 없지만 AI의 자연어 이해 및 독해 수준을 끌어올리는 게 현재 오터가 집중하고 있는 목표다. 량 대표는 “모두에게 더 효율적이고 생산적인 기술을 제공하기 위해 인력을 계속 보강해나가고 있다”고도 밝혔다.

자연어 처리 기술의 고도화를 통해 오터가 도전하려는 것은 오터가 회의 내용을 요약해주고 앞으로 해야 할 일(action items)을 알려주는 것이다. 14 일례로 회의에서 고객 만족도 조사 보고서를 다음 주 화요일에 전체 구성원들에게 발송하기로 결정했다고 가정하자. 회의를 기록한 오터가 이를 기억하고 있다가 월요일에 담당자에게 알림으로 이 계획을 다시 알려주게 할 수 있다. 또 오터의 회의 요약 기술이 고도화된다면 사용자는 60분짜리 회의록의 핵심을 단 5분 만에 파악할 수 있다. 한편 오터는 사용자의 질문에도 답할 수 있기를 희망한다. 15 “지난주에 누가 나한테 용역 비용에 대해 얘기해줬는데 얼마라고 했더라?”라고 물어보면 오터가 과거 대화 기록을 검색해 찾아주는 것이다.

도전 과제와 한계는?

국내에서도 AI 음성 기록 서비스 네이버 클로바노트가 누적 다운로드 100만 회를 돌파하며 빠르게 확산되고 있다. 네이버 클로바노트는 실시간 기록, 검색, 공유, 줌과의 연동 등 오터와 유사한 서비스를 하나씩 늘려가는 중이다. 네이버에 따르면 수업 필기, 회의록 작성, 통화 내역, 상담 기록 관리 등의 다양한 상황에서 활용되고 있다고 한다. 한국어 사용자들에게도 일상적으로 음성을 텍스트로 기록하고 활용하는 것이 이제 미래의 일이 아닌 것이다.

082

모든 대화를 기록하는 것은 축복일까, ‘엎지른 물조차 저장하는’ 또 하나의 빅 브러더의 출현일까. 소크라테스의 말을 모두 기록으로 남겼더라면 인류에게 엄청난 자산이 됐을 것이란 점을 생각해보면 대화 기록은 인류가 거대한 데이터를 확보하는 길이 될 수 있다.

하지만 프라이버시 보호 등 문제가 제기될 가능성이 높다. 기술을 만들고, 창업을 하고, 사용자를 늘리는 과정에서는 큰 장애물 없이 성장했던 오터가 한계에 부닥칠 가능성이 있는 대목을 여기에서 찾을 수 있다.

스마트폰 보급 이후 상대 동의 없이 대화를 녹음해 유출하는 사건이 비일비재해졌다는 점을 감안할 때, 대화 기록 역시 앞으로 사회문제로 대두될 가능성이 있다. 얼마 전 국내에서는 네이버 클로바노트로 녹취한 이준석 국민의힘 대표와 원희룡 전 제주지사의 대화가 공개돼 이슈가 됐다. 미국에서도 정보 기록 서비스가 사생활을 침해할 수 있다는 우려는 오래된 이슈다. 에버노트는 2016년 내부 직원이 고객 데이터에 접근할 수 있도록 개인정보 보호 정책을 변경했다가 고객들의 분노를 사고 다시 후퇴한 바 있다. 오터도 2018년 IT 전문 매체 지디넷의 보도를 통해 개인정보 보호 정책이 미흡하다는 지적을 받은 뒤 강화한 개인정보 보호 정책을 내놓은 바 있다. 16 앞으로 철저한 개인보호 정책을 사용자에게 알리고 이해시키는 일이 오터 같은 음성 기록 서비스의 당면 과제가 될 것으로 보인다.

083


한편 구글과 아마존 등 빅테크는 오터의 잠재적 경쟁자다. 아직은 챗봇 수준의 음성 처리 기술을 가진 이들 빅테크가 두 팔 걷고 사람 간 대화에 초점을 맞춘 기술을 개발한다면 오터에 큰 위협이 될 수 있다. 일례로 유튜브는 자동 자막 기능을 제공하고 있다. 실시간 번역도 가능하다. 또 구글은 최근 크롬 브라우저 자체에 자막을 띄우는 ‘실시간 자막(Live Caption)’ 기능을 출시했다. 이 기능을 켜면 크롬 화면에 별도의 자막 창이 뜨고 비디오나 오디오의 음성을 실시간으로 텍스트로 띄워준다. 현재는 영어만 가능하고 정확도도 다소 떨어진다. 자막을 따로 저장하거나 공유하는 기능도 없다. 하지만 이러한 미비점은 앞으로 얼마든 개선해나갈 수 있을 것이다.

줌과의 긴밀한 파트너십도 언제까지 유지될 수 있을지도 두고 볼 사안이다. 2018년 오터와의 통합 서비스를 출시하며 일찌감치 음성 기록 서비스에 대해 관심을 가져왔던 줌은 최근 실시간 번역 기술 스타트업 카이츠(Kites GmbH)를 인수했다. 줌 유료 버전에서만 가능했던 실시간 자막 기능을 무료 버전에서도 사용할 수 있게 한다고도 발표했다. 줌이 음성 기록, 나아가 실시간 번역 기술까지 내재화한다면 오터로서는 ‘홀로서기’ 압박을 받을 수밖에 없다.

바로 이 지점에서 오터는 줌을 롤모델로 삼는다. “원격 회의 플랫폼 시장에 구글, 마이크로소프트 등이 있지만 줌은 살아남았다. 오터도 그럴 수 있다”17 고 생각한다. 줌이나 구글 등 자신보다 덩치가 훨씬 큰 기업들과의 협업에 대해 량은 “사람들은 이들 기업의 서비스를 즐겨 사용한다. 이것을 받아들이고 이들과 경쟁해야 한다”며 “남들보다 빨리 움직이고, 보다 스마트하게 핵심 기술과 제품 서비스에 집중하는 것이 우리의 과제”18 라고 말했다.

DBR mini box II : 성공 요인과 시사점
고객 불편 본질 파악해 고부가가치 창출


기술의 끝은 어디일까. 압도적인 기술로 사용자의 삶을 극단적으로 편안하게 해주는 모습일까? 사용자의 음성을 텍스트로 변환해주는 서비스인 오터는 코로나 팬데믹으로 원격 근무가 일상화되며 크게 도약했다.

영어 사용자들의 어떤 불편과 니즈를 해소했길래 오터가 각광받는 것일까? 주요 요인으로 세 가지를 꼽을 수 있다. 우선 오터는 아주 뾰족하고 밀접한 문제(sharp and immediate problem)를 해소했고, 본질에서 압도적 성능(outstanding core performance)을 보여줬다. 그리고 경쟁재와 대체재를 뛰어넘는 가치(superior value over alternatives)를 입증했다.

1. 아주 뾰족하고 밀접한 문제(sharp and immediate problem)

샘 량 오터 CEO가 오터를 창업하기 전에도 음성인식 서비스는 존재했다. 하지만 량이 포착한 문제, ‘우리의 대화를 기록할 수 있는가’ ‘대화 내용을 검색할 수 있는가’에 답하는 제품은 없었다. 알렉사나 시리에게 명령하는 일방향 대화가 아닌 사람과 사람 사이의 대화를 기록하려면 각 사람이 가진 고유한 발음, 억양, 추임새, 패턴, 노이즈까지 구별할 수 있어야 한다. 더 정교하고 고도화된 기술이 필요하다.

고도화된 기술은 모두 사랑받는가. 여러 원천 기술 중 상업화된 기술, 더 나아가 애용되는 기술은 단순한 고도화된 기술과는 차이를 보인다. 사람들의 삶에서 아주 밀접하게 작용하며 기존의 기술 옵션들이 해결하지 못한 문제를 풀어준다. 오터의 기술이 바로 여기에 해당한다.

084


2. 본질에서의 압도적인 성능(outstanding core performance)

파이어플라이(fireflies.ai)나 네이버 클로바노트 등 음성을 텍스트로 변환하는 서비스는 여럿 존재한다. 오터의 차별점은 서로 다른 화자를 명확히 식별하며 긴 시간, 여러 사람의 대화를 기록한다는 점이다. 정확도와 사용자 편의성 면에서도 우수하다. 만약 음성을 텍스트로 변환하는 기술이 정확하지 않다면 모든 부가 서비스가 월등하다고 하더라도 사용률은 떨어질 것이다. 음성의 텍스트 변환이라는 본질적 기능에서의 압도적 성능 차가 오터의 성공을 견인했다.

3. 경쟁재, 대체재를 뛰어넘는 가치(superior value over alternatives)

오터의 경쟁자는 누구일까. 파이어플라이나 클로버 등 AI 기반 음성 변환 서비스 외에도 속기사나 회의 기록을 담당하는 실무 직원도 오터의 경쟁자다. 속기사나 담당 직원이 회의를 기록하는 모습을 본 적이 있다면 매우 인상적이었을 것이다. 이들은 사람들의 발언을 꼼꼼하게 적는 동시에 오가는 내용을 이해-분석-평가한다. 회의를 기록하는 일은 그 자체로 에너지 소모가 큰 업무다. 동시에 발언하고 의사결정에 참여하는 등 더 큰 가치를 창출하는 일을 방해하는 행위이기도 하다. 이 점에서 오터는 기존 대체재와 경쟁재보다 더 큰 가치를 만든다.

소비자는 의식적, 무의식적으로 가치를 계산한다. 소비자에게 가치란 내가 지불하는 비용 대비 얻는 혜택이다. 여기서 비용은 지불해야 하는 재무적 비용뿐만 아니라 기다림 같은 시간적 비용, 하기 싫은 업무를 처리해야 하는 정신적 비용, 부가가치가 낮은 일을 하느라 부가가치가 높은 활동을 하지 못하는 기회비용 등도 포함된다. 오터는 이러한 다양한 비용 면에서 우수하다.

① 고비용, 저부가가치 업무의 자동화(automation of low-value added, high-cost tasks)

속기는 빠른 속도로 오가는 대화를 집중해 적는 업무이기 때문에 숙련된 노동력을 고용해야 한다. 따라서 고비용 업무이면서 동시에 저부가가치 업무다. 남이 하는 말을 받아 적느라 회의에 집중하기 어렵고 받아 적는 일 자체만으로 만들어낼 수 있는 부가가치도 적다. 또 사람이 하기에 재미없는 활동이다. 그렇다고 기계가 처리하기엔 결코 쉽지 않다. 오터는 이러한 심심하되 고되고 시간이 오래 걸리는 활동을 자동으로 처리해준다.

② 확산을 돕는 가격 전략(freemium pricing)

오터는 가격 정책에서 전형적인 프리+미엄(freemium, free+premium) 전략을 취했다. 기본 서비스는 무료로(free) 제공하고, 추가적인 제품/서비스를 원하는 경우 가격을 지불하도록(premium) 하는 형태의 가격 전략이다. 무료로도 오터의 서비스 가치를 십분 느낄 수 있도록 충분한 분량을 무료인 베이식 플랜에 설정했다. 처음에는 베이식 플랜을 사용하다 비즈니스 및 엔터프라이즈 플랜으로 옮겨가는 소비자 구매 경로를 통해서도 프리미엄 전략 효과를 짐작할 수 있다. 무료로 오터를 사용하던 직원들이 그 가치와 편의성을 높게 평가해 회사에 오터 사용을 건의하면서 유료 가입자가 빠르게 확산됐다.

085


③ 고부가가치 서비스 창출(high-value added service)

오터는 사용자에게 더 큰 가치를 제공할 수 있다면 협업을 마다하지 않는다. 줌과 구글 밋 등에 탑재돼 화상회의 시 자막을 제공하며 회의 스케줄에 등록된 참석자들에게 회의록을 자동으로 전송해준다. 미국인이 영단어를 편하게 ‘듣는’ 속도는 1분당 150∼160단어i 인 데 반해 ‘읽는’ 속도는 1분당 250∼300단어ii 라고 한다. 회의 녹화본보다 문서로 된 회의록이 시간 비용을 획기적으로 줄여주는 것이다. 또 말보다 글이 검색, 전달, 확산 면에서 더 빠르다. 또한 오터는 회의 참석자의 발언 기여도를 실시간으로 체크해 회의 시 적극적으로 참여하도록 독려하는 툴도 제공한다.

오터가 수 시간 분량의 회의록을 키워드로 검색해 원하는 정보를 찾아내는 현재 서비스에서 의사결정을 뒷받침할 수 있는 인텔리전스 서비스로 도약한다면 부가가치는 더 커질 것이다. 음성인식 기술이 음성에서 문자로 이동을 돕는 데서 한발 더 나아가 번역과 통역을 겸해 이종(異種) 언어 간 소통까지 원활하게 돕는 형태로 진화할 가능성도 있다. 일례로 영어와 한국어로 진행된 회의가 동시에 상대 언어로 기록되는 것이다.

텍스트를 넘어 컨텍스트로

말은 맥락에 따라 다르게 들린다. “뭐라구요?”가 질문인지, 질책인지, 분노인지, 경탄인지는 맥락이 정한다. 음성을 문자로 변환하고 필요한 발언을 쉽게 찾고 분류하는 데 성공한 오터와 경쟁 기업들은 앞으로 해석에 상대적 오류가 적은 ‘인간 비서’를 기술로 구현하기 위해 애쓸 것이다. 맥락을 파악하고 정교히 하는 데 초점을 둘 것이다. 음성에서 텍스트로, 텍스트를 넘어 문맥으로 얼마나 성공적으로 나아가느냐에 오터와 경쟁 기업들의 승산이 달렸다.


송수진 고려대 글로벌비즈니스대학 교수 songsj@korea.ac.kr
필자는 소비자행동과 마케팅 커뮤니케이션 분야 연구자다. 주 연구 분야는 브랜드와 소비문화이론이며 Psychology & Marketing, Journal of Advertising, Journal of Business Research 등 국내외 유수 학술지에 논문을 게재했다. 디지털 트랜스포메이션, 인공지능 시대의 소비자, 소비자와 브랜드 관계, 사회 혁신을 위한 브랜딩 등을 연구하고 있다.
동아비즈니스리뷰 333호 Talent Transformation 2021년 11월 Issue 2 목차보기