로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

DBR Case Study: 美 음성 기록 기반 협업 서비스 ‘오터(Otter.ai)’의 기술 전략

화자 식별에 사투리-외국인 억양도 인식
“음성 변환해주는 오터 없인 회의 못해요”

강지남 | 333호 (2021년 11월 Issue 2)
Article at a Glance

인공지능 기술의 발전 덕분에 네이버 클로바노트 등을 활용해 음성을 텍스트로 실시간 변환하고 업무에 활용하는 사람들이 늘고 있다. 미국에서는 이 시장을 2018년 등장한 신예, 오터(Otter.ai)가 주도하고 있다. 오터는 기술 개발 초기부터 여러 명의 사람이 장시간에 걸쳐 나누는 대화 인식 및 기록에 초점을 맞추고 중국, 이탈리아, 독일 등 비영어권 출신의 영어 억양까지도 잘 알아듣도록 기술을 개발했다. 또한 줌, 구글, 마이크로소프트 등의 화상회의 플랫폼과 적극적으로 손잡고 실시간 자막, 회의록 공유 등 다양한 통합 서비스를 제공, 원격근무에 필수적인 협업 도구로 자리매김했다. 오터의 다음 목표는 자연어 처리 고도화를 통해 텍스트를 넘어 컨텍스트(문맥)까지 이해하고 정보를 처리하는 수준으로 AI 기술을 끌어올리는 것이다. 오터의 기술과 전략을 통해 사람 간 대화까지도 빅데이터로 저장하고 활용하는 미래 사회를 가늠해본다.



한국을 벗어나면 구글 지도는 생존에 꼭 필요한 도구가 된다. 낯선 도시에서 목적지를 찾아내 가장 빠른 길과 가능한 교통편을 안내해줄 뿐만 아니라 구글 지도에서 호텔이나 식당 예약도 바로 할 수 있다. 또 유용한 기능 중 하나는 ‘블루닷(blue dot)’이다. 구글 지도는 사용자의 현 위치를 파란 점으로 표시하고, 사용자가 이동하는 방향을 실시간으로 보여준다. 블루닷 덕분에 사용자는 목적지를 향해 맞는 방향으로 가고 있는지 바로 확인할 수 있다.

샘 량(Sam Liang)은 이러한 블루닷 기술을 개발한 구글 팀의 일원이었다. 베이징대 졸업 후 미국으로 건너온 량은 스탠퍼드대에서 대규모 분산 시스템 연구로 박사 학위를 받은 후 2006년 구글에 입사했다. 실리콘밸리 일대 가로등에 와이파이 라우터를 설치하는 프로젝트를 진행하던 그는 곧 통신 기록으로 노트북의 현재 위치를 파악할 수 있는 아이디어를 착안했다. 그의 팀은 구글 위치 플랫폼 프로젝트(Google location platform project)를 가동했고, 이를 블루닷으로 발전시켰다. 이듬해 블루닷 기능이 포함된 구글 지도가 아이폰 1세대에 탑재됐다.

량은 2010년 구글을 퇴사하고 ‘알로하(Alohar)’라는 스타트업을 창업했다. 당시 위치 기반 소셜네트워크서비스(SNS) 포스퀘어(Foursquare)가 큰 인기를 누렸다. 량은 스마트폰 애플리케이션(앱)을 켜고 방문한 식당을 직접 기록하는 포스퀘어에서 한발 더 나아가 사용자의 위치 정보를 자동으로 추적하는 기술을 개발했다. 배우자나 자녀의 위치를 파악해 알려주는 이 기술은 꽤 성공적인 것으로 평가됐다. 2013년 알로하는 중국 알리바바에 인수됐다.

실리콘밸리의 성공한 창업가로 바쁜 나날을 보내던 이 무렵, 량은 한 가지 어려움을 겪었다. 매일 참석하는 숱한 회의에서 주고받은 말을 금세 잊어버리곤 하는 것이었다. “구글 지메일에선 10년 전 메일도 검색해 찾아볼 수 있는데 왜 세 시간 전에 한 회의 내용은 그럴 수가 없지?” 이러한 문제의식을 가지고 량은 알로하의 동료 윈 푸(Yun Fu)와 함께 해결책을 찾아나섰다. 하지만 구글과 마이크로소프트 등의 음성인식 기술 수준은 매우 낮았고 품질도 좋지 않았다. 량과 푸는 다음 창업 아이템을 ‘인공지능(AI)을 활용한 음성 기록 서비스’로 정했다.

이들은 2016년 오터(Otter.ai)를 공동 창업하고, 2018년 음성을 텍스트로 자동 변환해주는 오터 서비스를 출시했다. 그해 화상회의를 녹음해 텍스트로 변환해주는 기술을 찾던 줌(Zoom)은 구글 등 빅테크 대신 오터를 선택했다. 그만큼 오터의 기술이 우수하다고 판단한 것이다. 뛰어난 정확성에 힘입어 오터는 인터뷰 등 녹음 파일을 듣고 적을 일이 많은 학자, 언론인, 작가, 팟캐스트 제작자 등에게서 호응을 얻었다. 21년 전인 1990년 미 시사지 애틀랜틱에 ‘컴퓨터가 좀 더 유용해지려면 음성을 텍스트로 정확하게 변환할 수 있어야 한다’는 취지의 기사를 썼던 제임스 팰로 기자는 “마침내 전사(轉寫) 소프트웨어가 제대로 작동한다”며 “오터가 직장생활을 더 나은 방향으로 바꿨다”고 평가했다. 1

오터는 어떻게 사업 모델을 정하고 어떤 성과를 내고 있을까. DBR가 오터의 임직원 인터뷰 등을 통해 그 비결을 취재했다.

가입하면 무료

인기기사
NEW

아티클 AI요약 보기

30초 컷!
원문을 AI 요약본으로 먼저 빠르게 핵심을 파악해보세요. 정보 서칭 시간이 단축됩니다!

Click!