美 실리콘밸리 트렌드 된 ‘토큰맥싱’
에이전틱 AI 시대 도래하며 급부상
최근엔 비용 급증에 직원 사용량 추적
토큰 가성비 극대화 칩-SW 경쟁도
미국 뉴욕타임스에 따르면 최근 오픈AI의 한 엔지니어가 일주일 동안 2100억 개의 토큰(인공지능 모델이 처리·생산하는 데이터의 단위)을 사용해 사내 토큰 소비 순위 1위에 올랐다. 온라인 백과사전 위키피디아 전체 문서를 33번이나 채울 수 있는 양이었다. 인공지능(AI) 스타트업 앤스로픽의 코딩 프로그램인 ‘클로드 코드’에서는 사용자 한 명이 한 달 만에 15만 달러(약 2억 원)어치의 토큰을 소비한 사실이 알려지며 화제를 모았다.
이처럼 미국 실리콘밸리 등 글로벌 정보기술(IT) 업계에서 개인의 AI 사용량이 웬만한 스타트업의 연간 IT 인프라 유지비를 가볍게 뛰어넘는 촌극이 벌어지고 있다. 사용자가 잠든 시간에도 홀로 AI가 업무를 수행하는 ‘에이전틱 AI’ 시대가 도래하자 개인이 쓸 수 있는 AI 사용량, 즉 토큰 양이 기하급수적으로 많아진 것이다. 미 빅테크 업계에서는 토큰 처리량이 곧 ‘AI 잘 쓰는 엔지니어’로 일종의 성과 지표로까지 여겨지자 ‘토큰맥싱(Tokenmaxxing·토큰 최대화)’ 경쟁이란 용어까지 생겨났다.
토큰맥싱 트렌드에 기업들의 AI 사용료가 천문학적으로 높아지면서 반도체 업계까지 토큰 비용을 최적화하기 위한 경쟁에 나서고 있다.
● 실리콘밸리 휩쓴 ‘토큰맥싱’ 열풍
토큰은 AI가 방대한 데이터를 소화하고 언어를 이해하기 위해 텍스트를 의미 있는 최소 단위로 쪼갠 정보(지능) 조각이다. 예컨대 ‘토큰 경제란 무엇인가’라는 문장은 ‘토큰’ ‘경제란’ ‘무엇인가’라는 세 개의 토큰으로 쪼개져 숫자로 변환된다. 추론을 거쳐 도출되는 결과값 역시 마찬가지다. 자동차가 연료를 태우듯, AI도 명령어 분석부터 추론에 이르는 전 과정에서 이 ‘디지털 연료’인 토큰을 쉴 새 없이 소비한다.
쉼 없이 일하는 에이전틱 AI 시대가 도래하며 토큰맥싱은 최근 실리콘밸리를 대표하는 트렌드가 됐다. AI가 자료를 읽어들이고 답변을 내놓거나 코딩을 할 때마다 소비되는 토큰으로 인해 토큰 소비량은 곧 AI 활용도의 척도가 됐다.
미 테크 업계에선 막대한 토큰 소비량을 훈장처럼 여기는 분위기가 팽배해졌다. AI를 한계치까지 활용하는 것이 엔지니어와 기업의 핵심 경쟁력으로 여겨졌기 때문이다. 오픈AI와 메타는 직원들의 토큰 소비량을 파악하는 내부 ‘AI 사용 순위표’를 만들어 경쟁을 부추길 정도다. 젠슨 황 엔비디아 최고경영자(CEO)는 지난달 사내 엔지니어들에게 연간 기본 급여의 절반에 해당하는 막대한 금액을 ‘AI 토큰 예산’으로 별도 지급하겠다고 밝히며 이러한 흐름을 주도했다.
문제는 기업 입장에서 토큰 사용량은 곧 AI 업체에 지불해야 할 비용이라는 점이다. 토큰의 경제적 가치인 ‘토크노믹스’(토큰 경제)가 업계 화두로 부상한 배경이다.
지난달 황 CEO가 “미래의 데이터센터는 단순한 서버 저장 공간이 아닌 ‘토큰 생산 공장’이 될 것”이라고 강조한 것도 같은 맥락이다. 결국 토큰 경제란 이 토큰의 효율적 통제 여부가 기업의 성패를 가르는 새로운 산업 구조가 될 것임을 뜻한다.
● 눈덩이 청구서에 ‘토성비’ 개선 본격화 막대한 비용 청구서에 놀란 기업들은 최근 체질 개선에 돌입하기 시작했다. 자본이 한정돼 있고 수익성 개선이 시급한 중소 규모 스타트업을 중심으로 이른바 ‘토성비’(토큰+가성비)가 중요해진 것이다. 무작정 토큰을 낭비하기보다 한정된 자원 내에서 최대의 업무 효율을 끌어내겠다는 전략이다.
월스트리트저널(WSJ)에 따르면 글로벌 AI 자동화 플랫폼 ‘재피어(Zapier)’는 최근 사내 직원들의 개별 토큰 사용량을 실시간으로 추적할 수 있는 전용 대시보드를 도입했다. 이는 빅테크처럼 AI 사용량을 과시하기 위한 목적이 아닌, 토큰 효율성을 따지기 위한 것이다. 직원 수가 약 60명인 미국의 스타트업 ‘쿠모 AI(Kumo AI)’도 올해 초부터 엔지니어 한 명당 얼마만큼의 토큰을 소비하는지 개별 추적하며 비용 통제에 나섰다.
국내 상황도 크게 다르지 않다. 삼성SDS, LG CNS, SK C&C 등 주요 IT 서비스 기업들은 기업용 AI 도입 과정에서 고객사의 토큰 비용 최적화를 최우선 과제로 삼고 맞춤형 경량화 인프라 구축에 사활을 걸고 있다. 시장조사업체 IDC에 따르면 2029년까지 전 세계에서 운영되는 에이전틱 AI는 10억 개를 넘어설 전망으로, 2025년의 40배에 달한다. 에이전틱 AI는 하루에 2170억 건 이상의 작업을 수행하고, 이를 지원하는 토큰 전송 비용은 연간 680억 달러(약 101조 원)를 훌쩍 넘어설 것으로 전망된다.
반도체 기업들도 토큰 비용을 최적화하는 추론 칩 개발에 중점을 두고 있다. 엔비디아가 추론형 칩 기업 ‘그록’을 인수한 배경이기도 하다.
김두현 건국대 컴퓨터공학부 교수는 “텍스트 처리 효율을 극대화하는 최적화 알고리즘이나 특정 산업 도메인에 특화된 소형언어모델(sLM)을 적절히 혼합하는 등 고도화된 토큰 관리 전략이 요구되는 시점”이라고 말했다. 오학주 고려대 컴퓨터학과 교수는 “토큰 생산성과 비용 사이에서 최적의 균형점을 찾는 것이 자율형 AI 시대의 핵심 생존 과제”라고 말했다.
전혜진 기자 sunrise@donga.com;김재형 기자 monami@donga.com
ⓒ dongA.com All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
인기 뉴스