“시연 영상 속 휴머노이드, 정해진 동작할 뿐 인간의 말 이해하고 행동하는 로봇 개발돼야”

Interview: 김상배 매사추세츠공대(MIT) 기계공학과 교수

“시연 영상 속 휴머노이드, 정해진 동작할 뿐
인간의 말 이해하고 행동하는 로봇 개발돼야”

최호진 | 442호 (2026년 6월 Issue 1)

- 아티클
  
  스페셜 리포트 케이스 스터디
  경영전략/경영일반 인사/조직 마케팅/세일즈 리더십/자기계발 인문 AI/DT
  전체 기사 보기 호수별 Case Study HubENG audio DBR PDF 전체보기
- 구독
  
  월정액 서비스 연간 서비스 낱권 PDF 대량/법인
- 이벤트
  
  이벤트
- 고객센터
  
  공지사항 FAQ 1:1문의 이용권/상품권 인증
공유
스크랩

+ 새로운 폴더 생성
폴더명

메모입력

스크랩
아티클요약

Article at a Glance

휴머노이드에 대한 기대치와 경쟁이 날로 과열되고 있다. 하지만 빠른 시일 내 산업 현장에 투입돼 상용화될 로봇의 폼팩터는 휴머노이드 형태가 아닐 가능성도 높은 상태다. 인간의 추상적인 말을 제대로 이해하고 예상치 못한 변수에도 즉각적으로 행동을 수정할 수 있는 범용 로봇 AI가 여전히 아쉬운데다 높은 가격과 넘어졌을 때 발생하는 수리 비용, 안전성 위험 등을 고려해 상대적으로 복잡도가 낮은 형태의 폼팩터가 상용화에 훨씬 유리하고 경제적일 수 있다. 따라서 한국 기업은 단기간에 휴머노이드를 상용화하겠다는 조급함보다는 장기적인 안목으로 인간의 말을 제대로 이해하고 그라운딩(Grounding, 현실 인식)하는 범용 로봇 AI 개발에 투자할 필요가 있다. 장기간의 연구개발(R&D)을 감당하기 어려운 기업이라면 실리콘밸리 피지컬 AI 스타트업과 글로벌 대기업이 필요로 하는 부품·도구·데이터를 공급하는 ‘곡괭이와 삽 비즈니스(Pick-and-Shovel Business)’ 전략을 취하는 것이 현실적인 방안이다.

김상배 미국 매사추세츠공대(MIT) 기계공학과 교수는 연세대 기계공학과 학사, 미국 스탠퍼드대 기계공학 석·박사와 하버드대 박사후과정을 거쳐 2009년 MIT에 부임했다. 연세대 4학년 재학 중 신생 스타트업 솔루셔닉스에 합류해 3D 스캐너를 첫 제품으로 제작했고 이후 프로덕트 디자이너의 꿈을 안고 미국 유학길에 올랐다. 박사 과정에서 개발한 벽 등반 로봇 스티키봇(Stickybot)은 2006년 미 타임지가 선정한 ‘올해 최고의 발명품’에 이름을 올렸다. 함께 개발한 ‘방향성 접착제(directional adhesive)’로 졸업 무렵 창업을 시도했으나 펀딩 실패 후 시장보다는 연구에 적성이 있음을 깨닫고 학자의 길을 택했다. MIT에서 Biomimetic Robotics 연구소를 이끌며 사족보행 로봇 치타(Cheetah) 시리즈, MIT 휴머노이드 등을 선보였다. 2019년 네이버랩스 기술 고문으로 영입돼 네이버랩스-MIT 산학 협력을 주도했고, 2023년 현대자동차그룹 AI 자문위원을 지냈다. 2025년 3월, 메타 CTO와의 만남의 계기로 메타 로보틱스 스튜디오에 합류해 휴머노이드 로봇 개발을 진두지휘하고 있다. 2025년 제21회 경암상을 수상했다.

지난 4월 19일 오전, 중국 베이징 이좡 난하이쯔공원에서는 진풍경이 펼쳐졌다. 화웨이에서 분사한 스마트폰 제조사 아너(Honor)가 내놓은 휴머노이드 로봇 ‘산뎬(閃電·번개)’이 약 21㎞의 하프 마라톤 코스를 50분26초에 주파하며 결승선을 통과한 것이다. 100m를 14초대로 끊는 속도. 우간다의 제이컵 키플리모 선수가 지난 3월 세웠던 하프 마라톤 세계기록(57분20초)을 7분 가까이 앞지른 성적이었다. 원격 조종이나 외부 유도 신호 없이 오로지 자체 두뇌와 센서만으로 길을 판단하고 장애물을 피하며 달린 결과였다.

태평양 건너 미국에서는 지난 5월 13일 또 다른 휴머노이드 ‘차력쇼’가 벌어졌다. 미국의 휴머노이드 스타트업 피규어AI(Figure AI)가 유튜브, 엑스(X)에 라이브 방송을 켜고 자사 휴머노이드 로봇 ‘피규어 03’의 연속 택배 분류 작업을 시연했다. 피규어AI의 휴머노이드는 다양한 크기의 택배 상자를 양손으로 집어 송장 바코드가 바닥을 향하도록 방향을 조정해 컨베이어 벨트에 올려놓았다. 당초 회사가 약속한 라이브 시간은 8시간. 인간 작업자 한 명이 꼬박 한 교대를 마치는 동안 로봇이 단 한 번의 원격 조종과 사람의 개입 없이 같은 노동을 해낼 수 있는지를 증명하겠다는 것이었다.

결과는 예상을 넘어섰다. 8시간이 지나도 로봇들은 멈추지 않았다. 배터리가 떨어진 로봇은 스스로 충전 스테이션으로 걸어가 다음 로봇에 작업을 자동으로 인계했다. 밥(BOB), 프랭크(FRANK), 개리(GARY) 등 이름표가 붙은 휴머노이드가 교대로 돌아가는 연속 작업 라이브는 24시간을 넘겼고, 5월 20일 오전 기준 150시간을 돌파했다. 자체 개발한 AI 모델 ‘헬릭스-02(Helix-02)’가 모든 판단을 통제하고 예상 못한 상황이 생기면 AI가 스스로 재설정해 작업을 재개했다는 게 피규어AI 측 설명이다. 5월 20일 오전 기준 누적 택배 처리량은 18만 개를 돌파했다.

이처럼 휴머노이드의 화려한 데모가 산업계를 뜨겁게 달구고 있지만 학계의 분위기는 조금 다르다. 김상배 매사추세츠공대(MIT) 기계공학과 교수는 “현재 기업들이 공개하는 시연 영상에서 보이는 휴머노이드의 두뇌는 대부분 ‘따라쟁이 AI’에 불과해 정해진 동작 외엔 아무것도 못한다”며 “이런 모방학습과 입력에서 행동까지 신경망 하나가 통째로 처리하는 엔드투엔드 방식만으로는 진짜 노동이 가능한 로봇을 만들기 어렵다”고 진단한다. 김 교수는 2010년 휴머노이드 구동 시스템의 토대가 되는 ‘본체감각 피드백 구동기(Proprioceptive Actuator)’1 를 개발한 인물로 지난해 3월부터는 MIT 교수직을 유지한 채 메타(Meta)의 로보틱스 스튜디오에 합류해 직접 휴머노이드를 개발하고 있는 현장형 연구자다. 그는 “휴머노이드에 대한 기대치와 경쟁이 과열돼 있다”며 “빠른 시일 내 산업 현장에 투입돼 상용화될 로봇의 폼팩터는 휴머노이드 형태가 아닐 가능성이 높다”고 강조했다. 휴머노이드를 둘러싼 시장의 기대와 기술의 현실 사이에는 어떤 간극이 존재하는 걸까. DBR이 김 교수를 화상을 통해 만나 피지컬 AI 개발의 병목과 한국 기업을 향한 제언을 들었다.

현재 휴머노이드 개발의 한 축인 모방학습 방식의 한계가 크다고 지적했다.

요즘 유행하는 생성형 AI는 결국 인터넷상의 데이터를 모아 사람처럼 따라 하는 AI다. 일종의 ‘따라쟁이 AI’다. 피지컬 AI도 유사한 방식으로 접근하는 기업이 많다. 유튜브 영상이나 사람이 직접 시연한 행동 데이터를 모아 로봇이 그 패턴을 따라 하게 만든다. 이를 모방학습(Imitation Learning)이라고 부른다. 그런데 피지컬 세상에서는 단순히 따라 하는 것만으로 우리가 원하는 수준의 로봇을 만들기가 굉장히 어렵다. 휴머노이드 기업들이 공개하는 시연 영상 대부분은 그 동작밖에 못하는 로봇을 보여주는 것이다. 정해진 동작을 보여주는 것이지 로봇 스스로가 이해하고 동작한다고 보기 어렵다.

최근 피규어AI 시연 영상에 많이들 놀라지만 제대로 들여다볼 필요가 있다. 시연 영상에 등장하는 택배 상자들은 피규어AI가 직접 골라서 세팅한 것이다. 자세히 보면 거의 무게가 나가지 않는다. 비닐 포장 안에 들어 있는 내용물들도 대부분 말랑말랑한 물건들이다. 실제 물류 현장은 훨씬 더 복잡하다. 무거운 상자도 많고 형태도 제각각이다. 지금 유행하는 모방학습, 즉 따라쟁이 AI는 ‘움직임’만 베끼기(Behavior Cloning) 때문에 물체의 무게가 무거워지면 거의 작동하지 않는다. 사람은 무거운 물건을 들 때 자세를 낮추거나 힘을 다르게 분배하는데 그런 물리적 상호작용에 대한 이해 없이 동작 패턴만 흉내 내기 때문이다.

본질적 한계는 따라쟁이 AI가 스스로 이해하지 않고 암기하는 식에 가깝다는 점이다. 이런 모방학습으로는 ‘회복(Recovery)’을 배울 수 없다. 강의할 때 항상 던지는 질문이 있다. “100만 명이 100만 시간 동안 걷는 데이터를 다 모으면 로봇을 걷게 할 수 있을까?” 서울 명동에서 방대한 규모의 걷는 영상 데이터를 모아 학습시켰다고 가정해보자. 어느 정도 로봇을 걷게 할 수 있겠지만 그 로봇의 어깨를 옆으로 확 밀면 어떻게 될까. 100만 시간의 걷기 데이터 중 어깨가 옆으로 밀리는 데이터는 극소수일 것이다. 이런 소수의 데이터로는 외력을 받았을 때 회복하는 동작을 배울 수 없다.

로봇이 실제 작업 현장에 투입되려면 실수했을 때 회복할 수 있어야 한다. 잘한 데이터만 가지고는 회복을 배울 수 없다. 따라서 모방학습만으로 사람만큼 일하는 AI를 만들려면 지금 인터넷에 있는 데이터의 수십만 배에 달하는 데이터를 의도적으로 만들어내야 한다. 실패하고 회복하는 데이터까지 모두 포함해서 말이다. 사실상 불가능에 가까운 일이다. 반면 사람은 그렇지 않다. 12살 어린아이가 뭔가를 깨뜨렸을 때 청소하는 법을 배우기 위해 그 장면을 몇 번이나 봐야 할까. 열 번 정도면 충분할 것이다. 어른이라면 더 적을 수도 있다. 사람은 상황을 이해하면서 살기 때문에 그렇게 많은 데이터가 필요 없다.

그렇다면 인간의 노동이 가능한 로봇을 구현하기 위해 기업들이 풀어야 할 핵심 과제는 무엇인가.

로봇이 인간의 말을 정확히 이해하고 행동할 수 있게 하는 피지컬 AI를 만드는 것이다. 거대언어모델(LLM)을 보며 현재 수준의 피지컬 AI가 인간의 말을 알아듣고 행동한다고 생각하는 사람들도 있겠지만 사실은 굉장히 단순한 것만 가능하다. ‘빨간 모자는 빨간 바구니에 넣어라’ 같은 수준은 되지만 진짜 노동력으로 기능하기에는 한계가 있다. 게다가 인간의 언어는 굉장히 추상적이다. 언어의 해상도(Resolution)가 너무 낮아 그 아래 단계와 디테일을 표현하지 못한다. 배관공이나 목공이 하는 작업, 테니스 같은 운동을 책만 읽고 배우기 어려운 이유다. 말로 표현할 수 없는 암묵지가 존재한다. 어머니가 요리하면서 “양념을 잘 묻혀라”라고 말하는 장면을 생각해보자. “잘 묻혀라”라는 한마디로 굉장히 복잡한 동작을 다 표현해 버린다. 인간은 이런 추상적 표현을 행동으로 보여주면서 그라운딩(Grounding, 현실 인식)하는 능력이 굉장히 뛰어나기 때문에 굳이 그 아래 단계를 표현하는 언어를 발달시킬 필요가 없었다.

챗GPT 같은 LLM은 사람 수만 명이 인터넷의 그림들을 일일이 보고 “이 그림은 이런 그림이다”라고 설명을 붙이는 어노테이션(Annotation) 작업을 통해 데이터를 만들었기 때문에 그림을 그리거나 사진을 설명할 수 있게 됐다. 그런데 인간 언어의 해상도가 떨어지는 암묵지는 어노테이션 자체가 불가능하다. 사람이 보고도 말로 표현할 수 없으니 데이터를 만들 방법이 없는 것이다. 따라서 추상적인 인간의 언어와 물리적 행동 사이의 빈틈을 메우고 이를 근본적으로 다시 연결하는 새로운 체계를 구성하는 연구가 필요하다.

이런 맥락에서 테슬라, 피규어AI 등이 개발하는 ‘엔드투엔드(End-to-End)’ 방식의 AI는 한계가 있다고 본다. 엔드투엔드 방식에서는 입력(Input)이 들어오면 행동(Action)이 바로 나가는데 그 중간 과정을 사람이 이해할 수 없다. 따라서 뭔가 잘못됐을 때 그 원인을 정확히 알고 고치기가 어렵다. 실제로 테슬라도 예기치 못한 오작동의 원인을 추적하기 어려워 고생하고 있다고 알려진다. 그렇다고 엔드투엔드 방식을 완전히 배제하자는 뜻은 아니다. 로봇이 인간의 추상적인 언어를 알아듣고 물리적 상황에 맞게 행동을 수정하는 능력을 구현하려면 결국 로봇의 두뇌 역할을 하는 아키텍처(Architecture) 자체가 근본적으로 바뀌어야 한다. 엔드투엔드가 잘할 수 있는 부분은 취하되 LLM이 부상하기 전부터 발전을 거듭해 온 비전 AI나 그보다 더 앞선 세대의 모델 기반(Model-based) 기법들을 유기적으로 결합해야 한다.

이런 과거와 현재 기술의 적절한 융합을 통해 인간의 추상적인 말을 정확히 이해하고 행동할 수 있는 AI를 만들어야 한다. 이를 위해 사람이 단어를 조합해 문장을 만들듯 로봇의 움직임도 작게 분해해 코드화하는 ‘액션 토크나이제이션(Action Tokenization)’이 필요하다. 행동을 분해해 언어와 연결함으로써 피지컬 AI를 고도화하면 ‘유연한 자동화(Flexible Automation)’가 가능해진다. 공장에서는 단순 반복뿐만 아니라 순간순간 행동을 즉시 바꿀 수 있는 능력도 중요하다. 크기가 큰 부품을 집다가 갑자기 다른 크기로 바뀌거나, 조립했더니 불량이 나서 작업 방식을 바꿔야 할 때 사람이라면 “이제부터 이렇게 해라”는 말 한마디면 10~20분 만에 적응할 수 있다. 기존 산업용 로봇은 그럴 때마다 다시 프로그래밍해야 해서 시간이 오래 걸린다. 현재 수준의 AI로도 거의 불가능한 상황이다. 결국 말을 제대로 알아듣고 행동하는 피지컬 AI가 개발돼야 유연한 자동화가 비로소 시작될 수 있기에 관련 연구개발에 자원이 집중되고 있다.

피지컬 AI가 아직 기술 개발 단계임에도 시장에서는 휴머노이드를 향한 베팅이 빠르게 늘고 있다. 휴머노이드 상용화는 언제쯤 가능할 것이라고 보나.

정확한 시점을 예측하기는 어렵다. 다만 중요한 것은 ‘휴머노이드냐, 아니냐’가 본질이 아니라는 점이다. 제너럴리스트AI(Generalist AI)를 비롯해 요즘 실리콘밸리에서 뜨는 스타트업 중 상당수는 단순한 집게 그리퍼가 달린 팔 두 개짜리 로봇으로 사업을 한다. 팔 두 개짜리 로봇에 들어가는 AI나, 휴머노이드에 탑재되는 AI나 본질은 다르지 않다. 결국 핵심은 모든 상황에 적용될 수 있는 범용 로봇 AI다. 범용 로봇 AI가 만들어진다면 어떤 폼팩터에든 사용될 수 있다. 지금 실리콘밸리에서 조 단위의 투자금이 휴머노이드에 몰리는 이유는 범용 로봇 AI가 나온 후 그때 가서 휴머노이드를 만들기 시작하면 늦기 때문에 미리 준비하는 것이다.

사실 빠른 시일 내 산업 현장에 투입돼 상용화될 로봇의 폼팩터가 휴머노이드 형태는 아닐 가능성이 높다고 본다. 과거 사례를 보면 답이 보인다. 인류가 말을 타다가 자동차가 등장하면서 말 대신 자동차를 타기 시작했다. 그런데 왜 ‘말 로봇’을 만들지 않고 자동차를 만들었을까. 말 로봇을 만들었다면 환경을 바꿀 필요도, 도로를 새로 깔 필요도 없었을 텐데 말이다. 빨래도 마찬가지다. 손빨래가 힘들어 기계로 대체하고자 했을 때 빨래판에 옷을 문지르고 비누칠하는 로봇을 만드는 대신 세탁기를 만들었다. 이유는 단순하다. 자동차는 모터 두 개, 세탁기는 모터 하나면 된다. 휴머노이드에는 모터가 50~60개 들어간다. 부가가치의 차이를 생각하면 휴머노이드 형태로 상용화를 추진해야 할지 진지하게 고민해봐야 한다.

물론 휴머노이드의 장점은 분명하다. 사람의 외형을 가지고 있어 사람 데이터를 배우기 쉽고 사람의 환경을 그대로 활용할 수 있다. 그러나 그 장점이 만들어내는 단점도 같이 봐야 한다. 자동차나 복잡한 시스템을 양산해본 기업이라면 복잡도가 가격과 얼마나 직결되는지 알 것이다. 자동차 제조업체에 “여기 부품 하나 더 달면 안 되나요?”라고 물어보면 “우리는 100원, 500원도 줄이려고 노력한다”는 답이 돌아온다. 자동차 바퀴를 6개로 만들지 않는 것도 같은 이유다. 성능이 약간 더 좋아진다 해도 그만큼의 부가가치가 없으면 추가하지 않는다. 이런 차원에서 보면 휴머노이드보다 복잡도는 낮지만 90%의 일을 할 수 있는 로봇이 나온다면 그런 로봇이 먼저 상용화될 가능성이 높다.

특히 휴머노이드의 손이 까다로운 영역이다. 대부분 휴머노이드라고 하면 다섯 손가락을 떠올리는데 사람 손처럼 움직이려면 모터가 25개 이상 필요하다. 손처럼 작은 공간에 그 정도 모터를 넣으면 가격이 천정부지로 오르고 내구성도 떨어진다. 게다가 사람 손에는 말랑말랑한 살이 있다. 딱딱한 플라스틱이나 쇠로 만들어진 로봇 손은 물건을 잡을 때 사람처럼 잡을 수 없다. 사람 손은 물건을 집을 때 살이 밀려나면서 접촉면을 만든다. 플라스틱이나 쇠로는 그게 안 된다. 진짜 사람 손처럼 작동하게 하려면 손가락 두께가 8㎜ 정도로 가늘어야 하는데 그러면 더 쉽게 부서진다. 이런 오버헤드를 다 감안하고도 사람의 외형으로 얻는 장점이 정말 큰지, 어디에 쓸 것인지에 따라 폼팩터를 신중하게 판단해야 한다.

다리 역시 꼭 필요한지 검증해볼 필요가 있다. 한국처럼 복층이 적은 가정에서, 바닥이 평평한 환경에서 다리가 꼭 필요할까. 공장 환경에서는 다리의 효용이 더욱 줄어든다. 공장 바닥은 기업이 설계해 평평하게 만들 수 있다. 실제로 아마존이 운영하는 100만 대 이상의 자율이동로봇(AMR)은 모두 바퀴 형태다. 콘크리트로 평평하게 만든 바닥에 마커를 보고 돌아다닌다. 다리를 개발하는 가격은 물론 고장 났을 때 수리 비용도 생각해야 한다. 가령 바퀴로 만든 로봇이 넘어질 확률이 휴머노이드 대비 100분의 1이라면 휴머노이드가 그보다 자주 넘어졌을 때 수리 비용까지 포함해 ROI를 따져봐야 한다. 물론 사람을 접대해야 한다거나 휴먼 폼팩터가 꼭 필요한 영역에는 휴머노이드가 분명히 쓰일 것이다. 그러나 휴머노이드 한 종류가 모든 일을 하는 미래는 오지 않을 것이라고 본다.

휴머노이드 도입 시 안전성 문제도 있을 것 같다.

그렇다. 로봇 팔의 안전성은 이미 검증됐고 상용화된 사례도 많다. 그러나 휴머노이드는 넘어지는 것 자체가 큰 문제다. 휴머노이드가 사람들이 많은 공간에서 작업할 때 누군가가 로봇을 밀치는 상황을 상상해보자. 사람이라면 넘어지지 않으려고 자연스럽게 발을 디뎌 균형을 잡거나, 어쩔 수 없이 옆 상대의 발을 살짝 밟았다면 “죄송합니다”라며 사과할 것이다. 그런데 휴머노이드는 이 판단을 하기가 굉장히 어렵다. 넘어져서 더 큰 피해를 만드는 게 나을까, 상대의 발을 밟고 균형을 유지하는 게 나을까. 트롤리 문제(Trolley Problem)2 같은 윤리적·기술적 딜레마가 발생한다.

사실 휴머노이드가 아닌 바퀴 달린 로봇만으로도 사람과의 상호작용이 굉장히 복잡한 문제다. 일례로 네이버는 1784 사옥을 로봇이 허가만 받으면 모든 문을 열 수 있도록 로봇 친화적으로 설계했다. 그런데도 사람들이 이용하는 엘리베이터와 로봇 전용 엘리베이터를 따로 만들었다. 왜냐하면 점심시간 엘리베이터는 사람들이 부대끼면서 눈치 보고 비집고 들어갈 정도로 북적인다. 그런데 로봇은 안전성 문제로 ‘거리 유지 1.5m’라는 규정을 적용하면 그 근처에 가지도 못한다. 점심시간 내내 그냥 서 있게 되는 것이다. 배달 로봇 ‘루키(Rookie)’가 그런 상황을 겪었다.

바퀴 달린 로봇도 이런데 이족보행해 넘어질 가능성이 더 높은 휴머노이드는 안전 규정을 만들기가 더 어렵다. 산업 제품에는 규격(Standard)이라는 게 있다. ‘이런 시험을 통과해야 출시할 수 있다’는 규격 말이다. 그런데 휴머노이드에는 아직 그런 표준이 마련되지 않았고 어떻게 만들어야 할지도 굉장히 까다롭다. 계단에서 50㎏짜리 쇳덩어리 로봇이 굴러떨어지면 사람이 다칠 수도, 계단 자체가 부서질 수도 있다. 즉 알려지지 않은 위험이 너무 많다.

휴머노이드 분야에서 중국의 굴기가 무서운데.

중국 휴머노이드는 정말 놀라울 정도로 저렴하다. 중국 유니트리가 자랑하는 휴머노이드 로봇인 G1이 3000만 원 수준이다. 중국이 가격 경쟁력을 갖는 이유는 효율성 때문만이 아니다. 넓은 땅, 풍부한 자원 및 국가 정책과 미국이 과거 중국을 세계의 공장으로 키우면서 지원한 역사적 배경이 결합된 결과다. 폭스콘 같은 회사는 역사를 들여다보면 거의 애플이 키운 회사라 해도 과언이 아니다. 게다가 중국은 공급망이 매우 잘 갖춰져 있다. 예를 들어 모터를 만드는 한 중국 회사는 희토류 광산을 직접 보유하고 있다. 광산부터 정제 시스템, 모터 제조까지 수직 통합해 운영하고 있는 것이다. 이런 구조에서 가격을 따라잡기란 쉽지 않다. 다만 한 가지 짚어야 할 점은 중국이 하드웨어를 아무리 잘 만들어도 휴머노이드를 완성할 수 없다는 사실이다. 로봇청소기처럼 현재의 AI 수준으로도 충분한 영역에서는 가격 경쟁력이 중요하지만 휴머노이드처럼 지능이 핵심인 분야는 하드웨어가 반값이어도 고도화된 피지컬 AI가 없으면 의미가 없다.

물론 중국 인재가 일하는 방식에서는 배울 점이 많다. 메타에 중국 인재가 굉장히 많은 편이다. 중국 인재들이 실리콘밸리에서 공부하고 회사를 차린 뒤 중국에 지사를 내는 식으로 미국의 두뇌와 중국의 제조를 결합해 로봇을 개발하는 사례가 굉장히 많다. 즉 실리콘밸리와의 연결성이 강하다. 중국 인재들과 함께 일하며 느낀 점은 실리콘밸리 인재들과 일하는 방식이 굉장히 비슷하다는 것이다. 우리가 흔히 생각하는 아시아인 스타일과 다르게 대범하고 큰 그림을 그려놓고 그냥 달린다. 한국 인재들과 비교했을 때 중국 인재들은 걱정을 덜 하고, 쉽게 지르며, 굉장히 끈기 있게 버텨나간다. 실리콘밸리에서 성공하는 스타트업의 특징 중 하나가 흔들리지 않고 계속 밀고 나가는 것인데 중국 인재들이 그 자질이 뛰어나다.

물론 이런 성향이 꼭 좋은 것만은 아니다. 방향이 잘못돼도 일단 밀고 나가는 경우도 있다. 예를 들어 중국의 애지봇(AGIBOT)은 텔레오퍼레이션 데이터만 100만 시간 이상 모았다고 한다. 막대한 비용을 투입했지만 전문가들에게 물어보면 데이터 다양성이 부족하고 텔레오퍼레이션 데이터 자체가 자연스럽지 않아 쓰기 어렵다는 평가가 많다. 그런 문제를 충분히 검토하지 않고 일단 달리는 것이 그들의 방식이다.

결국 균형이 중요하다. 너무 맹목적으로 달려도 안 되고, 너무 걱정만 하다 아무것도 못해서도 안 된다. 한국이 스타트업을 충분히 지원하고 육성하지 못했던 이유 중 하나가 ‘실패해도 좋다, 한번 열심히 해봐라’는 마인드가 부족했던 것이라고 본다. 10년 전에 비하면 많이 나아졌지만 여전히 부족하다. 실리콘밸리에는 자금이 몰려 스타트업 10곳 중 한 곳만 성공해도 전체 투자가 회수되는 구조다. 한국은 자본 풀의 규모 자체가 다르기 때문에 같은 방식의 베팅이 어렵겠지만 그렇다고 안전한 길만 좇아서는 답이 없다. 혁신이 중요한 시대에 너무 조심하다가는 아무것도 못한다. 한국 인재들의 장점인 꼼꼼함을 살리되 중국이나 미국처럼 밀고 나가는 자세도 함께 갖춰야 한다.

휴머노이드 시대를 준비하는 한국 기업들에 조언한다면.

단기간에 이익을 보려고 덤비면 100% 실패한다. 빠른 수익이 목적이라면 차라리 기존의 검증된 자동화 로봇 방식을 쓰는 게 맞다. 정밀하게 같은 동작을 반복하는 작업은 기존 산업용 로봇이 이미 자동화해 잘 수행하고 있다. 휴머노이드는 현재 기술로 자동화가 안 되는 영역에 새롭게 도전하는 도구이지 이미 검증된 자동화를 대체하는 수단이 아니다. 휴머노이드 트렌드를 좇아 막연히 투자하면 실패 확률이 99.9%다. 물론 모든 기업이 장기간의 연구개발(R&D)을 감당할 체력을 가지고 있진 않다. 단기간에 수익을 내야 하는 기업이라면 직접 휴머노이드를 만들기보다 실리콘밸리 스타트업과 글로벌 대기업이 필요로 하는 부품·도구·데이터를 공급하는 쪽이 훨씬 현실적인 방안이다. 이른바 ‘곡괭이와 삽 비즈니스(Pick-and-Shovel Business)’다. 19세기 미국 골드러시 당시 금을 캐러 간 사람들이 아닌 금 채굴에 사용되는 곡괭이와 삽을 판매한 회사, 청바지를 판 리바이스가 살아남은 것과 같은 이치다.

LLM 시장이 이를 가장 잘 보여준다. 정작 오픈AI와 앤스로픽은 여전히 적자인데 이들에 GPU와 메모리를 공급하는 엔비디아·삼성전자·SK하이닉스는 천문학적인 수익을 올리고 있다. LLM에 대한 시장의 기대가 워낙 크다 보니 적자에도 불구하고 투자가 끊임없이 이어지기 때문이다. 로봇은 LLM보다 더 어려운 상황에 놓일 수 있다. 그럼에도 일단 투자가 흘러 들어오면 그 생태계에 부품과 도구를 공급하는 기업은 어떻게든 수익을 낸다. AI의 기술 방향이 바뀌어도 엔비디아 칩은 계속 쓰이는 것과 같은 원리다. 다만 단순 하드웨어 영역에서 중국과 정면 승부하는 것은 현실적으로 쉽지 않을 것이다. 반도체처럼 한국이 이미 글로벌 경쟁력을 확보한 분야를 중심에 두는 전략이 현명하다. 또한 휴머노이드 스타트업 중에는 AI를 직접 개발하지 않고 행동 데이터 수집만을 전문으로 하는 곳도 있는데 이런 ‘곡괭이’ 비즈니스 역시 충분히 의미 있는 선택지다.

제조 등 한국이 강점을 가지는 특정 분야에 특화된 피지컬 AI를 구축하는 접근이 더 유효할까.

미래의 로봇이 휴머노이드 형태로만 모든 일을 수행하기보다 분야별로 특화된 로봇이 등장할 가능성이 높다는 점에서 이런 접근은 의미가 있다. 다만 유의해야 할 점은 특정 분야 문제를 풀자며 사람들이 모여 연구를 시작하면 ‘그것밖에 못하는’ 결과를 내기 쉽다는 것이다. 이렇게 개발한 기술을 다른 영역에 응용 적용하기가 어렵다. 우물 안에 빠지는 것이다. 그렇게 되면 정말 큰 기술 개발 기회를 놓칠 수 있다. 지금 실리콘밸리에서 좋은 평가를 받는 피지컬 인텔리전스(Physical Intelligence), 스킬드AI(Skild AI), 제너럴리스트AI 같은 기업들의 접근법을 보면 단서를 얻을 수 있다. 이들의 웹사이트에 들어가 보면 공통적으로 모든 것을 할 수 있는 범용 지능인 사전 학습(Pre-training) 모델에 사후 학습(Post-training)이나 미세 조정(Fine-tuning)을 거쳐 특정 분야에 적용한다는 구조를 강조한다. 즉 범용 모델을 먼저 만들고 그 위에 특화 응용을 얹는 방식이다. 결국 범용 AI 개발과 분야 특화 응용이라는 두 축의 균형을 잘 잡아야 한다.

마지막으로 한국의 로봇 기업과 연구 생태계가 풀어야 할 과제는 무엇인가.

한국의 폐쇄성이 풀어야 할 핵심 과제라고 본다. LG, 삼성, 현대, SK 같은 글로벌 대기업들 간에 인재 이동이 쉽지 않다. 중국은 서로 기술을 공유하는 분위기가 있고 인재 이동도 비교적 쉽다. 실리콘밸리는 더 개방적이다. 메타에 2년 다니다가 테슬라에 1년 다니는 식의 이동이 굉장히 자유롭다. 그러면 자연스럽게 정보가 공유된다. 그런데 한국은 경제 규모상 데이터도 부족한 상황에서 서로 공유하지 않는 분위기다. 미국, 중국과 같은 나라와 경쟁하기 위해서는 좀 더 개방하고 협력해야 한다. 구글 딥마인드와 협력하는 현대자동차 사례처럼 미국 기업과의 공동 연구도 효과적인 전략이다. 또한 인수합병(M&A)을 적극 활용할 필요가 있다. 실리콘밸리에는 인도인, 중국인, 한국인 등 세계 각지의 인재가 모여 있고 투자금도 몰린다. 인재 영입 차원에서의 M&A가 좋은 전략이 될 수 있다. 현대차가 보스턴다이내믹스를 인수한 것도 이런 맥락에서 의미가 크다.

최호진hojin@donga.com

동아일보 기자
이 필자의 다른 기사 보기

이전 목록 다음

듣는 DBR 브리핑

“시연 영상 속 휴머노이드, 정해진 동작할 뿐 인간의 말 이해하고 행동하는 로봇 개발돼야”

“시연 영상 속 휴머노이드, 정해진 동작할 뿐
인간의 말 이해하고 행동하는 로봇 개발돼야”