로그인|회원가입|고객센터|HBR Korea
페이지 맨 위로 이동
검색버튼 메뉴버튼

Special Report

피지컬 AI 경쟁력 위한 가치 사슬 재정의

최홍섭,원미르,정리=최호진 | 442호 (2026년 6월 Issue 1)
피지컬 AI 조기 투입해 행동 데이터 수집
데이터·HW·인프라 중 병목 구간 파악하라
Article at a Glance

한국은 제조 현장, 부품·배터리·반도체 생태계, 응용 엔지니어링 역량을 동시에 갖춘 몇 안 되는 국가로 피지컬 AI 시대의 전략적 기회를 맞이하고 있다. 피지컬 AI 경쟁우위를 확보하기 위해서는 기존 LLM 중심 사고에서 벗어나 데이터·하드웨어·인프라 중심으로 가치사슬을 재정의해야 한다. 특히 피지컬 AI의 핵심 경쟁력은 얼마나 많은 행동 데이터를 실제 현장에서 축적하고 이를 다시 모델 성능 개선으로 연결하는 폐루프(Closed-loop)를 구축할 수 있는지에 달려 있다. 또한 휴머노이드 중심 사고에서 벗어나 산업 현장에 최적화된 폼팩터를 유연하게 설계하고 데이터 수집 자체를 새로운 비즈니스 모델로 전환하는 전략도 중요하다. 피지컬 AI 시대의 리더십은 데이터·하드웨어·현장 운영·인프라 사이에서 이동하는 병목을 읽고 조직의 무게 중심을 빠르게 전환하는 동적 조율 역량이 요구된다.



‘깐부 회동’의 본질, 피지컬 AI
한국에 다시 오기 어려운 절호의 기회


2025년 가을, 젠슨 황 엔비디아 CEO와 한국 주요 기업인들의 ‘치맥’ 회동은 전 세계 산업계의 시선을 사로잡았다. 대중의 관심은 ‘대체 어떤 치킨을 먹었나’에 쏠렸지만 사실 그 테이블의 진정한 화두는 따로 있었다. 바로 피지컬 AI(Physical AI)다. 젠슨 황 CEO는 한국을 두고 “피지컬 AI에 필요한 소프트웨어 역량과 깊은 기술·과학 역량, 첨단 제조 역량을 동시에 갖춘 지구상에 몇 안 되는 국가”라고 평가하기도 했다.1  한국 산업계 입장에서는 충분히 고무적인 발언이다. 그러나 더 중요한 질문은 따로 있다. 왜 그는 유독 피지컬 AI와 관련해 한국 기업들과의 협업 가능성에 주목하며 문을 두드리는 걸까.

sr2_1


지난 수년간 이어진 AI 시장에서 한국은 뼈저린 한계를 경험했다. 초거대언어모델(LLM) 경쟁이 결국 더 큰 모델을 만들고 더 많은 데이터를 학습시키기 위해 막대한 GPU를 확보하는 자본 경쟁으로 전개됐기 때문이다. 실제로 한국이 역사적인 ‘깐부 회동’의 결과로 2030년까지 확보하기로 한 GPU 규모는 약 26만 장 수준이다. 반면 미국의 일부 빅테크 기업은 단 한 해에만 30만~40만 장 규모의 GPU를 사들인다. 현재 AI 경쟁의 무게 중심이 얼마나 거대한 자본력에 기울어져 있는지를 단적으로 보여주는 대목이다.

한국이 LLM 분야에서 ‘글로벌 3강 국가’라는 목표를 내세운 것 역시 이런 맥락에서 이해할 수 있다. 자본 싸움에서 미국·중국을 따라잡기 힘든 상황에서 택할 수 있는 가장 현실적인 전략이었던 것이다. 그렇다면 한국이 과연 피지컬 AI라는 새로운 전장에서는 다른 승부를 펼칠 수 있을까. 피지컬 AI는 크게 3가지 이유에서 대한민국에 다시 오기 어려운 절호의 전략적 기회다.

첫 번째 이유는 한국이 가진 제조 현장에 있다. 피지컬 AI가 가장 먼저 돈을 벌 수 있는 현실적인 무대이기 때문이다. 실제로 피지컬 AI 기술이 하나의 산업으로 자리 잡기 위해서는 두 가지 조건이 필요하다. 로봇을 투입할 분명한 수요와 그 로봇을 반복적으로 검증하고 고도화할 수 있는 인프라다. 제조업은 이 두 조건을 동시에 충족시키는 대표적인 영역이다. 보통 공장이라고 하면 육중한 제조 설비가 자동으로 물건을 찍어내는 모습을 떠올리지만 실제 제조 현장에는 여전히 생각보다 많은 사람이 투입돼 일하고 있다. 국내에 공장을 보유한 중소·중견 제조기업의 스마트공장 도입률이 19.5%에 불과하다는 조사 결과도 이 같은 현실을 뒷받침한다. 공장 자동화만으로 해결하기 어려운 비정형 작업, 즉 인간의 숙련과 판단에 기대온 공정들이 여전히 제조 현장 곳곳에 남아 있다는 뜻이다.

더 큰 문제는 향후 예상되는 노동력 부족이다. 국내 제조업의 90% 이상을 차지하는 중소 제조업에 무려 193만 명 규모의 노동자가 일하고 있다.2 그러나 한국고용정보원에 따르면 2032년까지 최대 89만4000명의 노동 인력 부족이 예상된다.3 이를 적시에 해소하지 못하면 우리나라의 제조업 기반 자체가 흔들릴 수 있는 구조적 위기에 당면할 수 있다. 게다가 이런 중소 제조업체는 대규모 초기 투자를 통해 공장 자체를 스마트팩토리 형태로 전면 개조하기 어렵다. 따라서 기존 공정을 유지한 채 사람이 담당하던 작업 일부를 피지컬 AI 기반 휴머노이드 로봇이 대체하는 접근이 가장 현실적인 대안이 될 가능성이 높다.

두 번째 이유는 피지컬 AI 경쟁이 지난 LLM 경쟁처럼 단순히 자본 규모의 싸움만으로 결정되지 않는다는 점이다. 한국이 LLM 경쟁에서 어려움을 겪었던 이유는 끝없이 필요한 GPU와 데이터 규모로 결정되는 자본 싸움에서 이기는 것이 요원했기 때문이다. 반면 피지컬 AI는 결국 로봇이라는 제한된 물리적 플랫폼 위에서 작동한다. 제한된 전력과 연산 자원 안에서 실시간으로 판단하고, 센서 정보를 해석하며, 모터와 액추에이터를 안정적으로 제어해야 한다. 챗봇이 문장을 잘못 생성하는 것과 로봇이 동작을 잘못해 생산 라인이 멈추는 것은 전혀 다른 문제다. 전자는 다시 답변하면 되지만 후자는 불량, 설비 정지, 안전사고, 납기 지연으로 이어질 수 있다.

결국 피지컬 AI의 핵심은 단순히 더 좋은 모델을 만드는 것이 아닌 그 모델을 실제 기계 위에서 가볍고 안정적으로 작동시키는 엔지니어링 역량이다. 실험실의 데모를 공장의 생산성으로 전환하고, 현장의 실패 데이터를 다시 성능 개선으로 연결하며, 모델의 가능성을 고객의 비용 절감과 운영 효율로 잇는 역량이 중요하다. 이는 오랫동안 한국 산업이 강점을 보여온 응용 엔지니어링 역량과 맞닿아 있다. 한국 산업은 오랫동안 제한된 조건 안에서 품질, 생산성, 비용 효율을 동시에 맞추며 성장해왔다. 더 작게, 더 안정적으로, 더 싸게 만들며 대량 생산이 가능하도록 제품을 극한까지 다듬는 과정에서 한국 기업들은 치열하게 역량을 축적했다. 피지컬 AI가 요구하는 역량 역시 본질적으로 다르지 않다. 거대한 모델의 성능을 자랑하는 것이 아니라 그 모델을 현실의 기계와 공정 안에서 안정적으로 작동시키는 능력이 중요하다.

세 번째 이유는 한국이 피지컬 AI의 복잡한 가치사슬을 모두 갖춘 보기 드문 국가라는 점이다. 피지컬 AI는 AI 기업이나 로봇 기업이 단독으로 완성할 수 있는 산업이 아니다. 피지컬 AI 기술이 상용화에 가까워질수록 AI 기업은 하드웨어의 제약을 이해해야 하고, 로봇 기업도 데이터와 모델의 작동 방식을 이해해야 한다는 사실을 절감하게 된다. 결국 피지컬 AI는 부품, 액추에이터, 배터리, 반도체, 센서, AI 모델, 제조 현장, 시뮬레이션, 운영 시스템이 하나로 맞물려야 작동하는 풀스택 산업이기 때문이다. 이런 맥락에서 한 국가 안에 핵심 가치사슬 생태계가 집적돼 있다는 점은 매우 강력한 경쟁우위다. 한국은 바로 그 드문 조건을 갖춘 나라 중 하나다.

sr2_2


그렇다면 미국과 중국은 어떨까. 냉정하게 말하면 두 국가는 이미 피지컬 AI 전장에서 한국보다 훨씬 앞서 있다. 미국은 AI 모델과 플랫폼에서 압도적인 우위를 갖고 있다. 엔비디아는 시뮬레이션, 월드모델, 로봇 학습 인프라를 빠르게 장악하고 있고 테슬라와 피규어 AI(Figure AI), 1X 같은 기업들은 휴머노이드 상용화를 눈앞에 두고 있다. 미국이 피지컬 AI의 ‘두뇌’와 ‘학습 플랫폼’을 선점하려 한다면 중국은 제조 속도와 부품 생태계를 기반으로 앞서 나가고 있다. 필요한 부품을 빠르게 조달해 시제품을 만들고 현장 피드백을 반영해 다시 개선하는 중국의 실행력은 매우 위협적이다. 중국 내 휴머노이드 기업만 수백 개에 달한다.

미국과 중국이 구축 중인 생태계의 밀도와 실행 속도에 비하면 한국의 피지컬 AI 경쟁력은 아직 초기 단계에 가깝다. 최근 국내 주요 대기업 총수들과 정부 관계자들이 중국의 휴머노이드 기업 애지봇(AGIBOT)을 직접 찾아가 현장을 살펴본 것은 이 전장에서 한국이 느끼는 위기감과 중국과의 격차를 단적으로 보여준다. 한국이 뒤처진 이유는 단순히 기술력이 부족해서만은 아니다. 더 근본적인 문제는 피지컬 AI가 성장할 수 있는 산업 생태계의 밀도와 작동 방식이 아직 충분히 성숙하지 못했다는 데 있다.

우선 출발 시점부터 차이가 있었다. 미국과 중국은 훨씬 이른 시기부터 자율주행, 로봇, AI 반도체, 시뮬레이션, 데이터 수집 인프라를 하나의 산업 축으로 보고 움직여왔다. 반면 한국에서는 피지컬 AI라는 개념 자체가 산업계에서 충분히 공유되지 못했다. 필자들이 2023년 피지컬 AI 사업을 본격적으로 추진하려 했을 때만 해도 국내에서는 이 기술이 왜 중요한지, 앞으로 어떤 산업을 바꿀 수 있는지에 대한 이해와 공감대가 거의 형성돼 있지 않았다. 기술을 설명하기에 앞서 ‘왜 지금 피지컬 AI를 개발해야 하는가’부터 설득해야 하는 상황이었던 셈이다.

이런 인식의 지연은 곧 생태계의 지연으로 이어졌다. 피지컬 AI는 소프트웨어처럼 빠르게 만들어 배포하는 산업이 아니다. 로봇 본체, 센서, 액추에이터, 배터리, 에지 반도체, 시뮬레이션 환경, 실제 현장 실증까지 모두 필요하다. 한 번 만든다고 끝나는 것도 아니다. 현장에 투입하고, 실패하고, 고치고, 다시 데이터를 모으는 과정을 반복해야 한다. 하지만 국내 스타트업 상당수는 이 반복을 견딜 만큼의 자본과 시간을 확보하기 어려운 상황이다. 기술의 가능성을 증명하기도 전에 자금 조달의 벽에 부딪히는 경우가 많다.

규제와 실증 환경의 부족도 큰 한계다. 현재의 로봇 규제와 안전 기준은 과거 산업용 로봇이나 협동로봇을 기준으로 설계된 경우가 많다. 정해진 공간에서 반복 작업을 수행하는 기계에는 적합하지만 스스로 보고 판단하며 움직이는 피지컬 AI에는 들어맞지 않는 경우가 많다. 특히 피지컬 AI는 실제 현장에서 영상, 센서, 위치, 행동 데이터를 지속적으로 축적해야 비로소 발전할 수 있는 기술이다. 그런데 기업 입장에서는 기술 실험에 앞서 법적 리스크부터 걱정해야 하는 상황이 빈번하다. 그나마 다행인 점은 이런 문제의식이 생각보다 빠르게 공유되고 있다는 점이다. 정부 차원의 지원 계획이 구체화되고 있고, 산업계 역시 피지컬 AI를 더 이상 먼 미래의 기술이 아닌 당장 준비해야 할 전략 산업으로 인식하기 시작했다.

더욱 주목할 대목은 피지컬 AI 패권을 다투는 미국과 중국 역시 한국과 비교했을 때 분명한 약점을 안고 있다는 사실이다. 미국은 세계 최정상의 기술을 보유하고 있지만 이를 대규모로 투입해 실제 현장 데이터를 확보하기 위한 제조 현장이 많지 않다. 반대로 중국은 압도적인 제조 생태계와 속도전을 자랑하지만 첨단 반도체에 대한 접근성이 차단된 지경학적 한계를 극복해야 한다. 글로벌 시장의 신뢰 부족 역시 중국발 피지컬 AI가 세계 시장으로 확장하는 데 제약으로 작용한다. 한국은 이 틈에서 기회를 잡아야 한다. 미국에 상대적으로 부족한 제조 역량을 제공하는 핵심 가치사슬 공급자로서 자리 잡는 동시에 중국을 대체할 수 있는 신뢰 가능한 피지컬 AI 협력 국가로 빠르게 존재감을 확보해야 한다. 한국이 보유한 부품, 액추에이터, 배터리, 반도체 등 피지컬 AI 핵심 가치사슬들을 잘 엮어 집중적으로 발전시킨다면 경쟁의 양상은 분명 달라질 수 있다. 정부가 선언한 ‘2030년까지 피지컬 AI 세계 1위 국가로의 도약’이 단순한 구호만은 아니라고 확신한다.

sr2_3



피지컬 AI의 병목과 가치사슬 재정의

그렇다면 한국이 피지컬 AI 1위 국가로 도약하기 위해서는 무엇이 필요할까? 바로 가치사슬의 재정의다. 필자들도 국내에서 비교적 이른 시기에 피지컬 AI의 상용화를 직접 경험하다 보니 기존 휴머노이드 분야에서 통용되던 관점과 공식이 빠르게 달라지고 있다는 사실을 체감할 수 있었다. 특히 기존 LLM 경쟁과는 다른 피지컬 AI 가치사슬이 새롭게 정의되고 있으며 데이터, 하드웨어, 인프라가 피지컬 AI 상용화 과정에서 반드시 넘어야 할 핵심 병목으로 작용하고 있다. 이 병목과 기존 산업의 관성과는 다른 피지컬 AI만의 가치사슬 변화를 정확히 읽어내야 구체적인 실행 전략을 도출할 수 있다. 피지컬 AI 상용화의 핵심 병목은 다음과 같다.

1. 데이터 수집 병목: 데이터 수집에 왕도는 없다

피지컬 AI가 산업 현장에 적용되려면 로봇을 실제 조종하며 축적한 고품질 행동 데이터가 필요하다. 문제는 이런 행동 데이터를 모으는 일이 생각보다 훨씬 어렵다는 점이다. 피지컬 AI의 대표적 성공 사례로 자주 거론되는 테슬라의 자율주행을 떠올려보자. 테슬라는 차량을 먼저 시장에 보급하고, 고객이 실제 도로를 달리는 과정에서 축적한 대량의 주행 데이터를 바탕으로 완전자율주행(FSD) 모델을 개발했다. 그러나 이런 자율주행의 성공 공식이 테슬라의 휴머노이드인 옵티머스에서는 통하지 않고 있다. 자동차는 고객이 일상적으로 차량을 운행하는 동안 데이터가 자연스럽게 쌓이지만 휴머노이드 데이터는 실제 사람이 조종해 작업을 수행해야만 만들어지기 때문이다.

이런 이유로 최근에는 물리 세계의 변화를 내부적으로 예측하고 시뮬레이션하는 월드모델이나 시뮬레이션 기반 합성데이터를 통해 행동 데이터 부족 문제를 해결하려는 시도도 활발하다. 다만 이런 방식들이 데이터 병목을 단숨에 우회할 수 있는 지름길은 아니다. 월드모델은 피지컬 AI 상용화를 앞당기는 강력한 보조 엔진이지 실제 현실 로봇의 행동 데이터를 완전히 대체할 수 있는 것은 아니기 때문이다.

sr2_4


여기서 우리는 과거 LLM 발전 과정에서 이미 한 차례 경험한 교훈을 다시 한번 되새겨야 한다. 오픈AI가 챗GPT를 출시하기 전까지 대부분의 기업은 LLM의 가능성을 높게 보지 않았다. 다른 연구자들이 모델 아키텍처의 근본적인 한계를 지적할 때 묵묵히 데이터를 축적한 오픈AI가 결국 챗GPT라는 인류 역사를 완전히 바꿔놓은 서비스를 내놓을 수 있었던 것이다. 우리가 주목해야 할 점은 이 성공 방정식이 창의적인 기술의 승리가 아닌 방대한 데이터를 집요하게 축적하고 학습시킨 우직한 데이터 노동의 승리였다는 점이다. 피지컬 AI도 다르지 않다. 로봇 역시 좋은 AI 모델 아키텍처 하나를 개발했다고 갑자기 동작을 잘 수행할 수 있는 건 아니다. 물건을 어떻게 잡아야 하는지, 얼마나 힘을 주고, 실패했을 때 어떻게 대처해야 하는지 등에 대한 데이터를 집요하게 쌓는다면 결국 강력한 경쟁력으로 이어질 가능성이 높다.

그렇다면 피지컬 AI 시대의 핵심인 데이터 해자를 쌓기 위해 가장 필요한 것은 무엇일까? 노트북 한 대만 있어도 만들 수 있는 LLM 데이터와 달리 로봇 행동 데이터는 실제 로봇은 물론이고 작업대, 도구, 센서, 텔레오퍼레이션 장비가 갖춰진 별도의 환경이 필요하다. 이런 맥락에서 등장한 개념이 피지컬 AI 데이터 팩토리다. 중국의 휴머노이드 로봇 기업 ‘애지봇(AgiBot)’은 상하이 푸둥에 로봇 수백 대가 함께하는 작업 공간을 마련해 매일 데이터를 생성하고, 이 데이터 팩토리를 전국적으로 확산하고 있다. 독일 역시 2026년 뮌헨공과대와 뉴라로보틱스가 협력해 세계 최대 규모의 로봇 훈련센터인 ‘TUM 로보짐’ 건설을 천명했다.

피지컬 AI 시대의 주요 전략 자산인 데이터를 축적하기 위해 세계 각국이 움직이고 있는 것이다. 한국 역시 실제 산업 현장에서 행동 데이터를 대규모로 생성·축적·검증할 수 있는 국가 차원의 데이터 팩토리 인프라 구축에 나설 필요가 있다. 기업 입장에서도 데이터 팩토리는 정부가 만들어주길 기다릴 대상이 아니다. 기업이 가진 생산 현장은 그 자체로 피지컬 AI 데이터 자산이 될 수 있다. 로봇 도입을 단순한 자동화 실험으로 끝낼 것이 아니라 작업 과정에서 발생하는 데이터를 체계적으로 축적하는 구조까지 함께 설계해야 한다. 피지컬 AI 시대에는 생산 현장을 가진 기업이 곧 데이터 해자를 가진 기업이 될 수 있다.

sr2_5


2. 하드웨어 병목: 로봇은 이제 데이터 수집 장비다

피지컬 AI를 상용화하는 과정에서 의외의 핵심 병목은 사람이 원격 조작하는 텔레오퍼레이션(Teleoperation)이다. 사람이 로봇을 조종할 때 팔이 어색하게 움직이면 그 움직임이 그대로 학습 데이터가 된다. 텔레오퍼레이션 시스템이 느리거나 떨리고 조작감이 부자연스러우면 모델은 ‘좋은 작업 방식’만이 아니라 불안정한 움직임과 조작자의 보정 습관까지 함께 배워버린다. 이것이 피지컬 AI 개발의 까다로운 부분이다. 로봇이 AI로 자동화할 대상이기도 한 동시에 데이터 수집 장비이기 때문이다. 하드웨어나 텔레오퍼레이션 시스템이 불안정하면 데이터 품질이 떨어지고, 데이터 품질이 떨어지면 모델 성능도 흔들린다. 결국 하드웨어의 병목이 그대로 피지컬 AI의 병목이 되는 셈이다.

그동안 휴머노이드 개발사들은 상대적으로 텔레오퍼레이션의 품질에 크게 투자하지 않았다. 어차피 자동화해야 하는 기존 로봇에 사람이 원격으로 조종하는 기능은 크게 중요한 기술이 아니었기 때문이다. 하지만 피지컬 AI의 데이터 수집이라는 패러다임이 등장하면서 상황이 바뀌었다. 이제 텔레오퍼레이션은 임시방편이 아니라 로봇을 학습시키기 위한 핵심 인터페이스가 됐다. 사람이 로봇을 부드럽고 직관적으로 조종해야 좋은 행동 데이터가 쌓이고, 좋은 데이터가 쌓여야 모델이 제대로 학습할 수 있기 때문이다. 완전 자율화로 가기 위해서는 역설적으로 사람이 먼저 로봇을 잘 조종할 수 있어야 하는 것이다.

실제로 필자가 글로벌 1위 수술 로봇 기업 ‘인튜이티브 서지컬(Intuitive Surgical)’의 다빈치(da Vinci) 시스템을 직접 체험했을 때 처음 조종해봤음에도 불구하고 내 손을 움직이는 것처럼 자연스럽게 로봇을 움직일 수 있었다. 이 수술 로봇으로 수많은 의사가 지금도 정교한 수술을 집도하고 있다. 조금만 시술이 어긋나도 환자의 생명과 직결되는 의료 현장에서 활용되고 있다는 사실은 고품질 텔레오퍼레이션 시스템이 얼마나 정교한 행동 데이터를 만들어낼 수 있는지를 보여주는 사례이기도 하다. 의료 현장에서 안정적으로 쓰일 수 있다면 일상생활이나 제조 현장에서 일반적으로 사람들이 수행하는 작업은 충분히 가능할 것이다.

결국 피지컬 AI 시대의 로봇 하드웨어는 단순히 더 강한 힘이나 더 화려한 동작을 구현하는 데서 나아가 어떻게 하면 더 좋은 데이터를 안정적으로 수집할 수 있을지에 초점을 맞춰야 한다. 작업자가 오랜 훈련 없이도 직관적(Intuitive)으로 조종할 수 있어야 하고, 로봇은 사람의 의도에 따라 민첩하게(Agile) 움직이며, 흔들리지 않고 안정적(Robust)으로 세밀한 작업을 수행할 수 있어야 한다. 다시 말해 피지컬 AI 시대의 하드웨어 경쟁력은 단순한 기계 성능이 아니라 ‘얼마나 좋은 학습 데이터를 만들어낼 수 있는가’로 재정의되고 있는 셈이다. 로봇 기업들이 텔레오퍼레이션을 부가 기능처럼 다룰 것이 아니라 학습 데이터의 품질을 좌우하는 핵심 제품 역량으로 보고 집요하게 다듬어야 하는 이유다.

3. 학습·추론 인프라 병목: 피지컬 AI 인프라의 문법은 LLM과 다르다

대규모 월드모델을 개발하며 흔히 부딪히는 고민은 ‘막대한 규모의 데이터를 어디에 쌓아둘 것인가’다. 피지컬 AI의 데이터는 대부분 영상과 센서 데이터로 구성되는데 LLM 학습에 주로 쓰였던 텍스트 데이터와는 규모 자체가 다르다. 여러 대의 카메라와 깊이 및 힘-토크 센서, 로봇 상태값, 텔레오퍼레이션 로그, 작업 메타데이터 등이 쌓이면 데이터 규모는 금방 PB(페타바이트)4 단위로 커진다. 이렇게 쌓인 데이터를 저장하는 것 자체도 문제지만 더 큰 문제는 학습할 때마다 이 데이터를 서버로 옮기는 과정에서 발생한다. 페타바이트 단위의 데이터를 한 번 옮기려면 엄청난 시간이 소요된다. 가령 1PB 데이터를 10Gbps 네트워크로 이론상 최대 속도로 전송해도 약 9일 이상이 걸린다. 10PB면 세 달, 50PB면 1년이 훌쩍 넘는다. 결국 한 번의 학습을 위해 데이터를 옮기다 보면 정작 학습보다 데이터 전송에 더 많은 시간이 소모되는 상황이 벌어진다. 데이터 전송 비용도 문제다. PB 단위의 데이터를 한 번 옮기는 데 억 단위의 전송 비용이 든다. 이런 규모의 데이터를 단 한 번만 옮겨봐도 우리가 그동안 너무나 당연하게 무제한이라 생각했던 데이터 통신 비용이 결코 공짜 자원이 아니라는 사실을 실감할 것이다.

sr2_6


따라서 피지컬 AI를 위한 데이터센터는 LLM과 달라야 한다. LLM을 개발할 때는 데이터를 저장하는 곳과 학습하는 곳을 물리적으로 분리할 수 있었다. 그러나 피지컬 AI 개발을 위해서는 데이터 저장과 학습을 한곳에서 처리하는 것이 효율적이다. 데이터가 쌓이는 곳에서 바로 정제하고, 학습하고, 시뮬레이션 검증까지 이어지는 피지컬 AI 전용 데이터센터 구축이 시급한 상황이다.

추론 인프라의 문법도 완전히 변하고 있다. LLM 시대에는 누가 뭐래도 엔비디아의 CUDA 생태계 위에서 범용성을 확보하는 것이 강력한 전략이었다. 특정 칩에 맞춰 어렵게 최적화해 속도를 두 배 높이느니 차라리 엔비디아의 GPU를 두 배 증설하는 편이 효율적이었다. 모델과 서비스가 시시각각 변하고, 무수한 실험을 반복해야 했기 때문이다. 하지만 피지컬 AI는 데이터센터를 벗어나 로봇의 몸 위에서 작동한다. 로봇은 데이터센터처럼 전력과 냉각을 무한정 제공할 수 없다. 배터리 용량은 한정돼 있고 발열과 무게의 제약도 크다. 무엇보다 로봇의 판단 지연은 LLM의 단순한 응답 속도 저하에 그치지 않는다. 동작이 어색해지거나 흔들림이 발생하며 심각한 안전 문제로까지 직결될 수 있다.

결국 피지컬 AI의 지능은 현장과 가장 가까운 곳, 즉 기기 내부에서 직접 작동해야 한다. 이를 온디바이스 AI라 한다. 이 세계에서는 ‘모델이 커지면 GPU를 더 쓰면 된다’는 논리는 통하지 않는다. 좋든 싫든 로봇에 들어가는 작은 칩의 제한된 성능 안에 어떻게든 모델을 구현해야 한다. 따라서 피지컬 AI에서는 범용성보다 최적화가 더 중요한 가치가 된다. 기기 종류, 탑재된 센서, 수행 목적에 맞춰 모델과 칩, 제어 구조를 촘촘하게 설계해야 한다. 개발 난도는 훨씬 높아지지만 한번 경량화·최적화를 마치면 동일한 구조를 반복적으로 복제해 수십만 대의 로봇에 탑재할 수 있다는 장점이 있다. 이런 맥락에서 엔비디아 CUDA의 범용성과 호환성은 더 이상 피지컬 AI 생태계를 지배하는 유일한 논리가 아니다. GPU보다 쓰기 불편하고 제약도 많지만 저전력·저발열 환경에서 높은 효율을 낼 수 있는 NPU 같은 AI 반도체가 주목받는 이유도 여기에 있다.

NPU와 온디바이스 AI 기업이 이 시장을 선점하려면 단순한 범용 성능 경쟁을 넘어 제한된 칩 환경에서 모델을 끝까지 밀어붙일 수 있는 최적화 구조를 제공해야 한다. 카메라, IMU, 마이크, 라이다 등 다양한 센서 입력을 처리할 때 불필요한 연산을 줄이고 모델 구조와 양자화 방식, 메모리 사용까지 세밀하게 조율할 수 있어야 경쟁 우위를 확보할 수 있다. 피지컬 AI 시대의 핵심은 가장 규모가 큰 모델을 탑재하는 것이 아니다. 작은 칩 안에서 필요한 모델을 최대한 가볍고 빠르게 구동하고, 낮은 전력과 짧은 지연 시간 안에서 안정적인 실시간 추론을 구현하는 능력이다.

결국 기업들은 기존의 문법과 전혀 다른 피지컬 AI 가치사슬의 재편 구조를 깊이 이해해야만 구체적인 실행 전략을 도출할 수 있다. 데이터, 하드웨어, 인프라라는 세 가지 병목을 어떻게 풀어내느냐에 따라 피지컬 AI 산업에서 각 기업의 경쟁력과 위치가 결정될 것이다.


피지컬 AI 시대, 기업을 위한 제언

1. 유연한 폼팩터에 접근하라

피지컬 AI 도입을 위해 반드시 사람과 똑같이 생긴 휴머노이드가 필요한 것은 아니다. 두 발로 걷고, 사람처럼 손을 사용해 물건을 다루는 로봇은 분명 인상적이지만 산업 현장에서 반드시 필요한 최적의 형태는 아니다. 제조 공장 현장을 예로 들어보자. 이족보행이 꼭 필요한 환경이 아니라면 대부분의 공장에서는 배터리 효율이 좋은 바퀴 달린 로봇이 훨씬 실용적이다. 손도 마찬가지다. 사람처럼 다섯 손가락을 정교하게 구현하지 않더라도 특정 작업을 안정적으로 반복할 수 있는 적절한 엔드이펙터(end-effector)5 를 적용하면 고장률을 크게 낮출 수 있다.

sr2_7


일례로 미국 로봇 AI 스타트업 제너럴리스트AI(Generalist AI)는 사람처럼 걷는 휴머노이드를 개발하는 데 주력하기보다 산업 현장에 곧바로 투입할 수 있는 로봇 팔과 그리퍼 기반의 실용적 폼팩터를 택해 범용 로봇 지능을 학습시키고 있다. 제너럴리스트AI의 로봇은 사람 외형이 아닌 여러 로봇 팔과 그리퍼가 다양한 물체를 집고, 옮기고, 조작한다. 실제로 산업 현장의 많은 작업은 손가락 세 개만으로도 충분한 경우가 많다. 때론 흡착 그리퍼 같은 특수 형태의 엔드이펙터가 사람 손보다 더 뛰어난 성능을 발휘하기도 한다. 사람이 도구를 쥐고 수행하는 작업을 로봇이 대신해야 한다면 굳이 사람 손을 모방하기보다 해당 도구 자체를 로봇 팔에 결합하는 편이 더 효율적이다.

수많은 휴머노이드 기업이 있지만 기업이 가진 고유의 문제를 풀기에 적합한 로봇을 찾아보긴 어려운 실정이다. 그 이유는 산업 현장의 작업 환경과 요구 조건이 생각보다 훨씬 다양하기 때문이다. 제조·물류·농업·건설·의료 등 각 산업은 작업 방식과 공간 구조, 안전 기준, 필요한 정밀도와 속도가 모두 다르다. 따라서 모든 환경을 하나의 범용 휴머노이드로 해결하겠다는 접근보다는 각 산업 현장에 최적화한 폼팩터를 선정하는 게 중요하다. 예를 들어 건설 현장처럼 지면이 고르지 않고 장애물이 많은 공간에서는 사족보행이나 특수 이동 플랫폼이 더 적합할 수 있다. 농업 분야 역시 과일 수확처럼 섬세한 작업이 필요한 영역에서는 사람 손과 유사한 구조가 도움이 될 수 있지만 반복적인 운반 작업 등은 단순한 엔드이펙터가 더 안정적이고 유지보수 비용도 낮을 것이다.

따라서 기업들은 ‘어떤 휴머노이드가 가장 사람과 비슷한가’를 경쟁적으로 따질 것이 아니라 ‘우리 산업의 작업 환경에 가장 적합한 폼팩터가 무엇인가’를 먼저 고민해야 한다. 결국 중요한 것은 산업 현장의 작업을 안정적으로 수행할 수 있는 최적의 폼팩터를 선정하는 유연함이다. 이를 위해서는 실제 현장에서 작업 데이터를 반복적으로 수집하고, 이를 기반으로 모델을 개선한 뒤 다시 현장 성능 향상으로 연결하는 폐루프(Closed-loop)를 구축해야 한다. (그림 6) 폐루프를 통한 반복 학습과 검증 과정에서 특정 산업과 작업 환경에 최적화된 폼팩터가 도출될 가능성이 높다.

sr2_8


2. 데이터 수집을 비즈니스 모델로 전환하라

많은 기업이 피지컬 AI 데이터를 신사업을 위해 감수해야 할 비용으로 본다. 로봇을 사고, 센서를 달고, 사람을 붙이고, 저장소를 마련해야 하니 비용처럼 보일 수 있다. 그러나 관점을 바꾸면 데이터 수집은 비용이 아닌 비즈니스 모델이 된다. 일례로 국내 요양보호사 플랫폼 기업 가운데 일부는 요양·돌봄 서비스 과정에서 축적되는 생활 작업 데이터를 새로운 전략 자산으로 바라보고 있다. 요양보호사가 수행하는 대부분의 업무는 정리, 이동 보조, 생활 지원 같은 가사 노동과 맞닿아 있다. 다시 말해 돌봄 서비스에 텔레오퍼레이터를 투입해 운영하는 과정 자체가 미래 가사 휴머노이드에 필요한 행동 데이터를 축적하는 구조가 될 수 있다. 나아가 이렇게 확보한 데이터를 기반으로 직접 가사 로봇을 개발하거나 데이터를 글로벌 빅테크 기업에 공급하는 사업 모델까지 가능해질 수 있다.

흔히 기업들은 데이터를 충분히 모아 성능을 끌어올린 뒤에야 로봇을 현장에 투입하려 한다. 하지만 로봇을 현장에 투입하지 않고서는 양질의 데이터를 확보할 수 없다. 결국 데이터가 부족하니 로봇의 성능이 개선되지 않고 자연스레 현장에도 투입되지 않는 악순환이 반복된다. 마치 ‘닭이 먼저냐, 달걀이 먼저냐’ 같은 패러독스가 피지컬 AI 산업을 지배하고 있는 셈이다.

바로 이 지점에서 기존의 상식을 뒤집는 역발상이 필요하다. 핵심은 완전 자율화된 로봇이 등장할 때까지 기다리는 대신, 초기부터 로봇을 실제 서비스 현장에 투입하는 것이다. 초기에는 사람 작업자가 텔레오퍼레이션을 통해 로봇을 원격 조작하며 제조 공정이나 물류 작업 같은 서비스를 제공할 수 있다. 이 과정 자체가 대규모 행동 데이터를 축적하는 데이터 생산 구조다. 작업 과정에서 영상 데이터, 제어 명령, 관절값, 힘·토크 데이터, 작업 성공 여부, 실패 상황 및 복구 행동 등의 고품질 행동 데이터가 지속적으로 쌓이고, 이는 다시 모델 학습으로 연결된다. 즉 현장에 투입한 로봇이 대규모 데이터를 수집하고, 이렇게 확보한 데이터가 다시 로봇의 자율화를 앞당기는 구조가 형성되는 것이다.

물론 초기에는 텔레오퍼레이터 인건비와 운영비가 부담으로 작용하겠지만 시간이 지나 데이터가 쌓이면 모델 성능이 올라가고 로봇이 자율적으로 수행할 수 있는 작업의 비중도 높아질 것이다. 그렇게 되면 한 명의 텔레오퍼레이터가 더 많은 로봇을 담당할 수 있고 로봇 1대당 운영비는 낮아진다. 운영비가 낮아지면 마진이 개선되고, 개선된 수익성은 더 많은 로봇의 현장 투입을 가능케 한다. 그리고 이는 다시 더 많은 데이터를 만들어낸다. 이때부터 피지컬 AI 사업은 선형적으로 성장하지 않는다. 데이터가 성능을 높이고, 성능이 수익성을 높이며, 수익성이 다시 데이터 확보 속도를 끌어올리는 J커브를 그릴 것이다. (그림 7)

sr2_9


이미 미국에서는 이 같은 접근이 가정용 로봇 시장에서 먼저 등장하고 있다. 대표적인 사례가 오픈AI가 투자한 휴머노이드 기업 1X 테크놀로지스(1X Technologies)다. 1X는 가정용 휴머노이드 로봇 NEO를 월 499달러에 이용할 수 있는 구독 모델로 제시했는데 여기서 더 주목해야 할 점은 복잡한 작업의 경우 1X의 전문가가 원격으로 개입하는 ‘Expert Mode’를 함께 선보였다는 점이다. 이는 로봇을 완전 자율화한 뒤 시장에 내놓는 방식이 아니라 먼저 실제 사용 환경에 투입하고 인간의 원격 개입을 통해 서비스를 제공하면서 점진적으로 성능을 고도화하는 모델에 가깝다.

다만 1X의 모델은 가정용 로봇이라는 특성상 뚜렷한 한계를 안고 있다. 원격 개입을 전제로 한다는 것은 곧 집이라는 가장 사적인 공간에 외부 조종자의 개입을 허용한다는 의미이기 때문에 불편함을 유발할 수 있다. 가정은 공간 구조와 생활 방식이 제각각인 데다 사생활에 대한 민감도도 높다. 따라서 가정용 로봇은 기술적 가능성과 별개로 프라이버시와 사용자 수용성이라는 장벽 탓에 대중 시장으로 빠르게 확산되기 어려울 수 있다.

반면 한국이 강점을 가진 제조 분야는 오히려 이런 사업 모델을 구현하기에 더 유리하다. 제조 현장은 가정과 달리 작업 공간이 비교적 통제돼 있고, 수행해야 할 작업도 반복적이며, 성과를 생산성, 불량률, 작업 시간, 비용 절감 등으로 명확히 측정할 수 있다. 무엇보다 기존의 규칙 기반 자동화 기술만으로는 해결하기 어려워 여전히 인간의 숙련과 판단에 의존해온 공정들이 곳곳에 남아 있다. 바로 이 영역이 피지컬 AI가 막대한 경제적 가치를 만들어낼 수 있는 지점이다.

3. 이동하는 병목을 다루는 풀스택 리더십을 갖춰라

마지막으로, 피지컬 AI 시대를 준비하는 경영자들에게 ‘피지컬 AI는 풀스택 산업’이라는 점을 강조하고 싶다. 풀스택이란 한 부분이 아니라 처음부터 끝까지 연결된 전체 시스템을 통합하는 것을 뜻한다. 피지컬 AI는 단순히 뛰어난 AI 모델을 개발하거나 정교한 로봇 하드웨어를 만드는 것만으로 경쟁우위를 확보할 수 있는 산업이 아니다. 로봇이 실제 산업 현장에서 안정적으로 작동하고 지속적으로 성능을 고도화하기 위해서는 로봇이 학습할 수 있는 양질의 행동 데이터가 축적돼야 하고, 이를 정밀하게 구현할 수 있는 센서·모터·배터리 같은 하드웨어가 뒷받침돼야 한다. 동시에 방대한 데이터를 저장하고 학습시키며 실시간으로 추론할 수 있는 컴퓨팅 인프라 역시 필수적이다. 여기에 더해 실제 제조·물류·의료·서비스 현장에 로봇을 투입하고 운영하면서 발생하는 다양한 변수와 문제를 관리하는 현장 운영 역량까지 갖춰져야 비로소 피지컬 AI는 하나의 산업으로 작동할 수 있다.

이런 맥락에서 가장 주목할 만한 사례는 테슬라다. 테슬라는 휴머노이드 로봇 옵티머스(Optimus)를 단순한 하드웨어 제품으로 접근하지 않는다. 로봇의 AI 모델, 비전 인식, 행동 계획, 온보드 추론 구조는 물론 액추에이터와 센서, 손 구조, 배터리, 제어 시스템까지 직접 설계하며 수직적으로 통합하고 있다. 테슬라가 옵티머스 Gen 2를 통해 자사가 직접 설계한 액추에이터와 센서를 강조한 점도 같은 맥락이다. 휴머노이드가 실제 산업 현장에서 오래 작동하려면 모델 성능이 좋은 것만으로는 부족하며 모델이 의도한 움직임을 하드웨어가 정밀하고 안정적으로 구현할 수 있어야 한다는 점을 보여준다.

sr2_10


휴머노이드 본체와 이를 제어하는 AI 모델을 함께 개발하는 미국의 대표적인 풀스택 로봇 기업인 피규어AI도 마찬가지다. 최근 피규어AI는 자사 휴머노이드 로봇들이 물류 작업 환경에서 소형 패키지를 분류하는 모습을 유튜브, 엑스(X) 등에 라이브로 공개하며 큰 화제를 모았다. 피규어AI가 공개한 영상에 따르면 휴머노이드 로봇이 3교대 방식으로 번갈아 가며 5월 18일 기준 100시간 이상 연속 택배 분류 작업을 처리하고 있다. 이 휴머노이드 로봇은 양손을 이용해 택배에 붙은 바코드가 아래 방향으로 향하도록 뒤집고, 택배가 컨베이어 벨트로 이동할 수 있도록 정리했다. 5월 19일 기준 처리한 택배 패키지는 15만 개를 넘어섰다.

잠들지 않고 24시간 깨어 일하는 휴머노이드에 대한 놀라움을 넘어 이 시연이 주는 시사점은 따로 있다. 휴머노이드 로봇이 현장에서 실제 노동력으로 기능하려면 모터와 액추에이터의 내구성, 배터리와 열 관리, 손과 팔의 정밀 제어, 카메라와 센서의 안정적 인식, 실패 상황을 복구하는 모델의 판단 능력, 작업 속도와 안전성을 조율하는 운영 시스템까지 모두 함께 맞물려야 한다는 점이다. 어느 한 요소만 뛰어나서는 제대로 작동하지 않는다. 결국 피지컬 AI의 경쟁력은 로봇의 몸과 지능, 운영 시스템을 얼마나 긴밀하게 통합하느냐에 달려 있다. 피지컬 AI가 본질적으로 풀스택 산업인 이유다.

이 대목에서 중요한 점은 피지컬 AI의 병목이 특정 한 곳에 고정돼 있지 않다는 점이다. 처음에는 데이터가 부족하지만 데이터를 모으기 시작하면 하드웨어의 한계가 드러난다. 하드웨어를 개선하면 이번에는 데이터 저장, 전송, 추론, 운영 문제가 따라온다. 따라서 데이터와 하드웨어, 인프라, 현장 운영이 하나의 선순환 구조로 맞물리도록 통합하는 역량을 확보할 필요가 있다. 피지컬 AI를 선도하고자 하는 리더에게 필요한 것은 정적인 관리 능력이 아니다. 현재 병목이 어디로 이동했는지를 정확하게 읽고 조직의 무게 중심을 빠르게 옮기는 능력이 중요하다. 현재 데이터를 더 모아야 할 때인지, 하드웨어를 다시 설계해야 할 때인지, 온디바이스 최적화를 앞당겨야 할 때인지, 현장 운영 방식을 바꿔야 할 때인지 등을 계속 판단해야 한다. 피지컬 AI의 리더십은 결국 끊임없이 이동하는 병목을 다루는 동적 조율 역량이다.

누군가에게 피지컬 AI는 아직 먼 미래처럼 느껴질 수 있다. 그러나 산업의 대전환은 늘 우리가 제대로 인식하지 못하는 사이에 진행되다가 어느 순간 기존 산업의 질서를 단숨에 뒤바꿨다. 피지컬 AI 역시 단순히 로봇 하드웨어를 판매하는 시장에 그치지 않을 가능성이 높다. 80억 인류의 육체노동이 대체될 수 있는 거대한 전환에 가깝다. 인간의 노동이 개인의 숙련에 의존하지 않고 기계가 학습하고 복제할 수 있는 대상으로 바뀌는 순간, 피지컬 AI는 인류 역사상 처음으로 경(京) 단위 규모의 거대한 시장으로 커질 것이다. 한국의 다음 도약 역시 인간의 손끝에 머물러 있던 산업의 노하우를 기계가 배우고, 축적하고, 다시 산업 경쟁력으로 환원하는 바로 그 지점에서 시작될 것이다.
  • 최홍섭

    마음AI 기술총괄 CEO

    최홍섭 대표는 서울대 물리학부와 행정대학원을 졸업했다. 2023년 전 세계가 ChatGPT에 주목하던 시기, 피지컬 AI의 잠재력을 일찍이 포착하고 관련 기술 개발을 진두지휘하며 국내 최초 상용화를 이끌었다. 베스트셀러인 『피지컬 AI 메가트렌드』의 저자로 정부와 기업을 대상으로 피지컬 AI의 기술적 본질과 산업의 큰 흐름, 다가올 미래에 대한 거시적 통찰을 제시하는 데 힘쓰고 있다.

    이 필자의 다른 기사 보기
  • 원미르

    마음AI 기술전략실장

    원미르 팀장은 성균관대에서 컬처앤테크놀로지를 전공했다. 이후 마음AI에 합류해 테크니컬 전략 업무를 담당하며 테크 세일즈와 전략기획 분야에서 전문성을 쌓아왔다. 국내 최초로 추진된 피지컬 AI 사업화의 최전선에서 팀을 이끈 경험을 바탕으로 『피지컬 AI 메가트렌드』를 공동 집필했다.

    이 필자의 다른 기사 보기
  • 정리=최호진hojin@donga.com

    동아일보 기자

    이 필자의 다른 기사 보기
인기기사

아티클 AI 요약 보기

GO

DBR 팟캐스트 Play

K-FOCUS TOP 5

지금 주목해야 할 산업과 기업 트렌드