🔥 Bessemer가 본 로보틱스 2026 — 데이터 자릿수가 모든 걸 가른다

#robotics#physical-ai#venture-capital#bessemer#ai-trends
1287자
16분

창고 안 산업 로봇들이 줄지어 늘어선 가운데 바닥 위로 뻗은 주황색 데이터 케이블이 로봇 사이를 가로지르는 편집 일러스트

세 숫자가 한 페이지에 같이 등장한다. 30만 시간. 10억 시간. 300조 개. 첫째는 전 세계가 모은 로봇 조작 데이터고, 둘째는 인터넷 영상이고, 셋째는 LLM이 먹은 텍스트 토큰이다. 영상 1시간을 1시간으로 세서 비교하면, 로봇이 본 세상은 인터넷 영상의 약 1/3,300 자릿수다. 자릿수 차이가 크면 게임의 모양이 달라진다.

Bessemer Venture Partners가 4월 16일에 발표한 로보틱스·물리 AI 6개 예측을 읽으면서 가장 오래 머문 자리가 거기였다. 보고서 자체는 6개 예측을 따로 펼치지만, 한 줄로 압축해 보면 이렇게 된다. 모델은 보였다, 데이터가 안 보인다, 그래서 LLM과 다른 게임이 펼쳐진다. 그 한 줄이 풀스택 베팅, 디펜스 IPO 예측, "거품이 아니라 underinvested"라는 결론까지 다 끌고 간다.

'GPT-2.5'라는 표현이 정확한 이유

Bessemer는 지금을 "GPT-2.5 moment"라고 부른다. 처음엔 다소 영리한 표현이라고 생각했는데, 보고서가 제시한 시연 목록을 따라가다 보니 왜 그렇게 부르는지가 점점 또렷해졌다.

Physical Intelligenceπ0 모델은 빨래 더미에서 옷가지를 골라 개는 시연을 공개했고, 이후 π0.7로 올라오면서는 UR5e 양팔 산업 로봇에서 같은 작업을 처음 해 보는 인간 텔레오퍼레이터 수준의 성공률로 해냈다. NVIDIA Research의 EgoScale 논문은 2026년 2월에, 인간 1인칭 영상 2만 시간으로 사전 학습한 비전-언어-액션 모델이 log-linear scaling law(R² = 0.9983)를 따른다는 결과를 내놨다. Meta의 V-JEPA 2는 단 62시간의 로봇 데이터만으로도 새 환경에서 zero-shot pick-and-place 성공률 65~80%를 보였다.

세 결과를 나란히 두면, 적어도 시연 단계의 진보는 진짜다. 그런데 Bessemer는 같은 페이지에서 한 박자 멈추고 이렇게 적는다.

"The demos are real. The underlying models are improving. The scaling laws that defined the LLM era are beginning to show up in robotics data. But generalized, reliable deployment in the physical world? That's still ahead of us."

핵심은 95%와 99.9% 사이의 길이다. 빨래를 99% 정확도로 개는 로봇은 100번 중 한 번씩 셔츠를 떨어뜨린다. 그게 데모에서는 귀엽지만, 공장 하루 24시간 가동에서는 매일 셔츠 14벌이 바닥에 떨어진다. Bessemer 포트폴리오 Argus Systems의 Lisa Yan이 보고서 안에서 한 말이 그래서 자꾸 떠올랐다. "We are nowhere near 'solving' the data problem in robotics. Closing the gap between 99% and 99.9% reliability is a steep hill climb."

GPT-2가 GPT-3.5로 가는 데 3년이 걸렸다는 점을 떠올리면, "GPT-2.5"라는 표현은 내게 이상하게 낙관적으로 들리기 시작했다. 시연이 잘 된다는 것과 프로덕션이 잘 돈다는 것은 다른 문제다.

막힘의 정체는 모델이 아니라 데이터 자릿수다

이 자리에서 보고서가 본격적으로 흥미로워진다. Bessemer는 99%와 99.9% 사이의 거리가 모델 아키텍처 문제가 아니라 데이터 수집 문제라고 단언한다. 그러면서 향후 2년간 로봇 데이터에 집계된 누적 비용이 30억 달러를 넘을 것으로 추산한다.

300K 시간 / 10억 시간 / 300조 토큰을 시각화한 막대 그래프 — 로봇 데이터의 자릿수 차이를 강조하는 인포그래픽

이 30억 달러가 어떤 크기인지 잠깐 계산해 봤다. 텔레오퍼레이션 한 시간에 인건비·하드웨어 감가상각·환경 셋업을 다 합치면 보수적으로 300달러쯤 잡힌다. 그러면 30억 달러는 1,000만 시간이다. 인터넷 영상 보유량의 1%다. 데이터 자릿수를 영상 수준으로 끌어올리는 데만 100배 더, 즉 3,000억 달러가 더 필요하다는 뜻이다. Bessemer가 "expensive moat"라고 적은 단어가 직관적으로 이해됐다. 모델은 Hugging Face에서 다운받아도, 데이터를 모으는 손은 다운받을 수 없다.

대안이 없는 건 아니다. V-JEPA 2처럼 인터넷 영상을 가져다 표현 학습 후 소량의 로봇 데이터로 미세조정하는 world model 접근, NVIDIA Cosmos가 10,000장의 H100을 3개월간 굴려 만든 사전학습 모델, 그리고 EgoScale처럼 사람 1인칭 영상을 로봇 정책으로 옮기는 transfer 레시피. 다만 이 모든 길에 대규모 GPU 자본이 같이 깔린다.

Bessemer 포트폴리오 Voxel51의 Brian Moore가 보고서에서 한 말이 데이터 측면의 thesis를 한 줄로 잘 줄여 둔다. "What separates the leaders from the hype in physical AI is this: they don't chase scale, they obsess over data quality." 데이터를 많이 모으는 회사가 이기는 게 아니라, 제대로 모으는 회사가 이긴다.

LLM과 다른 게임, 왜 풀스택이 단기 승자인가

자연스러운 질문이 이어진다. 그래서 LLM처럼 한 회사가 거대 파운데이션 모델을 만들어 API로 풀어 주면 시장 위에 가치가 쌓이는 거 아닌가? Bessemer는 단호히 그게 아니라고 답한다.

LLM은 텍스트라는 공통 모달이 있었다. OpenAI가 GPT-4를 만들면 그 위에 수만 개의 앱이 API 호출 한 줄로 올라갈 수 있었다. 로보틱스에는 그런 공통 모달이 없다. 부엌의 픽-앤-플레이스와 항만의 컨테이너 적재는 같은 vision-language-action 프레임으로 묶이지만, 실제로 작동하려면 각 도메인별 데이터·하드웨어 캘리브레이션·안전 검증·운영 인프라가 따로 필요하다. 이 자리에 가치가 쌓인다.

Foxglove의 Adrian Macneil이 보고서에서 한 말이 이 frame을 가장 또렷하게 짚는다. "The defining advantage in physical AI will not be model novelty, but the quality of the data infrastructure behind it." 모델 노블티가 아니라 데이터 인프라의 품질이 모트가 된다는 뜻이다. 그래서 Bessemer가 단기 승자로 지목한 건 (a) 자체 하드웨어를 가진 휴머노이드·산업 시스템 회사, 그리고 (b) 시판 하드웨어 위에 도메인 AI를 얹는 풀스택 플레이어다.

순수 파운데이션 모델 회사는 어떤가. Bessemer는 그쪽 베팅이 2028년 이후에야 결실을 맺을 거라 적었다. 인정할 만한 솔직함이다. 풀스택이 단기에 이긴다고 단정해 놓고도, horizontal foundation에 거는 회사들이 틀렸다고는 안 한다. 길이 두 갈래로 갈라진 자리고, 결실 시점이 다를 뿐이다.

DroneDeploy의 Mike Winn이 인용된 한 줄이 풀스택 측의 "왜 지금"을 잘 보여 준다. "건설 현장에서 몇 년 전 1대당 10만 달러였던 지상 로봇이 같은 워크플로우를 1만 5천 달러 미만에 돌린다. 도킹 드론은 20만 달러에서 2만 달러 미만으로 떨어졌다." 하드웨어 비용이 한 자릿수씩 떨어지는 자리에서, 가치는 그 위에서 도메인 데이터를 가진 회사에게 흐른다.

거품이 아니라 underinvested, 18배 적은 회사 30배 큰 시장

다섯 번째 예측 "No robotics bubble"이 이 보고서에서 가장 반직관적이다. 매 분기 Anduril이 600억 달러 가치로 라운드를 돌리고, Saronic이 92억 5천만 달러에 시리즈 D 17억 5천만 달러를 클로징하는 헤드라인이 도배된다. 이게 거품이 아니면 뭐가 거품일까.

Bessemer가 들이대는 숫자는 두 줄이다. 지난 5년간 3,000만 달러 이상 펀딩을 받은 소프트웨어 회사 745곳, 로보틱스 회사 42곳. 18배 차이. 그런데 글로벌 산업 자체로 보면 로보틱스 시장은 소프트웨어 지출의 약 30배 크기다. 자본은 1/18인데, 시장은 30배. 이 비대칭이 풀리려면 자본이 산업 평균까지 올라오기까지 한참 멀었다는 게 Bessemer의 진단이다.

여기에 한 겹이 더 얹힌다. 디펜스 로보틱스의 평균 시리즈 A 사후 평가는 2025년 1억 5백만 달러로, 비-디펜스 동급의 5천만 달러의 두 배가 넘는다. Goldman Sachs는 2035년 휴머노이드 시장만 380억 달러로 봤고, 그 추정치를 1년 만에 6배 상향했다. Bessemer는 그것조차 보수적이라고 답한다. 2025년 글로벌 휴머노이드 출하량의 약 90%가 중국산이라는 사실이, 미국 자본의 시점에서, 시장을 catch-up 시장으로 다시 그리게 만들었다.

Jeremy Levine이 인용된 한 줄을 처음 읽었을 때는 다소 과장으로 들렸다. "There will be 100,000x more robots on Earth in the next 10-20 years." 10만 배. 그런데 자본 18배·시장 30배·중국 90%라는 세 숫자를 옆에 두고 다시 읽으니, 적어도 그가 왜 그렇게 말하는지 frame이 잡혔다. 격차가 가장 큰 자리에 자본이 가장 적게 가 있다는 게, Bessemer 보고서의 한 줄짜리 결론이다.

거품처럼 보이는 자리가 실은 가장 비어 있다

내가 지금 이 보고서에서 가져갈 한 줄을 고르라면, π0의 시연 영상도 EgoScale의 R² 0.9983도 아니고, "거품처럼 보이는 헤드라인의 반대편이 실제 시장 모양"이라는 한 문장이다. AI에 대한 자본 집중이 전체 VC의 61%를 가져간 시기에, 그 거대한 흐름에서 가장 물리적인 모서리에 자본이 18배 덜 흐른다는 사실은 솔직히 평소엔 잘 안 보이는 자리다.

타임라인은 무겁다. Bessemer가 인용한 익명 시점들은 5년 이상이 기본이고, 99%와 99.9% 사이의 길은 누구도 짧게 약속하지 않는다. 그래도 자본 18배, 시장 30배, 시연 경사 R² 0.9983. 세 숫자가 같은 페이지에 같이 적혀 있는 산업은 흔치 않다. 다음 분기 어떤 회사가 Mahesh Krishnamurthi가 인용한 Q1 2026의 60억 달러 world-model 자본을 흡수했는지 따라가 볼 생각이다.

참고 자료

YouTube 영상

채널 보기
AI 추천 시스템의 원리, 벡터 사이의 각도와 코사인 유사도 | 선형대수학
AI를 위한 선형대수학 - 소개 | 선형대수학
우리가 매일 쓰는 맞춤법 검사기와 라우터 속에 숨겨진 알고리즘은? | Trie 자료구조 이야기
트라이(Trie)를 이용한 자동 완성 알고리즘 | Trie 자료구조 이야기
벡터의 정의와 덧셈 연산 | 선형대수학
직교성과 벡터 투영 | 선형대수학
트라이(Trie)에서 단어를 삭제하는 방법 | Trie 자료구조 이야기
인공지능은 세상을 어떻게 숫자로 읽는가? - 이미지, 소리 그리고 텍스트가 행렬이 되는 원리 | 선형대수학