로보터블, F&B 특화 양팔 휴머노이드 '제스트' 공개

30건. 로보터블(Robotable, F&B 로보틱스 전문 기업)이 CJ푸드빌, 빕스, 롯데 등 한국의 주요 외식 및 식품제조 기업에 공급해온 로봇 자동화 솔루션의 수치다. 이는 단순히 납품 실적을 넘어, 변수가 많은 실제 주방이라는 극한의 환경에서 로봇이 어떻게 작동하고 실패하는지를 기록한 30개의 거대한 실험실을 확보했다는 의미와 같다. 그리고 로보터블은 이 현장 데이터를 기반으로 단일 공정 로봇을 넘어선 양팔 휴머노이드 플랫폼 '제스트(Zest)'를 통해 조리 자동화의 다음 단계로 진입한다.

이번에 공개된 제스트는 단순히 팔이 두 개 달린 로봇이 아니다. 시각, 청각은 물론 후각과 열화상 정보까지 통합해 식재료의 상태 변화를 읽어내는 멀티모달 시스템을 갖췄다. 기존의 산업용 로봇이 정해진 좌표만을 반복해서 움직였다면, 제스트는 카메라로 팬과 뒤집개의 위치를 실시간으로 추정하고 그에 맞는 동작을 생성한다. 이는 조리 과정에서 발생하는 식재료의 변형이나 도구의 미세한 위치 변화라는 '불확실성'을 AI가 직접 해결하겠다는 시도다. 로보터블은 이를 통해 범용 휴머노이드가 도달하기 전, 특정 도메인에 특화된 피지컬 AI(Physical AI, 물리적 환경과 상호작용하는 AI)의 실용 가능성을 증명하려 한다.

2026 NRA 쇼와 양팔 휴머노이드 '제스트'의 제원

미국 시카고 매코믹 플레이스에서 개최된 2026 NRA 쇼(National Restaurant Association Show, 미국 최대 외식산업 박람회)의 전시 공간에는 양팔을 가진 휴머노이드 로봇 제스트(Zest)가 배치되었다. 제스트는 오픈암(Openarm, 오픈소스 매니퓰레이터)을 기반으로 설계된 양팔 구조의 로봇으로, 각 팔이 8자유도(8-DOF, Degree of Freedom)를 가져 총 16개의 관절 제어가 가능하다. 이러한 고자유도 구조는 조리 과정에서 발생하는 복잡한 각도 조절과 정밀한 도구 조작을 수행하기 위한 하드웨어적 선택으로 관찰된다. 특히 뒤집개와 같은 조리 도구를 파지하고 팬 위에서 식재료를 볶는 동작을 구현하기 위해 관절의 유연성과 정밀도를 확보한 점이 특징이다.

하드웨어의 핵심은 단순한 구동축의 확장이 아니라 센서의 유기적 통합에 있다. 제스트에는 RGB 카메라와 깊이 카메라, 그리고 열화상 카메라가 함께 탑재되어 시각적 정보와 온도 데이터를 동시에 수집한다. 여기에 냄새를 감지하는 전자코(e-nose)와 고해상도(HD) 마이크가 추가되어 조리 중 발생하는 후각적, 청각적 신호를 실시간으로 처리하는 멀티모달(Multimodal, 여러 형태의 정보를 동시에 처리하는 방식) 센서 모듈이 통합되었다. 이는 식재료의 익힘 정도나 타는 냄새, 튀김 소리의 변화와 같이 시각만으로는 파악하기 어려운 조리 도메인의 특수성을 데이터화하려는 의도로 분석된다.

로보터블은 개별 로봇의 제원을 넘어 통합 로봇 주방 플랫폼인 원키친(One Kitchen)의 컨셉 모형을 함께 선보였다. 이 플랫폼의 중추 역할을 하는 것은 ONE Kitchen OS(운영체제)다. 기존에 공급해온 국, 탕, 면, 튀김, 카페 등 공정별 특화 로봇들을 하나의 시스템으로 묶어 관리하는 구조를 제안한다. 원키친은 단순한 조리 자동화 도구를 넘어 실제 운영 환경에서 발생하는 멀티모달 조리 데이터를 수집하는 데이터 팩토리로서의 기능을 수행하도록 설계되었다. 각 공정 로봇에서 수집된 데이터가 OS를 통해 통합되고, 이것이 다시 제스트와 같은 휴머노이드의 학습 데이터로 연결되는 폐쇄 루프 구조를 지향한다.

이러한 제원 구성은 조리라는 특수 도메인에서 요구되는 물리적 상호작용을 코드로 구현하기 위한 실무적 기반이 된다. 엔비디아 아이작 랩(Isaac Lab)이나 구글 딥마인드의 무조코(MuJoCo) 같은 기존 시뮬레이터로는 학습하기 어려운 식재료의 물성 변화나 열에 의한 변수를 실제 센서 데이터로 피드백 받아 제어 루프에 반영하는 구조다. 이는 범용 모델이 모든 작업을 해결하기 전에, 특정 도메인에 특화된 하드웨어와 OS가 먼저 실용 단계에 도달할 수 있다는 전략적 판단이 반영된 결과로 보인다.

VLA 모델과 하이브리드 아키텍처의 동작 원리

제스트는 카메라로 장면을 인식해 도구의 위치를 추정하고 파지 동작을 생성한다. 좌표를 사전에 모두 입력하는 기존 룰베이스(Rule-based, 정해진 규칙에 따라 동작하는 방식) 산업용 로봇과 대비되는 지점이다. 여기에는 비전언어행동(VLA, Vision-Language-Action) 모델이 채택되었다. VLA 모델은 시각 정보와 언어 명령을 입력받아 로봇의 구체적인 행동으로 직접 변환하는 구조를 가진다. 이를 통해 로봇은 고정된 경로를 따라 움직이는 것이 아니라, 현재 눈앞에 놓인 뒤집개의 위치와 팬의 상태를 실시간으로 판단하며 최적의 움직임을 결정하는 능력을 갖춘다.

이러한 유연한 동작을 구현하기 위해 로보터블은 자체 텔레오퍼레이션(Teleoperation, 원격 조종) 데이터를 활용해 모델을 파인튜닝(Fine-tuning, 사전 학습된 모델을 특정 목적에 맞게 미세 조정하는 과정)했다. 조리 과정은 식재료의 변형이나 후각, 청각 신호, 그리고 열에 의한 물성 변화가 심해 엔비디아 아이작 랩(Isaac Lab)이나 구글 딥마인드의 무조코(MuJoCo) 같은 기존 시뮬레이터만으로는 정밀한 학습이 어려운 도메인으로 관찰된다. 따라서 실제 운영 중인 주방에서 수집한 멀티모달 데이터를 학습시켜 실제 조리 환경에 최적화된 행동 양식을 모델에 내재화하는 방식을 취했다.

전체 시스템은 VLA 모델과 보정 레이어, 그리고 작업 오케스트레이터(Task Orchestrator, 여러 작업을 조율하고 순서를 제어하는 장치)가 결합된 하이브리드 아키텍처로 구성된다. VLA 모델이 시각적 맥락을 파악해 거시적인 행동 방향을 제시하면, 보정 레이어가 물리적 오차를 실시간으로 수정하여 정밀한 제어를 수행한다. 동시에 작업 오케스트레이터가 전체 조리 공정의 순서와 흐름을 관리하며 각 단계의 전환을 제어한다. 이러한 계층적 구조는 딥러닝 모델의 확률적 특성에서 오는 불확실성을 제어 레이어가 보완함으로써, 실제 현장에서 요구되는 동작의 신뢰성과 안전성을 동시에 확보하는 장치로 작동한다.

실제 시연에서는 양팔로 뒤집개를 파지한 후 팬 위에서 양파를 볶는 일련의 동작이 실시간으로 구현되었다. 이는 단순히 사전에 정의된 궤적을 반복하는 것이 아니라, 도구의 파지부터 식재료의 이동까지의 전 과정을 실시간으로 생성해낸 결과다. 환경 조건이 매번 미세하게 달라지는 식당과 주방 환경에서 로봇이 스스로 장면을 인식하고 대응하는 능력은 자동화 가능 여부를 가르는 결정적인 차이로 분석된다. 데이터 기반의 VLA 모델이 생성한 행동 지침과 하이브리드 아키텍처의 정밀 제어가 결합되어 실전 조리 동작의 완성도를 높인 것으로 관찰된다.

룰베이스 로봇 및 기존 시뮬레이터와의 차별점

기존 산업용 로봇은 작업자가 미리 입력한 좌표값에 따라 정해진 궤적을 반복하는 룰베이스(Rule-based, 규칙 기반) 방식으로 동작한다. 정밀한 제어가 가능한 공장 라인과 달리 식당 주방은 도구의 위치가 수 센티미터만 어긋나도 작업 실패로 이어지는 비정형 환경이다. 제스트는 카메라로 주변 장면을 인식하고 도구의 위치를 실시간으로 추정한 뒤 파지 동작을 생성하는 구조를 취함으로써 이 문제를 해결한다. 팬 위에 놓인 양파의 위치나 뒤집개의 각도가 매번 달라지더라도 시각 데이터를 통해 보정된 동작을 수행하는 방식이다. 환경 조건이 매번 미세하게 변하는 실제 조리 현장에서 자동화의 성패를 가르는 지점은 바로 이러한 동적 인식과 대응 능력의 유무에서 갈린다.

가상 환경에서의 학습을 지원하는 엔비디아 아이작 랩(Isaac Lab, 로봇 시뮬레이션 플랫폼)이나 구글 딥마인드의 무조코(MuJoCo, 물리 엔진) 같은 시뮬레이터만으로는 조리 도메인의 복잡성을 완전히 재현하기 어렵다. 식재료는 가열 과정에서 부피가 줄어들거나 형태가 변하며, 열에 의한 물성 변화가 실시간으로 일어나는 특성을 가진다. 여기에 전자코(e-nose)나 마이크를 통한 후각, 청각 신호 같은 멀티모달 데이터가 결합되어야 하는 조리 작업의 특성상, 단순한 물리 엔진 기반의 시뮬레이션으로는 학습 데이터의 해상도를 높이는 데 한계가 관찰된다. 수학적 모델로 정의하기 어려운 식재료의 끈적임이나 익어가는 정도를 가상 세계에서 완벽히 구현하는 것은 현재의 기술 수준으로도 매우 까다로운 과제다.

로보터블은 이러한 시뮬레이션의 간극을 메우기 위해 실제 주방 운영 데이터를 수집하고 이를 다시 제스트의 학습으로 연결하는 폐쇄 루프(Closed-loop, 피드백 제어 루프)를 구축했다. 통합 로봇 주방 플랫폼인 원키친(One Kitchen)이 단순한 서비스 제공을 넘어 멀티모달 조리 데이터를 수집하는 데이터 팩토리 역할을 수행하는 구조다. 국이나 탕, 면, 튀김 등 다양한 공정에서 발생하는 실제 물리적 상호작용 데이터가 제스트의 비전언어행동(VLA, Vision-Language-Action) 모델 파인튜닝에 직접 활용된다. 범용 모델이 모든 작업을 해결하기 전, 조리라는 좁은 도메인에 특화된 모델을 통해 실용 단계에 먼저 도달하겠다는 전략이다. 현장에서 검증된 데이터가 모델의 정밀도를 높이고, 고도화된 모델이 다시 현장에 적용되어 데이터를 생성하는 선순환 체계를 통해 기술적 차별점을 확보한다.

도메인 특화 피지컬 AI가 가져올 실무적 변화

제스트는 모든 가사 노동을 수행하는 범용 휴머노이드가 아니라 조리라는 특정 환경에 집중한다. 이진욱 로보터블 최고기술책임자는 범용 휴머노이드 파운데이션 모델이 모든 작업을 해결하기 전, 좁은 도메인에 특화된 모델이 먼저 실용 단계에 도달할 가능성이 높다고 분석한다. 이는 광범위한 데이터를 학습시켜 평균적인 성능을 내는 방식보다, 특정 도메인의 깊은 데이터를 통해 즉각적인 현장 투입 가능성을 확보하겠다는 전략으로 관찰된다. 개발 효율성 측면에서도 모든 변수를 고려하는 범용 모델보다 제약 조건이 명확한 도메인 모델이 최적화 속도에서 우위를 점한다.

로보터블은 제스트를 완성된 상용 제품이 아닌 연구 시작점(Research Starting Point)으로 정의한다. 개발 방향은 조리 도메인 특화 피지컬 AI(Physical AI, 물리적 환경과 상호작용하는 인공지능)를 통해 도구 조작과 작업 오케스트레이션을 통합하는 것에 맞춰져 있다. 단순히 정해진 좌표로 팔을 움직이는 것이 아니라, 뒤집개 같은 도구를 어떻게 쥐고 어떤 순서로 식재료를 처리할지 결정하는 제어 로직을 고도화하는 과정이다. 이는 실무 관점에서 로봇의 동작 단위가 단순 좌표 제어에서 작업 단위의 오케스트레이션으로 전환됨을 의미하며, 코드 레벨에서는 개별 모션 제어 함수보다 상위 수준의 태스크 플래너 비중이 높아지는 변화를 가져온다.

이러한 특화 모델의 성능을 뒷받침하는 것은 원키친(One Kitchen, 통합 로봇 주방 플랫폼)이라는 데이터 팩토리 구조다. 원키친은 국, 탕, 면, 튀김 등 공정별 조리 로봇을 자체 운영체제인 ONE Kitchen OS 위에 통합하여 실제 조리 과정에서 발생하는 멀티모달 데이터를 수집한다. 엔비디아 아이작 랩(Isaac Lab)이나 구글 딥마인드의 무조코(MuJoCo) 같은 기존 시뮬레이터는 식재료의 변형이나 열에 의한 물성 변화, 후각 및 청각 신호를 완벽히 구현하기 어렵다. 실제 주방에서 수집된 데이터가 제스트의 학습으로 이어지는 폐쇄 루프(Closed-loop) 시스템은 시뮬레이션의 한계를 실데이터로 정면 돌파하는 구조이며, 이는 모델이 실제 물리 세계의 불확실성을 학습하는 핵심 경로가 된다.

현장 개발자가 체감할 변화는 모델의 범용성보다 데이터의 밀도에서 온다. 범용 모델이 수조 개의 토큰으로 언어를 배우듯, 제스트는 조리 현장의 고밀도 물리 데이터를 통해 도구 조작의 정밀도를 높인다. 6개월 뒤의 코드에는 단순한 API 호출이 아니라, 특정 조리 공정의 변수를 실시간으로 반영하는 도메인 특화 가중치와 보정 레이어가 포함될 가능성이 크다. 물리적 세계의 복잡성을 해결하는 열쇠는 모든 것을 잘하는 모델이 아니라, 특정 환경의 물리 법칙을 가장 정확하게 이해하는 특화 모델의 조기 도입에 있다. 이는 피지컬 AI의 실용화 경로가 범용성이라는 이상보다 도메인 특화라는 현실적 경로를 통해 빠르게 전개될 것임을 시사한다.

창원 기반 로보터블의 미국 시장 진출과 한국적 맥락

로보터블은 2020년 3월 경남 창원에서 설립되어 국내 외식 산업의 자동화 접점을 빠르게 확장해왔다. 2025년 매출액 약 22.5억원을 기록하며 사업적 기반을 다졌으며, CJ푸드빌, 빕스(VIPS), 롯데, 아라마크, 세브란스병원, 커피스미스 등 한국의 주요 외식 및 식품 제조 기업에 30건 이상의 로봇 자동화 솔루션을 공급한 이력이 있다. 이는 단순한 기술 시연을 넘어 실제 상업 환경에서 로봇이 직면하는 변수와 운영 제약 사항을 데이터로 축적했음을 의미한다. 한국의 고밀도 외식 시장에서 검증된 공급 경험은 하드웨어의 안정성과 공정 최적화라는 실무적 자산으로 이어진다.

자체 브랜드 매장인 바이트바이트(Byte Bite)의 운영은 기술 고도화를 위한 실데이터 확보 전략의 핵심으로 관찰된다. 일반적인 로봇 기업이 고객사 설치 후 데이터 접근에 제약을 겪는 것과 달리, 직접 매장을 운영함으로써 조리 과정에서 발생하는 멀티모달(Multimodal, 시각·청각·후각 등 다양한 감각 정보를 통합 처리하는 방식) 데이터를 실시간으로 수집하는 구조를 구축했다. 이러한 데이터 팩토리(Data Factory) 모델은 시뮬레이션만으로는 해결하기 어려운 식재료의 물성 변화나 조리 도구의 미세한 조작 오차를 교정하는 학습 데이터셋으로 활용된다. 현장의 실데이터가 모델의 파인튜닝(Fine-tuning, 사전 학습된 모델을 특정 작업에 맞게 미세 조정하는 과정)으로 이어지는 폐쇄 루프는 피지컬 AI의 성능을 결정짓는 결정적 요소가 된다.

이러한 한국적 맥락의 성공 경험은 미국 시장 진출의 기술적 방향성을 설정하는 근거가 된다. 범용 휴머노이드가 모든 환경에 적응하기를 기다리기보다, 조리라는 좁고 깊은 도메인(Domain, 특정 전문 영역)에 특화된 모델이 먼저 실용 단계에 도달할 가능성이 높다는 판단이다. 미국 NRA 쇼에서 공개한 제스트(Zest)는 이러한 전략의 결과물로, 한국 시장에서 다져온 공정별 조리 로봇의 운영 노하우가 양팔 휴머노이드의 작업 오케스트레이션(Orchestration, 여러 작업을 효율적으로 배치하고 조율하는 것)으로 전이된 사례로 분석된다. 현장에서 검증된 F&B 로봇 사업 위에 피지컬 AI(Physical AI, 물리적 신체를 가진 AI)를 쌓아 올리는 방식은 기술적 이상향과 시장의 실무적 요구 사이의 간극을 좁히는 접근법이다.

로보터블의 행보는 하드웨어 제조사에서 데이터 기반의 AI 플랫폼 기업으로 진화하는 과정을 보여준다. 창원이라는 제조 기반의 지역적 특성과 한국 외식 시장의 빠른 디지털 전환 속도가 결합되어, 물리적 세계의 데이터를 디지털 모델로 치환하는 효율적인 파이프라인을 구축한 것이다. 이는 AI 실무자 관점에서 볼 때, 거대 모델의 파라미터 경쟁보다 특정 도메인의 고품질 데이터를 어떻게 확보하고 이를 제어 로직에 어떻게 반영할 것인가라는 실전적 과제에 대한 답을 제시한다. 국내 시장의 좁고 깊은 수직적 통합 경험이 글로벌 시장에서는 도메인 특화 AI라는 강력한 경쟁 우위로 작용하는 구조가 관찰된다.