체화 지능로보틱스VLA 모델텐센트파운데이션 모델

HY-Embodied-0.5: AI가 드디어 '몸'을 갖다 — 체화 지능 파운데이션 모델의 새 시대

텐센트가 공개한 HY-Embodied-0.5는 2B 파라미터로 7B급 성능을 달성하며 로봇 AI의 새 기준을 세웠습니다. 1966년 Shakey부터 2026년 체화 지능까지, AI가 물리 세계를 이해하는 여정을 쉽고 자세하게 살펴봅니다.

코어닷투데이2026-04-1345분

들어가며: AI에게 '몸'이 필요한 이유

ChatGPT에게 "커피 한 잔 타 줘"라고 말하면 어떻게 될까요? 레시피를 알려주겠죠. 하지만 실제로 컵을 집고, 물을 붓고, 설탕을 넣는 일은 하지 못합니다. 아무리 똑똑한 AI라도 물리적인 몸이 없으면 현실 세계에서는 무력합니다.

이것이 바로 체화 지능(Embodied Intelligence)의 핵심 문제입니다. "AI가 텍스트만 잘 이해하면 되는 거 아닌가?"라고 생각할 수 있지만, 현실은 훨씬 복잡합니다. 컵의 무게를 가늠하고, 미끄러지지 않게 힘을 조절하고, 선반까지의 3D 경로를 계산하는 것 — 이 모든 것이 "몸을 가진 지능"이 해야 할 일입니다.

2026년 4월, 텐센트 Robotics X 팀이 발표한 HY-Embodied-0.5는 이 문제에 대한 가장 최신의 답변입니다. 22개 벤치마크에서 최고 성능을 기록하면서도, 겨우 2B(20억) 파라미터로 7B급 모델을 능가하는 놀라운 효율성을 보여줬습니다.

이 글에서는 체화 지능이 왜 필요한지, 어떤 역사를 거쳐 여기까지 왔는지, 그리고 HY-Embodied-0.5가 어떻게 게임 체인저가 되었는지를 처음부터 자세히 풀어보겠습니다.

HY-Embodied: AI가 물리 세계를 이해하는 새로운 방식

체화 지능(Embodied AI)이란 무엇인가?

체화 지능은 AI가 물리적 몸체(로봇)를 통해 현실 세계를 인지하고, 추론하고, 행동하는 능력을 말합니다. 단순히 "로봇 + AI"가 아닙니다. 핵심은 감각-인지-행동의 통합적 루프입니다.

👁️

인지 (Perception)

카메라, 센서로 3D 공간을 이해한다. "테이블 위에 빨간 컵이 있고, 선반은 30cm 높이에 있다"

🧠

추론 (Reasoning)

"컵을 잡으려면 그리퍼를 45도로 기울이고, 선반까지 팔을 20cm 올려야 해"

🦾

행동 (Action)

관절 각도, 힘, 속도를 제어하여 실제로 컵을 집어 선반에 올린다

이 세 가지가 실시간으로 맞물려야 합니다. 눈은 환경을 보고, 뇌는 전략을 세우고, 손은 실행합니다. 하나라도 빠지면 로봇은 벽에 부딪히거나 컵을 떨어뜨립니다.

왜 일반 AI로는 안 되는 걸까?

ChatGPT나 GPT-4 같은 대규모 언어모델(LLM)은 텍스트 세계의 천재입니다. 하지만 이들에게는 치명적인 한계가 있습니다:

능력	LLM (텍스트 AI)	체화 AI (로봇 AI)
"컵이 뭔지 아는가?"	✅ 개념적으로 안다	✅ 보고, 무게를 느끼고, 잡을 수 있다
"컵을 잡아라"	❌ 물리적 실행 불가	✅ 그리퍼 각도·힘 조절 가능
"테이블 아래에 뭐가 있지?"	❌ 3D 공간 인식 불가	✅ 카메라 각도 바꿔서 확인
"이 물건 깨지기 쉬운가?"	🔺 텍스트로 추론만 가능	✅ 힘 센서로 실시간 판단

HY-Embodied-0.5 논문은 이 간극을 "LLM 에이전트와 물리 에이전트 사이의 다리"라고 표현합니다. 바로 이 다리를 놓기 위해 체화 파운데이션 모델이 필요한 것입니다.

60년의 여정: Shakey에서 HY-Embodied까지

체화 지능은 하루아침에 나온 개념이 아닙니다. 60년에 걸친 도전과 실패, 그리고 혁신의 역사가 있습니다.

체화 지능의 진화: 1966년부터 2026년까지

🏛️ 고전기 (1966~2000): "로봇이 생각할 수 있을까?"

1966년, Shakey — 스탠포드 연구소(SRI)에서 태어난 세계 최초의 이동형 지능 로봇입니다. 카메라와 범프 센서를 장착하고, 거대한 원격 컴퓨터의 도움을 받아 스스로 방을 돌아다니고 물건을 밀 수 있었습니다. 지금 보면 우스울 정도로 느리고 서툴렀지만, "기계가 환경을 인식하고 행동을 계획할 수 있다"는 것을 처음 증명한 역사적 순간이었습니다.

1973년, WABOT-1 — 일본 와세다대학이 만든 최초의 인간형 로봇. 두 발로 걷고, 두 손으로 물체를 집었습니다. "사람처럼 생긴 로봇"이라는 꿈의 시작점입니다.

1989년, ALVINN — 신경망 하나로 미국 동서 횡단에 성공한 자율주행 시스템. 카메라 입력을 신경망이 직접 핸들 조작으로 변환하는 엔드투엔드(end-to-end) 접근법의 원조입니다. 이 아이디어는 35년 뒤 VLA 모델에서 부활합니다.

1991년, 로드니 브룩스의 혁명 — MIT의 브룩스 교수가 "Intelligence Without Representation(표현 없는 지능)"이라는 논문을 발표합니다. "로봇에게 세상의 내부 모델을 만들어줄 필요 없다. 환경과 직접 상호작용하면 지능이 자연스럽게 출현한다." 이 급진적 주장은 이후 체화 지능 연구의 철학적 기반이 됩니다.

🔬 딥러닝 혁명기 (2016~2021): "시뮬레이션에서 배우자"

2016년 AlphaGo의 충격 이후, 딥러닝의 파도가 로보틱스 분야를 덮었습니다. 연구자들은 시뮬레이션 환경에서 로봇을 수백만 번 훈련시키는 방법을 개발했습니다. OpenAI의 루빅스 큐브 로봇 손, DeepMind의 축구하는 로봇 등이 이 시기에 등장합니다.

하지만 한계가 뚜렷했습니다. 시뮬레이션과 현실의 차이(sim-to-real gap)가 컸고, 한 가지 작업을 학습한 로봇이 조금만 다른 상황에서 완전히 무력해지는 문제가 있었습니다. "컵을 잡는 법을 배운 로봇이 약간 다른 모양의 컵은 못 잡는" 웃지 못할 상황이 벌어진 것입니다.

🚀 파운데이션 모델 시대 (2022~현재): "언어를 이해하는 로봇"

전환점은 2022년, Google의 PaLM-E와 SayCan이었습니다. 대규모 언어모델을 로봇에 연결한다는 발상이 모든 것을 바꿨습니다. "주방에서 음료수를 가져와"라는 자연어 명령을 이해하고, 가능한 행동들을 순서대로 계획하고, 실행하는 로봇이 처음 등장한 것입니다.

2023년, RT-2 — Google DeepMind가 웹 데이터로 사전학습한 비전-언어 모델을 로봇 액션으로 직접 변환하는 VLA(Vision-Language-Action) 모델을 발표합니다. 인터넷에서 배운 지식이 로봇의 손끝까지 전달된다는 혁명적 개념입니다.

2024년, OpenVLA와 π0 — Stanford의 OpenVLA는 7B 파라미터 오픈소스 VLA로, 22개 기관에서 수집한 100만 에피소드 데이터로 훈련되었습니다. Physical Intelligence의 π0는 확산 정책(diffusion policy)으로 50Hz의 고빈도 연속 제어를 구현하며 새로운 지평을 열었습니다.

2025년 — Google의 Gemini Robotics와 Figure AI의 Helix가 상용 휴머노이드 로봇에 VLA를 탑재하기 시작합니다. 공장과 가정에 실제로 배치되는 시대가 열렸습니다.

그리고 2026년 4월, 텐센트가 HY-Embodied-0.5를 발표합니다.

VLA 모델이란? — AI의 눈·입·손을 하나로

HY-Embodied를 이해하려면 먼저 VLA(Vision-Language-Action) 모델을 알아야 합니다.

VLA: 시각, 언어, 행동을 하나로 통합

세 가지 능력의 통합

VLA 모델은 이름 그대로 세 가지를 통합합니다:

VLA 모델의 세 축

👁️ Vision (시각) 카메라 입력 물체 인식, 깊이 추정, 3D 공간 파악

💬 Language (언어) 자연어 명령 "빨간 컵을 선반에 올려줘"

🦾 Action (행동) 로봇 제어 신호 관절 각도, 그리퍼 개폐, 이동 경로

쉽게 비유하면 이렇습니다. 기존 AI가 "눈을 감고 전화 통화만 하는 상담원"이었다면, VLA 모델은 "눈으로 보고, 말을 듣고, 직접 손으로 행동하는 현장 기술자"입니다.

기존 VLA 모델의 한계

하지만 기존 VLA 모델에는 심각한 문제들이 있었습니다:

모델이 너무 크다 — RT-2는 55B 파라미터. 로봇에 실을 수 없어서 클라우드로 추론해야 했습니다. 지연 시간이 길어 실시간 제어가 어렵습니다.
범용 VLM의 한계 — GPT-4V나 Gemini 같은 범용 모델은 "사진에서 고양이를 찾아라" 같은 일반적인 시각 작업은 잘하지만, 로봇에 특화된 공간 추론(깊이 추정, affordance 예측, 궤적 이해)에서는 부족합니다.
시각과 언어의 간섭 — 하나의 모델에서 시각과 언어를 동시에 처리하면 서로 방해합니다. 시각 성능을 올리면 언어 성능이 떨어지는 현상이 빈번했습니다.

HY-Embodied-0.5는 이 세 가지 문제를 모두 해결하기 위해 설계되었습니다.

HY-Embodied-0.5: 무엇이 다른가?

텐센트 Robotics X 팀이 2026년 4월에 공개한 HY-Embodied-0.5는 두 가지 모델로 구성됩니다:

특성	MoT-2B (경량)	MoE-A32B (대형)
총 파라미터	4B (활성화: 2.2B)	32B 활성화
타겟 환경	엣지 디바이스 (로봇 탑재)	클라우드/서버
추론 속도	2B 모델급 빠른 속도	고성능 GPU 필요
벤치마크 성능	22개 중 16개 1위	Gemini 3.0 Pro 능가
핵심 용도	실시간 로봇 제어	복잡한 추론, 교사 모델

핵심 통찰: 32B 모델이 "교사", 2B 모델이 "학생"입니다. 교사가 배운 지식을 학생에게 효율적으로 전달(증류)하여, 작은 모델로도 놀라운 성능을 끌어냅니다.

세 가지 핵심 혁신

HY-Embodied가 기존 모델과 차별화되는 점을 세 가지로 정리할 수 있습니다.

1 Mixture-of-Transformers (MoT) 아키텍처 — 시각과 언어를 분리 처리하여 간섭 없이 각각의 성능을 극대화

2 자기진화 후학습(Self-Evolving Post-Training) — 강화학습과 선별 미세조정을 반복하며 스스로 성능을 개선

3 온-폴리시 증류(On-Policy Distillation) — 32B 교사 모델의 지식을 2B 학생 모델에 효과적으로 이전

각각을 자세히 살펴보겠습니다.

핵심 기술 ①: Mixture-of-Transformers (MoT)

MoT는 HY-Embodied의 심장입니다. Meta 연구팀이 2024년에 처음 제안한 아키텍처를 체화 지능에 맞게 개량한 것입니다.

기존 방식의 문제

일반적인 멀티모달 모델은 시각 토큰과 텍스트 토큰을 같은 파라미터로 처리합니다. 이미지를 본 직후에 텍스트를 생성하면, 시각 정보가 텍스트 생성을 방해하거나 그 반대 현상이 일어납니다. 마치 하나의 뇌로 동시에 그림을 그리면서 소설을 쓰는 것과 같습니다.

MoT의 해결책: "전문가 분업"

MoT는 이 문제를 우아하게 해결합니다. 모달리티별 전용 파라미터를 분리하되, 어텐션은 전체적으로 공유합니다.

🖼️ 시각 토큰
전용 Q, K, V 행렬
양방향(Bidirectional) 어텐션

📝 텍스트 토큰
전용 Q, K, V 행렬
단방향(Causal) 어텐션

↓ 글로벌 어텐션으로 통합 ↓

🔗 크로스모달 융합
시각과 언어가 서로 참조
모달리티별 FFN으로 최종 처리

비유하자면: 시각 전문가와 언어 전문가가 따로 일하되, 회의실(글로벌 어텐션)에서 정보를 교환하는 구조입니다. 각 전문가는 자기 분야에 최적화된 도구를 쓰지만, 중요한 결정은 함께 내립니다.

양방향 vs 단방향 어텐션

특히 주목할 점은 시각 토큰에는 양방향 어텐션, 텍스트 토큰에는 단방향(인과적) 어텐션을 사용한다는 것입니다.

양방향: 이미지의 모든 부분을 동시에 참조합니다. 컵의 위치를 알려면 테이블 전체를 봐야 하니까요.
단방향: 텍스트는 앞에서 뒤로 순서대로 생성합니다. "컵을"이라는 단어를 생성할 때 아직 안 나온 "올려줘"를 미리 볼 수 없습니다.

이 비대칭 설계 덕분에 시각 인식 능력은 올라가면서도 언어 생성 능력은 유지됩니다.

시각 잠재 토큰(Visual Latent Tokens)

HY-Embodied만의 독특한 기법입니다. 이미지나 영상 프레임 뒤에 학습 가능한 잠재 토큰을 추가합니다. 이 토큰들은 교사 ViT의 글로벌 피처로 지도학습을 받으며, 시각과 텍스트 사이의 다리 역할을 합니다.

쉽게 말하면: 이미지를 본 뒤 "잠깐, 이 장면에서 정말 중요한 것만 요약해볼게"라고 하는 시각적 메모 패드입니다.

핵심 기술 ②: HY-ViT 2.0 — 400M 비전 인코더

로봇의 "눈"에 해당하는 비전 인코더도 새롭게 설계되었습니다.

HY-ViT 2.0 비전 인코더

파라미터 400M 대형 내부 모델에서 증류

입력 방식 네이티브 해상도 리사이징 없이 원본 그대로 처리

코드북 2K 이산 코드 시각 토큰 최적화를 위한 감독 신호

핵심 특징:

네이티브 해상도 처리: 이미지를 강제로 224×224로 줄이지 않습니다. 원본 해상도 그대로 처리하여 세밀한 디테일을 보존합니다. 로봇이 작은 나사를 집어야 할 때 결정적인 차이를 만듭니다.
2K 이산 코드북: 시각 정보를 2,000개의 코드로 이산화합니다. 이 코드들이 추가 감독 신호가 되어 시각 토큰의 품질을 높입니다.
증류 학습: 텐센트 내부의 더 큰 ViT 모델에서 지식을 받아 컴팩트하면서도 강력한 비전 인코더를 만들었습니다.

핵심 기술 ③: 학습 파이프라인 — AI가 스스로 진화하는 방법

HY-Embodied의 학습 과정은 4단계로 나뉩니다. 각 단계를 인간의 교육 과정에 비유하면 이해하기 쉽습니다.

사전학습 초등~고등 교육: 600B+ 토큰으로 기본 지식 습득. 일반 이해(389B) + 체화·인지 데이터(236B). 1억 개 이상의 샘플에서 시각 인식, 깊이 추정, 분할, 로봇 조작 등을 배운다.

중간학습 대학 전공 과정: 2,500만 개 정선 샘플로 심화 학습. 일반:체화:공간 = 12:5:3 비율로 균형 잡힌 교육. ViT는 고정하고 LLM 파라미터만 업데이트.

지도 미세조정 인턴십: 10만 개 Chain-of-Thought 데이터로 추론 능력 강화. 사람과 모델이 함께 만든 고품질 추론 사례로 훈련.

강화학습 + 자기진화 실전 경험: GRPO 강화학습으로 실전 능력 연마. 반복적 RFT(Rejection Sampling Fine-Tuning)로 100만 후보 중 30만 정예만 선별. 교사(32B)→학생(2B) 증류로 지식 전달.

GRPO: 그룹 상대 정책 최적화

강화학습 단계에서 사용하는 GRPO(Group Relative Policy Optimization)는 특히 흥미롭습니다. 16개의 응답을 한 그룹으로 생성하고, 그 안에서 상대적으로 우수한 응답에 높은 보상을 줍니다.

보상 설계도 과제에 따라 다릅니다:

과제별 보상 함수

위치 찾기(Grounding): IoU(교집합/합집합)와 거리 메트릭으로 "얼마나 정확히 찾았나" 평가
수치 추정(Regression): 오차에 따라 부드럽게 감소하는 보상. 가까울수록 높은 점수
궤적 계획(Trajectory): DTW(동적 시간 왜곡)와 프레셰 거리로 "경로가 얼마나 비슷한가" 평가
추론(Textual): LLM 판사가 개방형 추론의 논리성과 정확성을 채점

비대칭 정책 클리핑

또 하나의 기술적 디테일: 일반적인 PPO는 클리핑 범위를 대칭적으로 [0.8, 1.2]로 설정하지만, HY-Embodied는 [0.8, 1.35]로 비대칭 설정합니다. 상한을 넓혀서 좋은 행동을 더 적극적으로 학습하도록 한 것입니다. 이것이 멀티모달 학습의 안정성을 크게 개선했다고 합니다.

핵심 기술 ④: 온-폴리시 증류 — 큰 모델의 지혜를 작은 모델에게

지식 증류: 32B 교사에서 2B 학생으로

일반적인 지식 증류는 교사 모델의 출력을 학생 모델이 모방합니다. 하지만 HY-Embodied의 온-폴리시 증류는 한 단계 더 나아갑니다.

📚 학생(2B)이 직접 응답 생성

↓

👨‍🏫 교사(32B)가 학생의 응답에 대해
토큰 레벨 감독 수행

↓

✅ 최종 답만 베끼는 게 아니라
사고 과정 전체를 전수

비유하면: 학생이 시험을 보고, 선생님이 채점하면서 "여기서 이렇게 생각했어야 했어"라고 과정을 교정해주는 것입니다. 답만 알려주는 것보다 훨씬 풍부한 학습 신호를 제공합니다.

VLA 파이프라인 체험하기

아래 인터랙티브 시뮬레이터로 HY-Embodied가 시각 입력에서 로봇 행동까지 어떻게 처리하는지 직접 체험해 보세요.

벤치마크 성능: 숫자가 말하는 혁신

이론은 훌륭하지만, 실제 성능은 어떨까요? HY-Embodied-0.5는 22개 벤치마크에서 테스트되었으며, 결과는 놀라웠습니다.

MoT-2B: 작지만 강력한 모델

22개 벤치마크 중 16개에서 1위, 4개에서 2위
전체 평균 58.0% — 2배 큰 Qwen3-VL-4B(47.8%)보다 10.2%p 높음
3.5배 큰 MiMo-Embodied-7B(52.1%)보다도 5.9%p 앞섬

특히 체화 이해(Embodied Understanding)와 공간 추론(Spatial Reasoning)에서의 격차가 압도적입니다. 이는 HY-Embodied가 단순한 범용 비전 모델이 아니라, 로봇에 특화된 능력을 갖추었음을 보여줍니다.

주요 벤치마크별 세부 성적

벤치마크	HY MoT-2B	Qwen3-VL-4B	MiMo-7B
CV-Bench (시각 인지)	89.2%	81.5%	85.0%
EmbSpatial-Bench (공간)	82.8%	68.4%	74.2%
MindCube (3D 추론)	66.3%	42.1%	50.8%
Where2Place (배치)	68.0%	41.5%	55.3%
RoboBench-MCQ (로봇)	49.2%	38.7%	44.1%

MoE-A32B: 프론티어급 대형 모델

대형 모델의 성적은 더욱 인상적입니다:

HY-Embodied A32B

67.0%

Seed 2.0

66.2%

Qwen3.5 A17B

66.1%

Gemini 3.0 Pro

63.6%

Google의 Gemini 3.0 Pro를 3.4%p 차이로 능가하며, 체화 지능 분야에서 가장 강력한 모델임을 입증했습니다.

실제 로봇 실험: 주방에서 증명하다

로봇이 실제로 작업을 수행하는 모습

벤치마크 점수가 아무리 높아도, 진짜 시험은 실제 로봇입니다. 텐센트 팀은 양팔 로봇 Xtrainer를 사용해 세 가지 과제를 수행했습니다.

실험 설정

로봇: 양팔(dual-arm) Xtrainer
학습 데이터: UMI 조작 데이터 5,000시간 + 과제별 시연 300~700 에피소드
VLA 파이프라인: HY-Embodied-0.5가 인지 엔진으로 작동

과제별 성공률

정밀 플러그인 조립

85%

HY-Embodied

식기 쌓기

80%

HY-Embodied

머그컵 걸기

75%

HY-Embodied

비교군의 성적과 차이가 극명합니다:

과제	HY-Embodied	π0	π0.5
정밀 플러그인 조립	85%	45%	50%
식기 쌓기	80%	50%	55%
머그컵 걸기	75%	45%	50%

특히 머그컵 걸기 과제에서 π0 대비 30%p, π0.5 대비 25%p의 격차는 놀랍습니다. 머그 손잡이를 후크에 정확히 걸기 위해서는 3D 공간에서의 정밀한 방향 제어가 필요한데, 이것이 바로 HY-Embodied의 강화된 공간 추론 능력이 빛을 발하는 순간입니다.

2026년, 체화 지능은 왜 중요한가?

산업적 맥락

글로벌 서비스 로보틱스 시장은 2024년 471억 달러에서 2029년 987억 달러로 급성장할 전망입니다(CAGR 15.9%). 이 시장의 핵심 동력이 바로 체화 지능입니다.

🏭

제조업

조립 라인에서 다양한 부품을 인식하고 정밀 조립. HY-Embodied의 85% 플러그인 조립 성공률이 직접 적용 가능

🏥

의료

수술 보조 로봇이 의사의 자연어 지시를 이해하고 정밀한 기구 조작 수행. 2026년 로봇 수술 시장이 Physical AI 헬스케어의 핵심

🏠

가정

식기 정리, 빨래 개기, 요리 보조 등 일상적 가사 작업. MoT-2B의 엣지 배포 능력이 핵심 — 클라우드 없이 로봇 자체에서 실행

HY-Embodied가 가져온 패러다임 전환

이 논문이 중요한 이유는 단순히 "또 하나의 좋은 모델"이 아니기 때문입니다. 세 가지 패러다임 전환을 보여줍니다:

1. "크면 좋다"에서 "작아도 똑똑하다"로

RT-2(55B), π0(수십B)와 달리, HY-Embodied MoT-2B는 2.2B 활성화 파라미터로 더 큰 모델을 능가합니다. 이는 실시간 로봇 제어를 위해 엣지 디바이스에 직접 탑재할 수 있다는 뜻입니다. 클라우드 지연 없이 밀리초 단위로 반응하는 로봇이 가능해집니다.

2. "범용"에서 "특화"로

GPT-4V를 로봇에 쓰는 것보다, 체화 인지에 특화된 모델을 만드는 것이 더 효과적임을 증명했습니다. 1억 개 이상의 체화·공간 데이터로 훈련한 전문 모델이 범용 대형 모델보다 관련 작업에서 월등히 뛰어납니다.

3. "한 번 학습"에서 "자기진화"로

반복적 강화학습 → RFT 사이클을 통해 모델이 스스로 성능을 개선합니다. 이는 배포 후에도 계속 발전할 수 있는 기반을 제공합니다.

학습 데이터의 규모와 구성

HY-Embodied의 성능 뒤에는 방대한 학습 데이터가 있습니다:

물체 검출

6,200만 샘플

깊이 추정

3,600만 쌍

카운팅/포인팅

1,100만 샘플

분할(Segmentation)

500만 인스턴스

로봇 조작 시퀀스

수백만 에피소드

이 데이터에는 단순한 이미지 인식을 넘어서:

어포던스 예측: "이 물체를 어디를 잡아야 하는가"
궤적 이해: 비디오에서 포인트 트래킹으로 추출한 움직임 경로
3D 공간 대응: ScanNet 등에서 가져온 실내 3D 환경 데이터
기하학, 구성, 동역학: 물체의 물리적 속성 이해

등 로봇에게 필수적인 정보들이 포함되어 있습니다.

오픈소스와 접근성

HY-Embodied-0.5 MoT-2B는 오픈소스로 공개되었습니다.

시작하기

모델 가중치: Hugging Face tencent/HY-Embodied-0.5 (약 8GB)
추론 코드: GitHub Tencent-Hunyuan/HY-Embodied
요구사항: Python 3.12+, CUDA 12.6, PyTorch 2.8.0, GPU 16GB+ VRAM
계획 중: vLLM 추론, 미세조정 코드, Gradio 온라인 데모

hljs language-python

from transformers import AutoModelForImageTextToText, AutoProcessor
import torch

processor = AutoProcessor.from_pretrained("tencent/HY-Embodied-0.5")
model = AutoModelForImageTextToText.from_pretrained(
    "tencent/HY-Embodied-0.5",
    torch_dtype=torch.bfloat16
).to("cuda").eval()

16GB VRAM GPU가 있다면 누구나 바로 실험해볼 수 있습니다. 이 접근성은 연구 커뮤니티에서의 빠른 후속 연구를 촉진할 것으로 기대됩니다.

남은 과제와 미래 전망

HY-Embodied-0.5가 인상적이지만, 아직 완벽하지는 않습니다:

현재의 한계

일반화 범위: 세 가지 주방 과제에서만 실제 로봇 실험이 이루어졌습니다. 더 다양한 환경(야외, 공장, 병원)에서의 검증이 필요합니다.
장기 계획: 현재는 비교적 짧은 시퀀스의 행동을 다룹니다. "1시간 동안 집 전체를 청소해"와 같은 장기 과제에 대한 확장이 과제입니다.
안전성: 실제 환경에서 사람과 함께 작업할 때의 안전 보장 메커니즘이 아직 충분히 다루어지지 않았습니다.

앞으로의 방향

2026 현재
단일 로봇, 짧은 과제
주방 환경

↓

다음 단계
다중 로봇 협업
다양한 환경 일반화

↓

궁극적 목표
범용 가정용 로봇
인간과 자연스러운 협업

체화 지능의 궁극적 목표는 어떤 환경에서든 자연어 명령만으로 작업을 수행하는 범용 로봇입니다. HY-Embodied-0.5는 그 여정에서 중요한 이정표를 세웠습니다.

마무리: AI가 세상에 손을 뻗다

1966년 Shakey가 처음 방을 돌아다닌 이후 60년, AI는 드디어 현실 세계를 진짜로 이해하고 조작할 수 있는 단계에 와 있습니다.

HY-Embodied-0.5가 보여준 것은 단순한 기술적 진보가 아닙니다. 효율적인 체화 지능이 가능하다는 것, 그리고 오픈소스로 누구나 접근할 수 있다는 것입니다. 2B 파라미터로 로봇에 직접 탑재할 수 있다는 것은, 비싼 클라우드 인프라 없이도 작은 팀이나 스타트업이 지능형 로봇을 만들 수 있다는 뜻입니다.

ChatGPT가 "AI가 말을 할 수 있다"는 것을 증명했다면, HY-Embodied-0.5 같은 체화 모델은 "AI가 행동할 수 있다"는 것을 증명하고 있습니다. 텍스트 채팅창을 넘어, AI가 물리적 세계에 손을 뻗기 시작한 것입니다.

다음에는 당신의 로봇이 커피를 타줄지도 모릅니다. 그때 그 로봇의 뇌 속에는, 오늘 살펴본 바로 이 기술이 들어 있을 것입니다.

참고 논문: Yu, X., Liu, Z., Wang, Z., et al. (2026). HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents. arXiv:2604.07430

오픈소스: GitHub | Hugging Face

기술2026.01.03

HY-Embodied-0.5: AI가 드디어 '몸'을 갖다 — 체화 지능 파운데이션 모델의 새 시대

들어가며: AI에게 '몸'이 필요한 이유

체화 지능(Embodied AI)이란 무엇인가?

왜 일반 AI로는 안 되는 걸까?

60년의 여정: Shakey에서 HY-Embodied까지

🏛️ 고전기 (1966~2000): "로봇이 생각할 수 있을까?"

🔬 딥러닝 혁명기 (2016~2021): "시뮬레이션에서 배우자"

🚀 파운데이션 모델 시대 (2022~현재): "언어를 이해하는 로봇"

VLA 모델이란? — AI의 눈·입·손을 하나로

세 가지 능력의 통합

기존 VLA 모델의 한계

HY-Embodied-0.5: 무엇이 다른가?

세 가지 핵심 혁신

핵심 기술 ①: Mixture-of-Transformers (MoT)

기존 방식의 문제

MoT의 해결책: "전문가 분업"

양방향 vs 단방향 어텐션

시각 잠재 토큰(Visual Latent Tokens)

핵심 기술 ②: HY-ViT 2.0 — 400M 비전 인코더

핵심 기술 ③: 학습 파이프라인 — AI가 스스로 진화하는 방법

GRPO: 그룹 상대 정책 최적화

비대칭 정책 클리핑

핵심 기술 ④: 온-폴리시 증류 — 큰 모델의 지혜를 작은 모델에게

VLA 파이프라인 체험하기

벤치마크 성능: 숫자가 말하는 혁신

MoT-2B: 작지만 강력한 모델

주요 벤치마크별 세부 성적

MoE-A32B: 프론티어급 대형 모델

실제 로봇 실험: 주방에서 증명하다

실험 설정

과제별 성공률

2026년, 체화 지능은 왜 중요한가?

산업적 맥락

HY-Embodied가 가져온 패러다임 전환

학습 데이터의 규모와 구성

오픈소스와 접근성

남은 과제와 미래 전망

현재의 한계

앞으로의 방향

마무리: AI가 세상에 손을 뻗다

관련 포스트

Newton: Disney, DeepMind, NVIDIA가 함께 만든 GPU 물리 시뮬레이션 엔진의 모든 것

AIP 경쟁 시대 — Enterprise AI Platform 카테고리의 7가지 트렌드 (2026)

Palantir 후속 특집 — 2026, 엔지니어들이 거울을 들여다보기 시작했다

Palantir 완전 해부 — Ontology, Foundry, AIP, 그리고 '기업의 디지털 트윈'이 의미하는 것