其清 发表于 2026-4-22 09:08:00

【国际动态】机器人会写代码了!英伟达开源 CaP-X 框架:让大模型现场编写 ...

(来源:机器人(14.200, -0.38, -2.61%)全球资讯)

【圣何塞讯】 2026年4月2日,英伟达(NVIDIA)正式开源了全新的机器人操控框架 CaP-X(Code-as-Policy X)。该框架的核心突破在于,它让机器人不再只是被动执行预设指令,而是能通过大语言模型(LLM)“看着”摄像头画面,现场编写 Python 代码来控制自己的动作。

从“下指令”到“写程序”:具身智能的逻辑进化
CaP-X 彻底改变了机器人的学习路径,将大模型从“指挥官”变成了“程序员”:

[*]自主编程: 机器人感知环境后,会自主生成包含感知和控制原语的 Python 代码。例如:看到桌上的瓶子,它会写一段代码调用视觉 API 定位,再写一段代码驱动机械臂抓取。
[*]技能库积累: 如果生成的代码成功完成了任务,CaP-X 会将其自动存入“技能库”。这就像给机器人装了一个“大脑外挂”,随着任务增加,它的技能库会不断进化。
[*]跨形态复用: 最具颠覆性的一点是,这些代码技能可以在不同形态的机器人(如机械臂、人形机器人、四足狗)之间复用,无需针对每种硬件重新训练。
核心组件:全链路开发工具包
CaP-X 不仅是一个模型,而是一整套工具链:
CaP-Gym: 一个基于 Gymnasium 接口的交互式训练环境,实现“代码即策略”。
CaP-Agent0: 一个无需针对特定任务训练的智能体,在多项操纵任务中,其成功率已追平甚至超越人类专家代码。
CaP-RL: 引入强化学习进化算法,让 7B 规模的小模型在仅 50 次迭代后,任务成功率从 20% 飙升至 72%。
行业影响:具身智能的“Harness”时代
英伟达机器人研究主管 Jim Fan 表示,CaP-X 的开源标志着机器人正式进入“智能体时代”。它证明了逻辑推理路线在具身智能中具备极强竞争力,甚至在某些精细操作任务上优于传统的端到端黑盒模型。
对于开发者而言,这意味着只要会写 Python 的 API 接口,就能轻松“驱动”复杂的物理机器人,极大降低了具身智能的开发门槛。
本报道基于 2026 年 4 月英伟达官方开源信息及 Jim Fan 公开发言整理。



                                                                                                                                                                                                                                                                                                                                                                                                                   
页: [1]
查看完整版本: 【国际动态】机器人会写代码了!英伟达开源 CaP-X 框架:让大模型现场编写 ...