<汇港通讯> 小米(01810)正式发布并开源首代机器人VLA(Vision-Language-Action)大模型「Xiaomi-Robotics-0」。
小米创办人雷军发文表示,Xiaomi-Robotics-0是兼具视觉语言理解与高性能实时执行能力的具身智慧VLA模型。在主流的Libero、Calvin和SimplerEnv测试集,包括所有的Benchmark和30种模型对比中,均取得当前最优的成绩。他还指出,小米很早开始布局机器人业务,欢迎更多优秀同学加入机器人团队。
据介绍,该模型拥有47亿参数,核心解决了传统VLA模型推理延迟、真机动作不连贯的行业痛点,兼具视觉语言理解与高性能即时执行能力,可在消费级显卡上实现即时推理,在模拟测试和真机任务中均刷新多项SOTA(State-of-the-Art,是指在特定任务中目前表现最好的方法或模型)成绩。
小米技术在官方微信表示,Xiaomi-Robotics-0采用主流的Mixture-of-Transformers(MoT)架构,通过「视觉语言大脑(VLM)+动作执行小脑(Action Expert)」的组合,实现「感知-决策-执行」的高效闭环,兼顾通用理解与精细动作控制。
其中,「视觉语言大脑」以多模态VLM大模型为底座,负责理解人类的模糊指令(如「请把毛巾叠好」),并从高清视觉输入中捕捉空间关系;「动作执行小脑」嵌入多层Diffusion Transformer(DiT),不直接输出单一动作,而是生成一个「动作块」(Action Chunk),并通过流匹配(Flow-matching)技术确保动作的精准度。
为避免模型学动作丢失基础理解能力,小米设计了「跨模态预训练+後训练」的两阶段训练方法,让模型既懂常识又精通体力活。
小米已将Xiaomi-Robotics-0的技术主页、开源代码、模型权重全量开放,相关资源可分别在GitHub、Hugging Face等平台获取。 (ST)
新闻来源 (不包括新闻图片): 汇港资讯