大晓机器人今日与香港中文大学多媒体实验室联合发布了新型“一脑多型”具身操作 VLA 模型 ACE-Ego,并宣布将其向行业开源。官方数据显示,ACE-Ego 在国际公认的人形机器人操作基准 RoboCasa GR1 TableTop 上,以 72.8% 的平均成功率刷新纪录,位居榜首,显著超越英伟达 GR00T、PI π₀.₅ 和京东 JoyAI-RA 等主流模型。同时,在高难度的双臂操作基准 RoboTwin 2.0 的强域随机化测试中,ACE-Ego 实现了 90.62% 的成功率,远高于行业平均水平。值得一提的是,ACE-Ego 目前已能稳定执行如塑料袋打包和鞋子装入鞋盒等长周期、强接触的复杂零售操作。
相关快讯
网易推出Confucius4-TTS:首个支持14种语言的无口音语音克隆开源模型,仅需3秒音频即可实现音色复制
网易有道发布了“子曰 4.0”TTS语音合成引擎——Confucius4-TTS。该引擎是业内首个支持14种语言无口音跨语种语音克隆的开源模型,且无需参考文本。技术上,Confucius4-TTS具备零样本语音克隆能力,能够实现高效的语音合成。在情感表达方面,该引擎创新性地采用音频Prompt进行情感克隆迁移,突破了传统TTS依赖文本标签的限制,提升了情感表达的精准性和多样性。
英伟达推出Halos机器人安全系统,助力Physical AI实现应用突破
英伟达于6月22日推出“Halos for Robotics”,这是一个针对物理AI与机器人领域的全栈安全系统,旨在为智能机器人在真实环境中提供统一的安全架构。该系统涵盖AI算力芯片IGX Thor、传感器连接Holoscan Sensor Bridge,以及Halos OS软件栈和AI安全认证实验室,构建了一个“计算+感知+决策+认证”的一体化安全体系。首个合作伙伴Agility已将Halos集成到其人形机器人Digit中,应用于工厂与物流场景。
AI视频生成公司Sand.ai成功完成两轮融资,发展势头强劲!
Sand.ai最近宣布完成新一轮融资,三个月内累计融资超过1亿美元,投资方包括宿华、Lollapalooza Capital等多家知名机构。该公司计划在今年第三季度开源一款新一代视频生成模型,采用MoE架构,旨在实现高效推理并拥有开源领域最大的参数规模。创始人兼CEO曹越表示,Sand.ai有信心达到行业领先水平,并将该模型开放给所有用户。
全球首个人形机器人通用小脑 GPT 模型发布:探索银河通用的 AstraBrain-WBC 0.5
“银河通用机器人”于6月19日发布了全球首个面向人形机器人的通用小脑基础模型AstraBrain-WBC 0.5。该模型基于2万小时的人类动作数据训练,参数规模达到8040万,标志着行业内首个达到GPT-1量级的全身实时运动控制模型。AstraBrain-WBC 0.5的推出证明了机器人运动控制领域存在类似GPT的Scaling Law,即随着训练数据从200万帧扩展至20亿帧,模型性能也随之提升。
阿里推出首个具身大模型:Qwen-Robot系列震撼登场
阿里巴巴于6月16日发布了千问具身智能大模型Qwen-Robot系列,包含三个主要模型:Qwen-RobotManip(VLA操作模型)、Qwen-RobotNav(VLN移动模型)和Qwen-RobotWorld(世界模型)。这是千问大模型家族的首个完整具身智能模型系列,三个模型分别赋予机器人灵巧的手、认路的脚和思考的大脑,能够单独部署或协同运作。
全球首款智元全尺寸人形机器人A3成功实现自主乒乓球对战
智元今日宣布其研发的智元远征 A3 成功实现自主打乒乓球,成为全球首个全程自主决策的全尺寸双足人形机器人。该机器人在无遥控、无脚本及无人工干预的情况下,完成了视觉感知、轨迹预测及全身运动规划等任务,实现了全闭环控制。此次技术突破得益于智元与北京大学的合作,结合了全球首款人形机器人乒乓运动控制算法 SpikePingpong 和高频脉冲相机技术,使得机器人视觉响应速度提升了10倍,能够在毫米级别上精准预判球拍接触点,从而显著提高运动控制精度。