阶跃星辰今日正式发布并开源 Step 3.7 Flash,这是针对 Agent 生产化阶段推出的新一代 Flash 模型,专注于 Agent、编码、搜索及多模态工作流的系统优化。Step 3.7 Flash 采用稀疏 MoE 架构,具备 196B+1.8B(ViT)的总参数和 11B 的激活参数;其最高生成速度可达 400 Tokens/s,特别适用于高频、多轮及低延迟的 Agent 应用。
据悉,Step 3.7 Flash 具备以下能力:原生多模态理解与执行,能够理解 UI、图表、文档、图片及应用界面,将复杂的视觉信息转化为结构化结果、代码生成及可执行任务。
相关快讯
网易推出Confucius4-TTS:首个支持14种语言的无口音语音克隆开源模型,仅需3秒音频即可实现音色复制
网易有道发布了“子曰 4.0”TTS语音合成引擎——Confucius4-TTS。该引擎是业内首个支持14种语言无口音跨语种语音克隆的开源模型,且无需参考文本。技术上,Confucius4-TTS具备零样本语音克隆能力,能够实现高效的语音合成。在情感表达方面,该引擎创新性地采用音频Prompt进行情感克隆迁移,突破了传统TTS依赖文本标签的限制,提升了情感表达的精准性和多样性。
AI视频生成公司Sand.ai成功完成两轮融资,发展势头强劲!
Sand.ai最近宣布完成新一轮融资,三个月内累计融资超过1亿美元,投资方包括宿华、Lollapalooza Capital等多家知名机构。该公司计划在今年第三季度开源一款新一代视频生成模型,采用MoE架构,旨在实现高效推理并拥有开源领域最大的参数规模。创始人兼CEO曹越表示,Sand.ai有信心达到行业领先水平,并将该模型开放给所有用户。
大晓机器人发布开源 ACE-Ego VLA 模型,提升塑料袋打包与鞋盒装填效率
大晓机器人与香港中文大学多媒体实验室联合推出了全新的“一脑多型”具身操作 VLA 模型 ACE-Ego,并向行业开源。ACE-Ego 在人形机器人操作基准 RoboCasa GR1 TableTop 上以 72.8% 的成功率创下新纪录,领先于英伟达和京东等主流模型。在高难度的 RoboTwin 2.0 测试中,ACE-Ego 成功率达到 90.62%,远超行业平均水平。该模型目前能够稳定完成复杂的零售操作,如塑料袋打包和鞋子装入鞋盒等。
开悟世界模型在RoboTwin 2.0具身智能评测中领先表现
大晓机器人推出的开悟世界模型(Kairos)在多个全球评测中表现卓越,分别在RoboTwin 2.0、LIBERO-Plus、WorldModelBench Robot和DreamGen等具身智能视频生成与状态预测领域中获得第一名。该模型采用了“多模态理解—生成—预测”的一体化架构,并已向整个行业开源。
谷歌发布全新开源模型DiffusionGemma
谷歌于6月10日发布了实验性开源模型DiffusionGemma,采用文本扩散架构,在专用GPU上文本生成速度比传统自回归大语言模型快最多4倍。该模型以Apache 2.0许可证发布,主要面向研究者和开发者,但整体输出质量低于标准Gemma 4,仍建议在生产环境中使用后者。DiffusionGemma的速度优势主要体现在本地及低并发推理场景,然而在高并发云端部署中,其优势相对有限。
阶跃星辰计划周一申请赴港IPO,估值或高达120亿美元
中国人工智能初创企业阶跃星辰计划最快于本周一提交香港首次公开募股(IPO)申请,估值最高可达120亿美元。该公司在竞争对手智谱AI和MiniMax完成上市后,积极筹备上市,显示出国内AI企业在市场环境改善和投资者热情高涨的背景下,纷纷寻求资本支持。