相关快讯
扣子全面接入豆包大模型2.1,开启新篇章!
扣子(Coze)已全面接入豆包大模型2.1,这是一款新一代的人工智能模型,具备更强的通用Agent、代码工程和多模态能力。该模型能够更稳定地处理复杂任务,支持从需求理解到调试交付的完整流程。扣子的Agent可以通过多轮对话和项目上下文推进任务,提升多人协作体验。此外,扣子团队版也已上线,支持团队空间内共同创建Agent和开发应用。用户可以通过手机App、Web端和电脑客户端访问该模型的最新功能。
北大推出RepoZero:首个可验证的仓库级生成基准,评测LLM从零构建代码仓库能力
北京大学与百度联合推出了新的代码生成基准RepoZero,旨在为“从零生成完整代码仓库”提供可验证、可扩展的评测框架。这一突破标志着大语言模型(LLM)在代码生成领域的进展,逐步向“自动化软件工程师”转变。然而,在最具挑战性的任务中,许多模型的通过率仅为20%至40%,即使是顶级模型Claude-4.6-Sonnet也未能达到可靠的软件工程水平。主要失败原因包括长上下文遗忘、模块协作错误、输出不一致和测试覆盖不足,表明“真正的软件工程智能”仍是AI领域的重大挑战。
美团推出万亿级参数大模型开放测试,国产算力助力全程训练
4月24日,美团发布了新一代基础大模型LongCat-2.0-Preview,参数规模超过万亿,训练使用国产算力集群。该模型支持1M上下文窗口,能够在单次推理中处理数百万字的输入,其处理能力与新发布的GPT-5.5相当。此外,LongCat-2.0-Preview针对Agent应用场景进行了深度优化,适用于代码生成、复杂任务规划和企业自动化等生产场景。
Kimi K2.6 正式发布:开源代码与Agent功能详解
月之暗面发布并开源了Kimi K2.6模型,显著提升了其在通用Agent、代码处理和视觉理解等方面的能力。该模型在多个基准测试中表现优于或持平于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。Kimi K2.6的长程编码能力显著增强,在测试中可连续编码13小时,处理超过4000行代码。此外,Agent的自主执行能力大幅提升,驱动的Agent集群架构升级,支持300个子Agent并行完成4000个协作步骤,显著提高了并行处理能力。
谷歌推出开源大模型Gemma 4,开启人工智能新篇章
2023年4月2日,谷歌正式推出了Gemma 4系列大模型,包含四种不同规格的通用模型:高效20亿参数版(E2B)、高效40亿参数版(E4B)、260亿混合专家模型(MoE)以及310亿稠密模型(31B)。
荣耀总裁方飞宣布:全新终端操作系统AgenticOS将于7月发布!
在MWC26上海开幕式上,荣耀产品线总裁方飞宣布即将推出的下一代终端操作系统AgenticOS,将于今年7月发布。该系统以“Agent”为核心,具备主动规划、服务和执行能力,支持多设备协同。方飞指出,移动终端将成为AI应用的关键平台,推动产品形态、人机交互及系统体验的全面变革,标志着以AI为中心的技术转型。
