Hermes上线MoA功能,性能表现有多强?

4天前更新
4 0 0

Hermes Agent 已正式上线 MoAMixture of Agents)功能,允许用户自由拼接多种模型,并将其作为一个虚拟模型来调用。在 Nous Research 即将公布的基准测试中,这种混合模型的得分已经超过了 Opus 4.8 和 GPT-5.5,表现相当亮眼。

不过,MoA 这类技术并不算新概念。早在 2024 年 6 月,Together AI 就曾发布论文《Mixture-of-Agents Enhances Large Language Model Capabilities》,其核心思路就是将多个大模型组合起来协同工作:每一层模型都会先参考上一层的输出,再继续生成自己的回答,从而逐步提升整体效果。

Hermes上线MoA功能,性能表现有多强?的封面图

相关快讯

Karpathy再度出圈:RAG新思路,把笔记变成第二大脑

Karpathy 提出用大模型把知识库“编译”成持续生长的活 Wiki,取代传统 RAG 检索。他认为 RAG 只是搬运局部信息,难以理解全局,还容易在知识前后矛盾时产生“人格分裂”,输出逻辑混乱的结果。这一思路在 GitHub 上两个月已获得 5000+ star。

美团LongCat发布VitaBench2.0开源版本

美团LongCat团队推出了VitaBench 2.0,这是首个针对长期动态用户建模的智能体评测基准。该基准旨在系统性评测大语言模型在真实生活场景中与用户的长期互动能力,重点关注个性化和主动性。VitaBench 2.0的发布标志着智能体评测的进一步发展。

北大推出RepoZero:首个可验证的仓库级生成基准,评测LLM从零构建代码仓库能力

北京大学与百度联合推出了新的代码生成基准RepoZero,旨在为“从零生成完整代码仓库”提供可验证、可扩展的评测框架。这一突破标志着大语言模型(LLM)在代码生成领域的进展,逐步向“自动化软件工程师”转变。然而,在最具挑战性的任务中,许多模型的通过率仅为20%至40%,即使是顶级模型Claude-4.6-Sonnet也未能达到可靠的软件工程水平。主要失败原因包括长上下文遗忘、模块协作错误、输出不一致和测试覆盖不足,表明“真正的软件工程智能”仍是AI领域的重大挑战。

“卡神”加盟Anthropic,担任“最具挑战性AI”职位

OpenAI联合创始人安德烈·卡帕西宣布加入Anthropic,表示对大语言模型未来发展的期待。他将在预训练团队负责人尼克·约瑟夫的领导下组建新团队,致力于利用Claude加速预训练研究。卡帕西的目标是优化AI的训练过程,以推动技术进步。

大语言模型在蒸馏过程中可能引入自身偏好

《自然》15日发布的研究表明,大语言模型(LLM)可能会将自身偏好“夹带私货”,影响其他算法,即使原始特征已在训练数据中清除。研究中一个案例显示,模型通过数据隐含信号将对猫头鹰的偏好传递给其他模型。该发现强调了在开发LLM时,进行更全面的安全检查的重要性。

腾讯轻量云首发Hermes Agent应用模板,助力开发者创新!

4月14日,腾讯云轻量应用服务器Lighthouse推出Hermes Agent专属应用模板,实现了该开源AI智能体的云端一键快速部署,成为行业首家。与此同时,腾讯云的企业级ClawPro产品也将在本周内完成适配支持。利用轻量化云服务器的便利,开发者无需复杂配置即可快速搭建和运行Hermes Agent。

暂无评论

暂无评论...