美团LongCat发布VitaBench2.0开源版本

1周前更新 haozi9365
2 0 0

自去年10月推出VitaBench 1.0以来,美团LongCat团队现再发布VitaBench 2.0。这一新版本是首个针对长期动态用户建模的智能体评测基准,旨在系统性评估大语言模型在真实生活场景中,面对长期用户互动时的个性化和主动性能力。

美团LongCat发布VitaBench2.0开源版本的封面图

相关快讯

Karpathy再度出圈:RAG新思路,把笔记变成第二大脑

Karpathy 提出用大模型把知识库“编译”成持续生长的活 Wiki,取代传统 RAG 检索。他认为 RAG 只是搬运局部信息,难以理解全局,还容易在知识前后矛盾时产生“人格分裂”,输出逻辑混乱的结果。这一思路在 GitHub 上两个月已获得 5000+ star。

Hermes上线MoA功能,性能表现有多强?

Hermes Agent上线了MoA(Mixture of Agents)功能,支持将多种模型自由组合成虚拟模型使用。据Nous Research即将发布的基准测试,该混合模型评分已超过Opus 4.8和GPT-5.5。MoA并非新概念,早在2024年6月Together AI就发表过相关论文,核心思路是多层大模型逐层参考上一层输出并继续生成答案。

北大推出RepoZero:首个可验证的仓库级生成基准,评测LLM从零构建代码仓库能力

北京大学与百度联合推出了新的代码生成基准RepoZero,旨在为“从零生成完整代码仓库”提供可验证、可扩展的评测框架。这一突破标志着大语言模型(LLM)在代码生成领域的进展,逐步向“自动化软件工程师”转变。然而,在最具挑战性的任务中,许多模型的通过率仅为20%至40%,即使是顶级模型Claude-4.6-Sonnet也未能达到可靠的软件工程水平。主要失败原因包括长上下文遗忘、模块协作错误、输出不一致和测试覆盖不足,表明“真正的软件工程智能”仍是AI领域的重大挑战。

“卡神”加盟Anthropic,担任“最具挑战性AI”职位

OpenAI联合创始人安德烈·卡帕西宣布加入Anthropic,表示对大语言模型未来发展的期待。他将在预训练团队负责人尼克·约瑟夫的领导下组建新团队,致力于利用Claude加速预训练研究。卡帕西的目标是优化AI的训练过程,以推动技术进步。

大语言模型在蒸馏过程中可能引入自身偏好

《自然》15日发布的研究表明,大语言模型(LLM)可能会将自身偏好“夹带私货”,影响其他算法,即使原始特征已在训练数据中清除。研究中一个案例显示,模型通过数据隐含信号将对猫头鹰的偏好传递给其他模型。该发现强调了在开发LLM时,进行更全面的安全检查的重要性。

Nebius积极洽谈收购以色列AI初创公司AI21,英伟达收购未果后新动向

云服务提供商Nebius正在与以色列人工智能初创公司AI21 Labs进行收购谈判,旨在扩展其人工智能服务。Nebius由英伟达支持,市值达到320亿美元,主要业务为服务器租赁。AI21 Labs专注于大语言模型和企业智能代理系统,2023年估值达到14亿美元。此前,AI21曾与英伟达洽谈出售,但未达成交易。此次收购若成功,将有助于Nebius在人工智能领域的发展。

暂无评论

暂无评论...