美团LongCat发布VitaBench2.0开源版本

2 0 0 0

自去年10月推出VitaBench 1.0以来，美团LongCat团队现再发布VitaBench 2.0。这一新版本是首个针对长期动态用户建模的智能体评测基准，旨在系统性评估大语言模型在真实生活场景中，面对长期用户互动时的个性化和主动性能力。

Karpathy再度出圈：RAG新思路，把笔记变成第二大脑

Karpathy 提出用大模型把知识库“编译”成持续生长的活 Wiki，取代传统 RAG 检索。他认为 RAG 只是搬运局部信息，难以理解全局，还容易在知识前后矛盾时产生“人格分裂”，输出逻辑混乱的结果。这一思路在 GitHub 上两个月已获得 5000+ star。

Hermes上线MoA功能，性能表现有多强？

Hermes Agent上线了MoA（Mixture of Agents）功能，支持将多种模型自由组合成虚拟模型使用。据Nous Research即将发布的基准测试，该混合模型评分已超过Opus 4.8和GPT-5.5。MoA并非新概念，早在2024年6月Together AI就发表过相关论文，核心思路是多层大模型逐层参考上一层输出并继续生成答案。

北大推出RepoZero：首个可验证的仓库级生成基准，评测LLM从零构建代码仓库能力

北京大学与百度联合推出了新的代码生成基准RepoZero，旨在为“从零生成完整代码仓库”提供可验证、可扩展的评测框架。这一突破标志着大语言模型（LLM）在代码生成领域的进展，逐步向“自动化软件工程师”转变。然而，在最具挑战性的任务中，许多模型的通过率仅为20%至40%，即使是顶级模型Claude-4.6-Sonnet也未能达到可靠的软件工程水平。主要失败原因包括长上下文遗忘、模块协作错误、输出不一致和测试覆盖不足，表明“真正的软件工程智能”仍是AI领域的重大挑战。

“卡神”加盟Anthropic，担任“最具挑战性AI”职位

OpenAI联合创始人安德烈·卡帕西宣布加入Anthropic，表示对大语言模型未来发展的期待。他将在预训练团队负责人尼克·约瑟夫的领导下组建新团队，致力于利用Claude加速预训练研究。卡帕西的目标是优化AI的训练过程，以推动技术进步。

大语言模型在蒸馏过程中可能引入自身偏好

《自然》15日发布的研究表明，大语言模型（LLM）可能会将自身偏好“夹带私货”，影响其他算法，即使原始特征已在训练数据中清除。研究中一个案例显示，模型通过数据隐含信号将对猫头鹰的偏好传递给其他模型。该发现强调了在开发LLM时，进行更全面的安全检查的重要性。

Nebius积极洽谈收购以色列AI初创公司AI21，英伟达收购未果后新动向

云服务提供商Nebius正在与以色列人工智能初创公司AI21 Labs进行收购谈判，旨在扩展其人工智能服务。Nebius由英伟达支持，市值达到320亿美元，主要业务为服务器租赁。AI21 Labs专注于大语言模型和企业智能代理系统，2023年估值达到14亿美元。此前，AI21曾与英伟达洽谈出售，但未达成交易。此次收购若成功，将有助于Nebius在人工智能领域的发展。

暂无评论

暂无评论...

美团LongCat发布VitaBench2.0开源版本

IDC预测：到2027年推理算力需求将占智能算力70%以上

时空道宇推出全球首个低轨通信星座全栈开源生态计划

相关快讯

Karpathy再度出圈：RAG新思路，把笔记变成第二大脑

Hermes上线MoA功能，性能表现有多强？

北大推出RepoZero：首个可验证的仓库级生成基准，评测LLM从零构建代码仓库能力

“卡神”加盟Anthropic，担任“最具挑战性AI”职位

大语言模型在蒸馏过程中可能引入自身偏好

Nebius积极洽谈收购以色列AI初创公司AI21，英伟达收购未果后新动向

暂无评论

快讯
查看快讯

美团LongCat发布VitaBench2.0开源版本

IDC预测：到2027年推理算力需求将占智能算力70%以上

时空道宇推出全球首个低轨通信星座全栈开源生态计划

相关快讯

Karpathy再度出圈：RAG新思路，把笔记变成第二大脑

Hermes上线MoA功能，性能表现有多强？

北大推出RepoZero：首个可验证的仓库级生成基准，评测LLM从零构建代码仓库能力

“卡神”加盟Anthropic，担任“最具挑战性AI”职位

大语言模型在蒸馏过程中可能引入自身偏好

Nebius积极洽谈收购以色列AI初创公司AI21，英伟达收购未果后新动向

暂无评论

快讯查看快讯

快讯
查看快讯