前 OpenAI 创始团队成员、特斯拉前 AI 高级总监 Andrej Karpathy 抛出一个激进思路:别再用 RAG 去检索知识库,而是让大模型把知识“编译”成一座持续生长的活 Wiki。这个项目上线两个多月后,在 GitHub 已经冲到 5000+ star。
现任 Anthropic 工程师、前 OpenAI 联合创始人、Tesla 前 AI 总监 Karpathy 直言,他看不下去了,直接扔出一枚“炸弹”。在他看来,RAG 只是搬运工,只能处理局部信息,根本无法把握全局语境。它还很容易“人格分裂”:如果你半年前认定 A 是对的,昨天又写笔记反驳 A,RAG 往往会在两种结论之间来回打架,最后吐出一堆自相矛盾、逻辑混乱的废话。
相关快讯
教程:用 AutoRAG + Milvus 解决 RAG 和 Agent 的串租问题
本文聚焦多租户 RAG 与 Agent 系统中的数据串租风险,分析其成因,并介绍如何借助 Milvus 的 Partition Key 实现物理隔离,再结合 AutoRAG 自动评测框架构建多租隔离验证机制。AutoRAG 可自动枚举配置并筛选最优 Pipeline,且 Milvus 在其 Retrieval 节点中可原生支持。
Hermes上线MoA功能,性能表现有多强?
Hermes Agent上线了MoA(Mixture of Agents)功能,支持将多种模型自由组合成虚拟模型使用。据Nous Research即将发布的基准测试,该混合模型评分已超过Opus 4.8和GPT-5.5。MoA并非新概念,早在2024年6月Together AI就发表过相关论文,核心思路是多层大模型逐层参考上一层输出并继续生成答案。
美团LongCat发布VitaBench2.0开源版本
美团LongCat团队推出了VitaBench 2.0,这是首个针对长期动态用户建模的智能体评测基准。该基准旨在系统性评测大语言模型在真实生活场景中与用户的长期互动能力,重点关注个性化和主动性。VitaBench 2.0的发布标志着智能体评测的进一步发展。
北大推出RepoZero:首个可验证的仓库级生成基准,评测LLM从零构建代码仓库能力
北京大学与百度联合推出了新的代码生成基准RepoZero,旨在为“从零生成完整代码仓库”提供可验证、可扩展的评测框架。这一突破标志着大语言模型(LLM)在代码生成领域的进展,逐步向“自动化软件工程师”转变。然而,在最具挑战性的任务中,许多模型的通过率仅为20%至40%,即使是顶级模型Claude-4.6-Sonnet也未能达到可靠的软件工程水平。主要失败原因包括长上下文遗忘、模块协作错误、输出不一致和测试覆盖不足,表明“真正的软件工程智能”仍是AI领域的重大挑战。
“卡神”加盟Anthropic,担任“最具挑战性AI”职位
OpenAI联合创始人安德烈·卡帕西宣布加入Anthropic,表示对大语言模型未来发展的期待。他将在预训练团队负责人尼克·约瑟夫的领导下组建新团队,致力于利用Claude加速预训练研究。卡帕西的目标是优化AI的训练过程,以推动技术进步。
大语言模型在蒸馏过程中可能引入自身偏好
《自然》15日发布的研究表明,大语言模型(LLM)可能会将自身偏好“夹带私货”,影响其他算法,即使原始特征已在训练数据中清除。研究中一个案例显示,模型通过数据隐含信号将对猫头鹰的偏好传递给其他模型。该发现强调了在开发LLM时,进行更全面的安全检查的重要性。