大语言模型在蒸馏过程中可能引入自身偏好

2个月前更新 zmtzn
5 0 0

《自然》杂志15日发布的研究揭示,大语言模型(LLM)可能会将自身偏好“隐性传递”给其他算法,即便训练数据中已去除原始特征,这些不必要的特征依然可能存留。在一个案例中,某模型似乎通过数据中的隐含信号,将其对猫头鹰的偏好传递给了其他模型。这一发现强调了在开发LLM时,需进行更为深入的安全审查。(财联社)

大语言模型在蒸馏过程中可能引入自身偏好的封面图

相关快讯

特朗普政府向Meta施压,要求提交AI模型进行安全审查

特朗普政府正在施压Meta,要求其自愿提交人工智能模型进行审查,以便评估模型的性能与漏洞。这一要求通过电子邮件形式提交给Meta。尽管Meta在今年4月推出了Muse Spark人工智能模型,但该公司是美国唯一一家尚未与联邦政府达成协议,自愿共享其模型以供审查的主要人工智能技术开发商。

SpaceX星链印度业务启动面临安全审查挑战,上市前夕引发关注

印度因担忧星链卫星终端在伊朗战争中的应用,已冻结马斯克旗下星链在该国启动商业运营的审批。知情人士透露,印度内政部下属的安全机构尚未批准星链开展业务所需的最终许可。

北大推出RepoZero:首个可验证的仓库级生成基准,评测LLM从零构建代码仓库能力

北京大学与百度联合推出了新的代码生成基准RepoZero,旨在为“从零生成完整代码仓库”提供可验证、可扩展的评测框架。这一突破标志着大语言模型(LLM)在代码生成领域的进展,逐步向“自动化软件工程师”转变。然而,在最具挑战性的任务中,许多模型的通过率仅为20%至40%,即使是顶级模型Claude-4.6-Sonnet也未能达到可靠的软件工程水平。主要失败原因包括长上下文遗忘、模块协作错误、输出不一致和测试覆盖不足,表明“真正的软件工程智能”仍是AI领域的重大挑战。

“卡神”加盟Anthropic,担任“最具挑战性AI”职位

OpenAI联合创始人安德烈·卡帕西宣布加入Anthropic,表示对大语言模型未来发展的期待。他将在预训练团队负责人尼克·约瑟夫的领导下组建新团队,致力于利用Claude加速预训练研究。卡帕西的目标是优化AI的训练过程,以推动技术进步。

Nebius积极洽谈收购以色列AI初创公司AI21,英伟达收购未果后新动向

云服务提供商Nebius正在与以色列人工智能初创公司AI21 Labs进行收购谈判,旨在扩展其人工智能服务。Nebius由英伟达支持,市值达到320亿美元,主要业务为服务器租赁。AI21 Labs专注于大语言模型和企业智能代理系统,2023年估值达到14亿美元。此前,AI21曾与英伟达洽谈出售,但未达成交易。此次收购若成功,将有助于Nebius在人工智能领域的发展。

阿里Qwen 3.6-Plus荣获全球大模型盲测榜单第二名

4月3日,LMArena旗下的Code Arena发布了最新的编程能力排名。阿里巴巴的大语言模型Qwen 3.6-Plus在全球榜单中位居第二,成为中国大模型中排名最高的。

暂无评论

暂无评论...