北大推出RepoZero：首个可验证的仓库级生成基准，评测LLM从零构建代码仓库能力

2个月前更新

9 0 0 0

随着大语言模型（LLM）在代码生成领域的持续进步，人工智能正逐步演变为“自动化软件工程师”，超越了单纯的“代码补全工具”。近期，北京大学与百度携手推出了新的代码生成基准——RepoZero，首次提供了一个可验证、可扩展且自动化的评测框架，旨在实现“从零生成完整代码仓库”，为AI软件工程研究开辟了新的方向。

在最具挑战性的任务中，多数模型的通过率仅为20%至40%。即便是顶尖模型Claude-4.6-Sonnet，其表现也未能达到可靠软件工程的标准。主要失败因素包括：长上下文遗忘、模块协作错误、输出不一致以及测试覆盖不足。这一现象表明，“真正的软件工程智能”仍然是AI领域亟待攻克的重要难题。

北大推出RepoZero：首个可验证的仓库级生成基准，评测LLM从零构建代码仓库能力的封面图

北大推出RepoZero：首个可验证的仓库级生成基准，评测LLM从零构建代码仓库能力

VITURE XR眼镜：如何从《Time》年度发明走向北美销量冠军？

LIBERO 99%实测：卧安OneModel 1.7如何实现从理解到行动的突破

相关快讯

去哪儿旅行签约接入国家级AI协同生态，迈出智能化新一步

侨银股份与润建股份在广州合资成立新公司，注册资本1000万

腾讯云宣布大规模部署国产化算力与NPO超级节点

陆川谈 AI：像“预制菜”，正用来同时推进五部电影筹备

机器人会干活了，行业更需要“刁钻坏人”来找漏洞

2026世界人工智能大会闭幕，意向采购金额预计超200亿元

暂无评论

快讯
查看快讯

北大推出RepoZero：首个可验证的仓库级生成基准，评测LLM从零构建代码仓库能力

VITURE XR眼镜：如何从《Time》年度发明走向北美销量冠军？

LIBERO 99%实测：卧安OneModel 1.7如何实现从理解到行动的突破

相关快讯

去哪儿旅行签约接入国家级AI协同生态，迈出智能化新一步

侨银股份与润建股份在广州合资成立新公司，注册资本1000万

腾讯云宣布大规模部署国产化算力与NPO超级节点

陆川谈 AI：像“预制菜”，正用来同时推进五部电影筹备

机器人会干活了，行业更需要“刁钻坏人”来找漏洞

2026世界人工智能大会闭幕，意向采购金额预计超200亿元

暂无评论

快讯查看快讯

快讯
查看快讯