北大推出RepoZero:首个可验证的仓库级生成基准,评测LLM从零构建代码仓库能力

2天前更新
2 0 0

随着大语言模型(LLM)在代码生成领域的持续进步,人工智能正逐步演变为“自动化软件工程师”,超越了单纯的“代码补全工具”。近期,北京大学与百度携手推出了新的代码生成基准——RepoZero,首次提供了一个可验证、可扩展且自动化的评测框架,旨在实现“从零生成完整代码仓库”,为AI软件工程研究开辟了新的方向。

在最具挑战性的任务中,多数模型的通过率仅为20%至40%。即便是顶尖模型Claude-4.6-Sonnet,其表现也未能达到可靠软件工程的标准。主要失败因素包括:长上下文遗忘、模块协作错误、输出不一致以及测试覆盖不足。这一现象表明,“真正的软件工程智能”仍然是AI领域亟待攻克的重要难题。

北大推出RepoZero:首个可验证的仓库级生成基准,评测LLM从零构建代码仓库能力的封面图

相关快讯

周鸿祎预测:十年后人类将不再开车?马斯克的大胆想象解析

周鸿祎在视频中评论了马斯克关于“十年后人类都不开车了”的预言。他认为,马斯克的观点不仅涉及驾照的未来,更重要的是强调人工智能(AI)将进入一个新阶段。未来的AI将不再仅限于屏幕上的交互,而是会在真实世界中发挥更大的作用。周鸿祎指出,AI的进步将改变物流、人流和车流,甚至将重塑整个物理世界的运作方式。

多家上市公司纷纷布局Token工厂,推动AI商业模式加速落地

多家上市公司正在布局Token工厂,以加速人工智能(AI)商业模式的落地。近期,三大运营商推出了Token套餐,使其成为智能经济时代连接技术供给与商业需求的基本结算单位。同时,人工智能数据中心(AIDC)也在转变运营和销售模式,依托算力基础设施构建Token工厂。天风证券的研报指出,Token为AI行业的商业模式实现提供了量化的可能性,推动了AI产业的发展。

国家发改委推动国产大模型与算力芯片深度适配

国家发改委在5月22日的新闻发布会上强调,人工智能领域的核心技术和应用需求正在迅速增长。李超副主任表示,国家将继续推动人工智能与各行业的深度融合,鼓励国产大模型适配国产算力芯片,以确保技术的自主可控和安全发展。此外,国家发改委致力于让全体人民共享人工智能的发展成果,强调了系统布局、分业施策、开放共享等原则。这一政策旨在保持人工智能的快速发展,同时实现可持续和向善的目标。

OpenAI每日亏损超5亿,Anthropic即将实现盈利

根据The Information的报道,OpenAI在2023年第一季度的营收约为57亿美元,超过其竞争对手Anthropic近10亿美元。然而,第一季度后,Anthropic的营收已超越OpenAI。同时,OpenAI的ChatGPT用户增长在第一季度停滞。当前,提升ChatGPT用户使用量以推动后续业绩增长成为OpenAI面临的主要挑战。

SpaceX AI前景受挑战:美国政府400项目中仅3个与Grok相关

文件指出,SpaceX的人工智能业务Grok在美国政府中的应用率较低,仅有3个采购案例涉及Grok或xAI,而OpenAI等其他公司的模型则更为普遍。作为xAI的主要客户,美国政府对Grok的冷淡态度反映出该公司面临的市场挑战,并可能预示着Grok在商业领域也会遭遇客户流失的风险。

“中科沌序成功获得数千万天使轮融资”

北京中科沌序科技有限公司近日完成数千万规模的天使轮融资,首程资本领投,钧犀资本和顺禧基金跟投。这家公司源自中国科学院自动化所,专注于Collective AGI(群体通用人工智能),旨在解决AI行业面临的“远景美好、落地艰难”问题,推动技术与商业的双轨发展。中科沌序同时关注未来无人社会的广泛应用场景与当前低空安全产品的实际落地。

暂无评论

暂无评论...