OpenAI 发布 GeneBench-Pro:专为评估 AI 生物学计算能力的新基准测试

3天前更新 laddes
4 0 0

主要用来评估 AI 模型在生物学计算任务中的真实研究能力,重点考察模型面对杂乱数据时的分析判断能力、方法选择能力,以及其研究结论是否足以支撑后续决策。具体而言,GeneBench-Pro 基准测试覆盖基因组学定量生物学转化医学等多个方向,共设置 129 道题目,分布在 10 个大领域和 21 个子领域,涉及统计遗传学、群体遗传学、功能基因组学、蛋白质组学等内容。每道题都会为模型提供一份接近真实科研场景的数据集,以及简要的实验背景说明和一个与后续决策直接相关的目标问题。

OpenAI 发布 GeneBench-Pro:专为评估 AI 生物学计算能力的新基准测试的封面图

相关快讯

首个具身智能行业标准正式发布,开启新篇章

中国信息通信研究院与40余家单位联合发布了具身智能领域首个行业标准,标志着该领域评测进入有标可依的新阶段。该标准于3月26日正式发布,聚焦于人工智能的关键基础技术和具身智能的基准测试方法,明确了具身智能系统的框架和能力要求。该标准将于2026年6月1日正式实施。

首个具身智能行业标准正式发布,开启新篇章

中国信息通信研究院与40余家单位共同发布了具身智能领域首个行业标准,标志着该领域评测进入“有标可依”的新阶段。该标准建立了统一的基准测试框架,重点关注人工智能的关键基础技术和具身智能的测试方法,明确了具身智能系统的框架和能力要求。该标准将于2026年6月1日正式实施。

印度政府介入调查苹果手机信息泄露事件

印度政府首次就塔塔电子大规模数据泄露事件表态,称已展开调查并上报网络安全机构。塔塔电子是苹果重要供应商,路透社称黑客窃取并在暗网上传了未公开机密数据,包括iPhone 18 Pro零部件供应链信息和测试素材。

业内首个AI-eSIM产业协同平台正式成立

7月3日,在中国信息通信业发展高层论坛上,由中国移动发起的业内首个AI-eSIM产业协同平台“中国通信企业协会AI-eSIM专业委员会”正式成立。中国移动物联网公司任主任单位,天翼物联、联通华盛等任副主任单位,汇聚40余家产业链头部企业。

广州白云国际机场口岸外籍客流占比突破四成,创历史新高

截至3日,广州白云国际机场口岸今年入出境外国人已超390万人次,同比增长34%,占出入境总量41%以上,人数和占比均创历史新高。该口岸整体出入境人员已超1000万人次,同比增长19.6%,并较2025年提前34天突破千万。

国家统计局发布:2026年6月下旬流通领域重要生产资料市场价格变动情况

国家统计局7月4日发布监测数据显示,2026年6月下旬,全国流通领域9大类50种重要生产资料市场价格总体以下降为主:13种产品价格上涨,34种下降,3种持平,反映出当期重要生产资料价格波动分化、下行品种占多数。

暂无评论

暂无评论...