LAB-Bench:面向生物科学研究的 AI 能力基准评测数据集,助力科学智能的系统化验证与提升。| #数据集

• 覆盖8大类30个细分任务,涵盖文献抽取(LitQA2)、数据库检索(DbQA)、补充信息(SuppQA)、科学图表推理(FigQA/TableQA)、实验协议排错(ProtocolQA)、生物序列操作(SeqQA)及分子克隆复杂场景。
• 公开约80%数据,保留20%私有测试集防止训练污染,内置canary字符串便于模型训练过滤。
• 支持Python 3.10+,提供异步agent接口,便于并行评测与多模型对比。
• 详尽文档和示例代码包含多种基线测试,助力快速上手与复现。
• 数据集开放获取,支持Hugging Face平台同步调用,推动AI在生物研究中的实用转化。
• 论文详述数据集设计与评测方法,具备长期参考价值,为科研AI能力构建提供方法论支撑。
 
 
Back to Top