• 覆盖8大类30个细分任务,涵盖文献抽取(LitQA2)、数据库检索(DbQA)、补充信息(SuppQA)、科学图表推理(FigQA/TableQA)、实验协议排错(ProtocolQA)、生物序列操作(SeqQA)及分子克隆复杂场景。
• 公开约80%数据,保留20%私有测试集防止训练污染,内置canary字符串便于模型训练过滤。
• 支持Python 3.10+,提供异步agent接口,便于并行评测与多模型对比。
• 详尽文档和示例代码包含多种基线测试,助力快速上手与复现。
• 数据集开放获取,支持Hugging Face平台同步调用,推动AI在生物研究中的实用转化。
• 论文详述数据集设计与评测方法,具备长期参考价值,为科研AI能力构建提供方法论支撑。
护照博物馆的运作模式是基于一个庞大的护照数据库,用户通过搜索或者浏览的方式获取信息。所有护照样式和办理流程都经过专业团队的整理与审核,确保信息的准确性和权威性。此外,网站的用户分享功能也增强了互动性,让更多人参与到护照申请经验的分享中。
功能特征
1.护照样式展示:网站提供了各国护照的高清图片,用户可以直观地查看不同国家护照的外观与设计。
2.办理程序详解:每个国家的护照申请程序都有详细说明,包括所需材料、步骤和注意事项,实用性强。
3.办理难易程度评估:网站根据不同国家护照的申请难易程度,提供了一些直观的评估,帮助用户选择适合自己的国家申请护照。
4.实时更新:护照博物馆会定期更新不同国家的护照信息,确保用户获得最新的办理要求和政策变化。
5.用户评论与经验分享:用户可以在网站上分享自己的申请经验,帮助其他用户更好地准备护照申请。
操作指南:打开官网,用户在首页可以通过搜索框选择想了解的国家,或者直接浏览各国护照样式。点击某个国家后,用户可以查看该国护照的样式,办理程序,以及相关难易度评估等信息。浏览相关用户分享的申请经验,获取实用的小贴士。用户可以收藏感兴趣的护照样式,方便后续比较与选择。
护照博物馆 | #博物馆 #数据库
本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。
原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面:
修改原始英文数据集的一些问题
翻译为中文数据集
调整直译导致的一些sample
code等一些特殊的输出不进行翻译
对齐一些特殊的标签 或者拒绝生成等输出
Alpaca中文指令微调数据集 | #数据集