通过整合多开源数据集并进行深度处理,构建了迄今最大的开源NLP预训练语料Zyda,质量接近商业语料,为开源语言模型研究奠定数据基础。

Zyda: A 1.3T Dataset for Open Language Modeling
 
 
Back to Top