突破传统限制的十亿级语料库搜索利器 :SoftMatcha | #工具 #语料库

创新性地结合词嵌入和倒排索引,提出了一种快速且语义化的模式匹配算法,有效解决了大规模语料库中传统精确匹配方法的局限性,并在效率、可扩展性和语义匹配能力上取得了显著提升,为 NLP 和语料库语言学领域的大规模文本分析提供了强有力的工具。

超高速检索:在十亿级语料库中,搜索时间不到一秒,与表面字符匹配和密集向量搜索相当

语义敏感:能够从大规模英语和日语维基百科语料中提取与查询语义匹配的潜在有害内容

多语言适应性:在拉丁语这种高度屈折变化的语言上展现出色的效果,证明其语言通用性

通过倒排索引技术, SoftMatcha在语料库规模扩展方面表现出色,同时本文提供了高效的实现和便捷的网页工具,使研究人员能够轻松应用这一技术进行语料库分析。

对于需要在海量文本中进行精确语义分析的研究者和从业者来说. SoftMatcha无疑是一个强大而实用的新选择。
多语言网络文学语料库,用于研究机器翻译和大型语言模型,包含丰富的语言文化现象和长文本上下文

GuoFeng Webnovel | #语料库
大规模信息提取语料库,用于训练和评估信息提取模型

IEPile | #语料库
一个多样化且高质量的以数学为中心的语料库,包含约 95 亿个tokens。其数据包括教科书(包括讲义)、arXiv、维基百科、ProofWiki、StackExchange 和网页。它包含适合 K-12、大学、研究生水平和数学竞赛的数学内容。

MathPile | #语料库
TUMCC (Telegram Underground Market Chinese Corpus):Telegram地下市场中文黑话识别语料集

repo | #语料库
书生·万卷1.0为书生·万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总体超过2TB。

基于大模型数据联盟构建的语料库,上海AI实验室对其中部分数据进行了细粒度清洗、去重以及价值梳理,形成了书生·万卷1.0,具备多元融合、精细处理、价值梳理、数学高效等四大特征。

在多元方面,书生·万卷1.0包含文本、图文、视频等多模态数据,范围覆盖科技、融合、媒体、教育、法律等多个领域,在训练提升模型知识内涵、逻辑推理和泛化推理化能力方面具有显着效果。

在精细化处理方面,书生·万卷1.0经历了甄别语言、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多维度重整、数据质量评估等精细化数据处理环节,从而能够更好接地装配后续的模型训练需求。

在价值洞察方面,研究人员在书生·万卷1.0的构建过程中,着眼于内容与中文主流价值观结合的洞察,通过算法与人工评估的方式,提升了语料的纯净度。

在高效建模方面,研究人员在书生·万卷1.0统一格式,并提供了详细的参数字段说明和工具指南,综合考虑了建模性和效率,可快速评估语言、多模态等大模型训练。

目前,书生·万卷1.0已被评估书生·多态、书生·浦语的训练。通过对高质量语料的“消化模型”,书生系列模型在语义理解、知识问答、视觉理解、视觉问答等各类生成式任务表现出了优异的性能。

WanJuan1.0 | #语料库
OpenAssistant Conversations (OASST1) | paper | #语料库

这是一个由人工生成、人工注释的助手式对话语料库,包含了161,443条消息,分布在66,497个对话树中,涵盖了35种不同的语言,并附有461,292个质量评级。

该语料库是全球范围内超过13,500名志愿者参与的众包努力的成果。
中文科幻小说语料库 | #电子书 #语料库

大约有4675本科幻小说,可作为中文科幻小说人工智能语料库使用

1,4675本科幻小说,前百度贴吧科幻吧吧主比尔布莱克整理的4675本科幻小说。| 地址

2,乌拉科幻小说网,被科幻世界杂志社灭了之后,释放的压缩包。| 地址
腾讯ai lab的中英文词语料库。

中英文都提供200维向量表征。很早之前就发布了,不过一直在更新,现在更新到了1200多万中文词和600多万英文词 ​​​

传送门 | #语料库
Chinese voice corpus.

中文语音 #语料库 ,语音更加清晰自然,包含8个开源 #数据集 ,3200个说话人,900小时语音,1300万字
VoxPopuli:最大的开放多语言语音 #语料库 ,面向机器翻译等应用
华语现代诗歌语料库 - 最全的汉语现代诗歌 #语料库 整理,2K+诗人,41K+诗歌,8M+字,包括五四至今的所有流派 #文学
ChineseDiachronicCorpus,中文历时 #语料库 ,横跨六十余年,收录多个消息平台的新闻语料。可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持
美国当代英语语料库: 互联网上最大的免费 #英语 #语料库 。除了搜单词也可以搜词组
Manuscripts Online:在线古代英国手稿,汇集了知名英国古典 #手稿 的研究资源,可以当古 #英语 #语料库
 
 
Back to Top