实时数据在数据分析和应用开发中越来越关键,但找到高质量、公开且实时更新的数据源并不容易。

bytewax 整理了一份非常全面的公开实时数据集和数据源清单,涵盖金融、区块链、交通、天气、物联网、安全、新闻等多个领域,既有免费的也有付费的,支持通过 HTTP 或 WebSocket 等方式访问。

这份资源对数据科学家、开发者和研究人员极具价值,方便快速接入和使用实时数据,加速数据驱动的应用开发和研究。

主要内容包括:

- 金融市场实时行情与区块链交易数据源,如 Coinbase、Binance、 Polygon.io 等;
- 交通运输实时数据,包括英国铁路、纽约公交、瑞士公共交通等;
- 天气和环境监测数据,如 NOAA、Open Weather API、EPA 空气质量数据;
- 网络安全实时威胁情报和证书透明度日志;
- 新闻实时聚合和事件流,涵盖多家主流媒体和技术社区;
- 物联网传感器实时数据渠道及卫星轨迹追踪;
- 还包括多种付费优质数据服务,满足专业需求。

Awesome Public Real-Time Datasets and Sources | #数据集
SoundMind 推出首个面向复杂推理的音频逻辑推理(ALR)数据集,涵盖6,446个音频与文本双模态链式思维注释样本,推动音频语言模型突破传统边界。| #数据集

• 创新点:基于规则的强化学习算法,专为赋能大规模音频语言模型实现深度双模态逻辑推理设计。
• 数据规模:6,446条高质量标注,涵盖训练、测试、验证集,支持链式思维推理,提升模型理解复杂语义的能力。
• 技术细节:依赖 Verl 框架,推荐8×NVIDIA H800/H100 80GB GPU,Python ≥3.9,CUDA≥12.1,确保高效训练与推理。
• 实用工具:提供多种数据预处理脚本,支持仅文本、仅音频或双模态输入,灵活适配各类研究需求。
• 开源透明:MIT许可协议,代码、数据集与模型权重均公开,便于复现与二次开发。
• 研究价值:打破单一模态推理瓶颈,强化音频与文本的逻辑联结,推动音频语言理解迈入新阶段。
SpatialVID:突破视频空间理解瓶颈的超大规模、多维度数据集
| #数据集

• 收录21000+小时野外视频,经过层级筛选提纯,生成270万片段,涵盖7089小时动态内容,规模远超现有公开数据集。
• 每帧视频均含详尽空间标注:相机位姿、深度图、动态遮罩、结构化描述及运动指令,助力动态场景的三维重建与理解。
• 精细注释丰富真实世界多样性,提升模型泛化能力与实际应用效果,填补真实动态场景高质量大规模数据空白。
• 提供完整开源代码与训练权重,支持一键环境搭建与全流程自动化:评分、注释、描述生成,方便研究复现与二次开发。
• 兼容多款主流3D视觉模型与分割工具,基于Apache-2.0协议,科研与商业均可灵活使用。
• 配套下载脚本支持HuggingFace及YouTube原始视频获取,方便快速构建定制训练集。
TexVerse:一个涵盖超85万高质量3D模型及高分辨率材质的大型开放数据集,专为视觉计算、图形学研究与应用打造。| #数据集

• 数据规模:858,669个独特3D模型,包含158,518个基于物理渲染(PBR)材质模型,支持2K、4K、8K超高清纹理。
• 多样变体:每个模型含所有高分辨率变体,累计1,659,097个3D实例,满足细粒度需求。
• 动画与骨骼:专门子集包含69,138个绑定骨骼模型与54,430个动画模型,保留用户原始文件格式,确保骨骼与动画完整性。
• 细致标注:涵盖整体特征、结构组件及精细特征,便于深入分析与训练。
• 开放授权:所有模型均采用Creative Commons许可,支持广泛共享与再利用。
• 下载方式:高分辨率纹理集中托管于TexVerse,1K纹理另有独立资源,动画与骨骼数据联合托管,资源详见metadata文件。

TexVerse为三维内容创作与AI视觉应用提供了坚实数据基础,是推动高精度3D理解与生成的宝贵资源。
千万级信息图表数据集,助力图表理解与生成领域突破

• 覆盖115万+合成与10万+真实信息图表,囊括75种图表类型、330种视觉变体及68种布局模板
• 数据来源广泛,采集自Pinterest、Visual Capitalist、Statista等19个权威图表网站
• 合成图表通过程序化生成,基于详尽的视觉元素和空间布局规则,确保多样且高质量
• 应用场景丰富:
 – 提升基础模型对信息图表的理解能力,附完整训练与评测代码
 – LVLM代码生成基准,精准评估D3.js图表渲染的视觉相似度,支持高低粒度对比
 – 示例驱动的图表生成方法,能根据样例图表风格将用户表格数据转化为美观信息图
• 数据集及相关代码均开源,采用Apache 2.0协议,便于科研与产业应用
• 最新数据发布:2025年6月新增23万+合成图表,整体规模达44万种变体

ChartGalaxy | #数据集
LAB-Bench:面向生物科学研究的 AI 能力基准评测数据集,助力科学智能的系统化验证与提升。| #数据集

• 覆盖8大类30个细分任务,涵盖文献抽取(LitQA2)、数据库检索(DbQA)、补充信息(SuppQA)、科学图表推理(FigQA/TableQA)、实验协议排错(ProtocolQA)、生物序列操作(SeqQA)及分子克隆复杂场景。
• 公开约80%数据,保留20%私有测试集防止训练污染,内置canary字符串便于模型训练过滤。
• 支持Python 3.10+,提供异步agent接口,便于并行评测与多模型对比。
• 详尽文档和示例代码包含多种基线测试,助力快速上手与复现。
• 数据集开放获取,支持Hugging Face平台同步调用,推动AI在生物研究中的实用转化。
• 论文详述数据集设计与评测方法,具备长期参考价值,为科研AI能力构建提供方法论支撑。
为遥感领域打造的视觉语言数据集,助力AI模型更好地理解遥感图像。

超过130万张遥感图像,每张图像配备多个描述性标题;利用大型语言模型(LLM)自动生成高质量标注,减少人工标注成本;数据覆盖美国全境,图像分辨率高达0.6米

RSTeller |#数据集
一个大规模、高难度、去污染且可验证的数学数据集,助力数学推理能力的提升。

包含103,000道高难度数学题目,难度主要集中在5-9级;覆盖广泛的数学主题,包括代数、微积分、数论、几何、概率和离散数学;经过严格去污染处理,确保数据纯净,避免测试集泄露

DeepMath | #数据集
一个大规模开源的人脸识别定制化数据集,助力人脸识别技术的高效开发和优化

包含600万高质量文本-图像对,数据量庞大;经过严格筛选,确保数据质量;提供训练好的模型,方便快速上手

FaceID-6M | #数据集
迄今为止最大的自动驾驶数据集,助力开发者轻松训练自动驾驶模型。

数据量惊人,高达90 TeraBytes;超长驾驶时长,涵盖5000小时真实路况;6个环绕高清摄像头,全方位捕捉驾驶场景

L2D | #数据集
覆盖全球的多模态时空数据集,为研究地球环境变化提供丰富资源,支持跨学科分析

NeurIPS24-Terra | #数据集
一个专门面向长视频生成的电影级数据集,特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事,确保角色外观和音频在不同场景中的一致性,并提供分层的数据结构,包含高层电影信息和详细的镜头级描述

MovieBench | #数据集
全球街景数据集,包含1000万张街景图像,覆盖212个国家和地区的688个城市,每张图像都经过丰富的地理空间、时间、上下文、语义和感知信息增强

Global Streetscapes | #数据集
MidiCaps:大规模MIDI文件标注数据集,为音乐内容分析提供全面特征,包括节奏、和弦进行、拍号、乐器存在、流派和情绪等,支持从个人MIDI文件集合生成描述性文本 | #数据集
持续更新的中文指令微调数据集,支持双语微调和数据修正。

本数据集包括中文和英文的混合数据集,方便双语微调,以及后续做持续的数据修正。

原始的Alpaca英文数据集也存在不少的问题,个别的数学类的sample是错的,有少部分output字段需要修正,一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上,翻译出对应的中文版本,中文版基本是原始sample的翻译,但是对于一些比如押韵类、时态类的一些instruction,直接翻译导致韵脚丢失,时态不一致等。需要对应的进行人工改写。主要分为以下几个方面:

修改原始英文数据集的一些问题
翻译为中文数据集
调整直译导致的一些sample
code等一些特殊的输出不进行翻译
对齐一些特殊的标签 或者拒绝生成等输出

Alpaca中文指令微调数据集 | #数据集
首个包含4200万关键帧的大规模卡通动画数据集,旨在推动卡通动画研究领域的发展

Sakuga-42M Dataset: Scaling Up Cartoon Research | #数据集
用Llama3和distilabel端到端构建语言模型微调数据集 | link | #数据集
用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集,包含超过 4000 个多步多模态任务,这些任务涉及 33 种工具,包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块

m&m's | #数据集
拓展型的地球观测数据集,旨在为大规模(TB级)的遥感数据集提供标准化的处理方法和示例。

Major TOM | #数据集
代表性LLM文本数据集大列表,包括预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集

Awesome-LLMs-Datasets
| #数据集
 
 
Back to Top