黑洞资源笔记

15:41 · Nov 13, 2025 · Thu

实时数据在数据分析和应用开发中越来越关键，但找到高质量、公开且实时更新的数据源并不容易。

bytewax 整理了一份非常全面的公开实时数据集和数据源清单，涵盖金融、区块链、交通、天气、物联网、安全、新闻等多个领域，既有免费的也有付费的，支持通过 HTTP 或 WebSocket 等方式访问。

这份资源对数据科学家、开发者和研究人员极具价值，方便快速接入和使用实时数据，加速数据驱动的应用开发和研究。

主要内容包括：

- 金融市场实时行情与区块链交易数据源，如 Coinbase、Binance、 Polygon.io 等；
- 交通运输实时数据，包括英国铁路、纽约公交、瑞士公共交通等；
- 天气和环境监测数据，如 NOAA、Open Weather API、EPA 空气质量数据；
- 网络安全实时威胁情报和证书透明度日志；
- 新闻实时聚合和事件流，涵盖多家主流媒体和技术社区；
- 物联网传感器实时数据渠道及卫星轨迹追踪；
- 还包括多种付费优质数据服务，满足专业需求。

Awesome Public Real-Time Datasets and Sources | #数据集

15:12 · Oct 9, 2025 · Thu

数据库备份和恢复任务繁琐又容易出错，多个工具切换更让运维头疼。

Onedump 是一款开源的数据库管理工具，专注于简化多种数据库的备份与恢复流程，一键搞定数据库数据导出和同步。| #数据库 #工具

它支持 MySQL 和 PostgreSQL，除了内置无依赖的 MySQL 原生转储器，还兼容 mysqldump 和 pg_dump，满足不同场景需求。

主要功能包括：

- 多源数据库备份到多目标存储（本地、AWS S3、Google Drive、Dropbox、SFTP）；
- MySQL binlog 备份和恢复，实现精准的时间点恢复；
- 支持断点续传和并发的 SFTP 文件传输；
- 内置 MySQL 慢日志解析工具，方便性能分析；
- 配置文件可本地或直接从 S3 加载，支持集群和容器化部署；
- Slack 通知集成，实时掌握备份状态。

支持跨平台使用，既有方便的二进制文件，也有包含所有依赖的 Docker 镜像，适合 DBA、开发者和运维团队。

数据库工具

12:51 · Sep 24, 2025 · Wed

SoundMind 推出首个面向复杂推理的音频逻辑推理（ALR）数据集，涵盖6,446个音频与文本双模态链式思维注释样本，推动音频语言模型突破传统边界。| #数据集

• 创新点：基于规则的强化学习算法，专为赋能大规模音频语言模型实现深度双模态逻辑推理设计。
• 数据规模：6,446条高质量标注，涵盖训练、测试、验证集，支持链式思维推理，提升模型理解复杂语义的能力。
• 技术细节：依赖 Verl 框架，推荐8×NVIDIA H800/H100 80GB GPU，Python ≥3.9，CUDA≥12.1，确保高效训练与推理。
• 实用工具：提供多种数据预处理脚本，支持仅文本、仅音频或双模态输入，灵活适配各类研究需求。
• 开源透明：MIT许可协议，代码、数据集与模型权重均公开，便于复现与二次开发。
• 研究价值：打破单一模态推理瓶颈，强化音频与文本的逻辑联结，推动音频语言理解迈入新阶段。

23:22 · Sep 13, 2025 · Sat

SpatialVID：突破视频空间理解瓶颈的超大规模、多维度数据集
| #数据集

• 收录21000+小时野外视频，经过层级筛选提纯，生成270万片段，涵盖7089小时动态内容，规模远超现有公开数据集。
• 每帧视频均含详尽空间标注：相机位姿、深度图、动态遮罩、结构化描述及运动指令，助力动态场景的三维重建与理解。
• 精细注释丰富真实世界多样性，提升模型泛化能力与实际应用效果，填补真实动态场景高质量大规模数据空白。
• 提供完整开源代码与训练权重，支持一键环境搭建与全流程自动化：评分、注释、描述生成，方便研究复现与二次开发。
• 兼容多款主流3D视觉模型与分割工具，基于Apache-2.0协议，科研与商业均可灵活使用。
• 配套下载脚本支持HuggingFace及YouTube原始视频获取，方便快速构建定制训练集。

15:51 · Aug 13, 2025 · Wed

TexVerse：一个涵盖超85万高质量3D模型及高分辨率材质的大型开放数据集，专为视觉计算、图形学研究与应用打造。| #数据集

• 数据规模：858,669个独特3D模型，包含158,518个基于物理渲染（PBR）材质模型，支持2K、4K、8K超高清纹理。
• 多样变体：每个模型含所有高分辨率变体，累计1,659,097个3D实例，满足细粒度需求。
• 动画与骨骼：专门子集包含69,138个绑定骨骼模型与54,430个动画模型，保留用户原始文件格式，确保骨骼与动画完整性。
• 细致标注：涵盖整体特征、结构组件及精细特征，便于深入分析与训练。
• 开放授权：所有模型均采用Creative Commons许可，支持广泛共享与再利用。
• 下载方式：高分辨率纹理集中托管于TexVerse，1K纹理另有独立资源，动画与骨骼数据联合托管，资源详见metadata文件。

TexVerse为三维内容创作与AI视觉应用提供了坚实数据基础，是推动高精度3D理解与生成的宝贵资源。

16:13 · Aug 12, 2025 · Tue

千万级信息图表数据集，助力图表理解与生成领域突破

• 覆盖115万+合成与10万+真实信息图表，囊括75种图表类型、330种视觉变体及68种布局模板
• 数据来源广泛，采集自Pinterest、Visual Capitalist、Statista等19个权威图表网站
• 合成图表通过程序化生成，基于详尽的视觉元素和空间布局规则，确保多样且高质量
• 应用场景丰富：
– 提升基础模型对信息图表的理解能力，附完整训练与评测代码
– LVLM代码生成基准，精准评估D3.js图表渲染的视觉相似度，支持高低粒度对比
– 示例驱动的图表生成方法，能根据样例图表风格将用户表格数据转化为美观信息图
• 数据集及相关代码均开源，采用Apache 2.0协议，便于科研与产业应用
• 最新数据发布：2025年6月新增23万+合成图表，整体规模达44万种变体

ChartGalaxy | #数据集

15:48 · Jul 29, 2025 · Tue

LAB-Bench：面向生物科学研究的 AI 能力基准评测数据集，助力科学智能的系统化验证与提升。| #数据集

• 覆盖8大类30个细分任务，涵盖文献抽取（LitQA2）、数据库检索（DbQA）、补充信息（SuppQA）、科学图表推理（FigQA/TableQA）、实验协议排错（ProtocolQA）、生物序列操作（SeqQA）及分子克隆复杂场景。
• 公开约80%数据，保留20%私有测试集防止训练污染，内置canary字符串便于模型训练过滤。
• 支持Python 3.10+，提供异步agent接口，便于并行评测与多模型对比。
• 详尽文档和示例代码包含多种基线测试，助力快速上手与复现。
• 数据集开放获取，支持Hugging Face平台同步调用，推动AI在生物研究中的实用转化。
• 论文详述数据集设计与评测方法，具备长期参考价值，为科研AI能力构建提供方法论支撑。

01:00 · May 30, 2025 · Fri

为遥感领域打造的视觉语言数据集，助力AI模型更好地理解遥感图像。

超过130万张遥感图像，每张图像配备多个描述性标题；利用大型语言模型（LLM）自动生成高质量标注，减少人工标注成本；数据覆盖美国全境，图像分辨率高达0.6米

RSTeller |#数据集

15:08 · Apr 16, 2025 · Wed

一个大规模、高难度、去污染且可验证的数学数据集，助力数学推理能力的提升。

包含103,000道高难度数学题目，难度主要集中在5-9级；覆盖广泛的数学主题，包括代数、微积分、数论、几何、概率和离散数学；经过严格去污染处理，确保数据纯净，避免测试集泄露

DeepMath | #数据集

14:57 · Apr 10, 2025 · Thu

一个大规模开源的人脸识别定制化数据集，助力人脸识别技术的高效开发和优化

包含600万高质量文本-图像对，数据量庞大；经过严格筛选，确保数据质量；提供训练好的模型，方便快速上手

FaceID-6M | #数据集

01:55 · Mar 24, 2025 · Mon

护照博物馆是一个在线平台，支持所有主流操作系统和设备。无需支付任何费用即可获取所有信息和功能。旨在为用户提供全面的护照信息和办理指导。该网站汇集了多个国家和地区的护照样式，以及对应的办理流程和要求，成为了获取护照知识的权威参考

护照博物馆的运作模式是基于一个庞大的护照数据库，用户通过搜索或者浏览的方式获取信息。所有护照样式和办理流程都经过专业团队的整理与审核，确保信息的准确性和权威性。此外，网站的用户分享功能也增强了互动性，让更多人参与到护照申请经验的分享中。

功能特征
1.护照样式展示：网站提供了各国护照的高清图片，用户可以直观地查看不同国家护照的外观与设计。
2.办理程序详解：每个国家的护照申请程序都有详细说明，包括所需材料、步骤和注意事项，实用性强。
3.办理难易程度评估：网站根据不同国家护照的申请难易程度，提供了一些直观的评估，帮助用户选择适合自己的国家申请护照。
4.实时更新：护照博物馆会定期更新不同国家的护照信息，确保用户获得最新的办理要求和政策变化。
5.用户评论与经验分享：用户可以在网站上分享自己的申请经验，帮助其他用户更好地准备护照申请。

操作指南：打开官网，用户在首页可以通过搜索框选择想了解的国家，或者直接浏览各国护照样式。点击某个国家后，用户可以查看该国护照的样式，办理程序，以及相关难易度评估等信息。浏览相关用户分享的申请经验，获取实用的小贴士。用户可以收藏感兴趣的护照样式，方便后续比较与选择。

护照博物馆 | #博物馆 #数据库

博物馆数据库

15:25 · Mar 19, 2025 · Wed

迄今为止最大的自动驾驶数据集，助力开发者轻松训练自动驾驶模型。

数据量惊人，高达90 TeraBytes；超长驾驶时长，涵盖5000小时真实路况；6个环绕高清摄像头，全方位捕捉驾驶场景

L2D | #数据集

15:02 · Dec 18, 2024 · Wed

覆盖全球的多模态时空数据集，为研究地球环境变化提供丰富资源，支持跨学科分析

NeurIPS24-Terra | #数据集

05:50 · Nov 27, 2024 · Wed

一个专门面向长视频生成的电影级数据集，特点是包含完整电影长度的视频、连贯的故事情节和多场景叙事，确保角色外观和音频在不同场景中的一致性，并提供分层的数据结构，包含高层电影信息和详细的镜头级描述

MovieBench | #数据集

15:59 · Sep 10, 2024 · Tue

全球街景数据集，包含1000万张街景图像，覆盖212个国家和地区的688个城市，每张图像都经过丰富的地理空间、时间、上下文、语义和感知信息增强

Global Streetscapes | #数据集

16:02 · Jun 9, 2024 · Sun

MidiCaps：大规模MIDI文件标注数据集，为音乐内容分析提供全面特征，包括节奏、和弦进行、拍号、乐器存在、流派和情绪等，支持从个人MIDI文件集合生成描述性文本 | #数据集

15:49 · May 24, 2024 · Fri

持续更新的中文指令微调数据集，支持双语微调和数据修正。

本数据集包括中文和英文的混合数据集，方便双语微调，以及后续做持续的数据修正。

原始的Alpaca英文数据集也存在不少的问题，个别的数学类的sample是错的，有少部分output字段需要修正，一些的标签没有对齐等。本数据集会对原始的数据集进行修改和修正。再此基础上，翻译出对应的中文版本，中文版基本是原始sample的翻译，但是对于一些比如押韵类、时态类的一些instruction，直接翻译导致韵脚丢失，时态不一致等。需要对应的进行人工改写。主要分为以下几个方面：

修改原始英文数据集的一些问题
翻译为中文数据集
调整直译导致的一些sample
code等一些特殊的输出不进行翻译
对齐一些特殊的标签或者拒绝生成等输出

Alpaca中文指令微调数据集 | #数据集

16:17 · May 16, 2024 · Thu

首个包含4200万关键帧的大规模卡通动画数据集，旨在推动卡通动画研究领域的发展

Sakuga-42M Dataset: Scaling Up Cartoon Research | #数据集

15:41 · Apr 27, 2024 · Sat

用Llama3和distilabel端到端构建语言模型微调数据集 | link | #数据集

13:10 · Apr 4, 2024 · Thu

用于评估大型语言模型(LLM) Agent在多步多模态任务中的工具使能力的基准数据集，包含超过 4000 个多步多模态任务，这些任务涉及 33 种工具，包括 13 种多模态模型、9 个公共 API 和 11 个图像处理模块

m&m's | #数据集