黑洞资源笔记

SpatialVID：突破视频空间理解瓶颈的超大规模、多维度数据集
| #数据集

• 收录21000+小时野外视频，经过层级筛选提纯，生成270万片段，涵盖7089小时动态内容，规模远超现有公开数据集。
• 每帧视频均含详尽空间标注：相机位姿、深度图、动态遮罩、结构化描述及运动指令，助力动态场景的三维重建与理解。
• 精细注释丰富真实世界多样性，提升模型泛化能力与实际应用效果，填补真实动态场景高质量大规模数据空白。
• 提供完整开源代码与训练权重，支持一键环境搭建与全流程自动化：评分、注释、描述生成，方便研究复现与二次开发。
• 兼容多款主流3D视觉模型与分割工具，基于Apache-2.0协议，科研与商业均可灵活使用。
• 配套下载脚本支持HuggingFace及YouTube原始视频获取，方便快速构建定制训练集。