SpatialVID:突破视频空间理解瓶颈的超大规模、多维度数据集
| #数据集

• 收录21000+小时野外视频,经过层级筛选提纯,生成270万片段,涵盖7089小时动态内容,规模远超现有公开数据集。
• 每帧视频均含详尽空间标注:相机位姿、深度图、动态遮罩、结构化描述及运动指令,助力动态场景的三维重建与理解。
• 精细注释丰富真实世界多样性,提升模型泛化能力与实际应用效果,填补真实动态场景高质量大规模数据空白。
• 提供完整开源代码与训练权重,支持一键环境搭建与全流程自动化:评分、注释、描述生成,方便研究复现与二次开发。
• 兼容多款主流3D视觉模型与分割工具,基于Apache-2.0协议,科研与商业均可灵活使用。
• 配套下载脚本支持HuggingFace及YouTube原始视频获取,方便快速构建定制训练集。
 
 
Back to Top