SpatialVID:突破视频空间理解瓶颈的超大规模、多维度数据集
| #数据集

• 收录21000+小时野外视频,经过层级筛选提纯,生成270万片段,涵盖7089小时动态内容,规模远超现有公开数据集。
• 每帧视频均含详尽空间标注:相机位姿、深度图、动态遮罩、结构化描述及运动指令,助力动态场景的三维重建与理解。
• 精细注释丰富真实世界多样性,提升模型泛化能力与实际应用效果,填补真实动态场景高质量大规模数据空白。
• 提供完整开源代码与训练权重,支持一键环境搭建与全流程自动化:评分、注释、描述生成,方便研究复现与二次开发。
• 兼容多款主流3D视觉模型与分割工具,基于Apache-2.0协议,科研与商业均可灵活使用。
• 配套下载脚本支持HuggingFace及YouTube原始视频获取,方便快速构建定制训练集。
LAB-Bench:面向生物科学研究的 AI 能力基准评测数据集,助力科学智能的系统化验证与提升。| #数据集

• 覆盖8大类30个细分任务,涵盖文献抽取(LitQA2)、数据库检索(DbQA)、补充信息(SuppQA)、科学图表推理(FigQA/TableQA)、实验协议排错(ProtocolQA)、生物序列操作(SeqQA)及分子克隆复杂场景。
• 公开约80%数据,保留20%私有测试集防止训练污染,内置canary字符串便于模型训练过滤。
• 支持Python 3.10+,提供异步agent接口,便于并行评测与多模型对比。
• 详尽文档和示例代码包含多种基线测试,助力快速上手与复现。
• 数据集开放获取,支持Hugging Face平台同步调用,推动AI在生物研究中的实用转化。
• 论文详述数据集设计与评测方法,具备长期参考价值,为科研AI能力构建提供方法论支撑。
用Llama3和distilabel端到端构建语言模型微调数据集 | link | #数据集
一个超快速、实时、专业、开发者友好、零代码的数据库,使用类似于电子表格的界面来创建复杂的企业级数据库应用,通过无代码开发,解锁高效的应用程序开发,摆脱数据安全和可扩展性的障碍。

Teable具有电子表格的界面,支持单元格编辑、公式支持、数据排序和筛选、聚合函数、数据格式化等功能,同时还支持多种视图模式和数据可视化工具。

它还具有超快的响应速度和数据容量,完整的SQL支持,隐私优先和实时协作等特点。此外,Teable还支持扩展、自动化和AI集成。

Teable | #数据库
数据科学项目模板,重点是易复现和易维护

该模板允许你:

给你的项目创建一个可读的结构
提交代码时自动运行测试
在运行时强制执行类型提示
提交前检查代码中的问题
有效地管理项目中的依赖关系
为可重复的任务创建简短易读的命令
仅重新运行管道的修改组件
自动记录你的代码
观察并自动化你的代码

项目地址 | #模板 #数据科学
一个用于传输中的嵌套、非结构化、多模态数据的库,包括文本、图像、音频、视频、3D 网格等。它允许深度学习工程师使用 Pythonic API 高效地处理、嵌入、搜索、推荐、存储和传输多模态数据。

🚪 跨/多模态世界的大门:用于表示复杂/混合/嵌套文本、图像、视频、音频、3D 网格数据的超表现力数据结构。吉娜的基础数据结构,CLIP-即服务,DALL·E流,迪斯科艺术等

🧑‍🔬 数据科学强国:通过CPU/GPU上的Torch/TensorFlow/ONNX/PaddlePaddle,大大加快数据科学家在嵌入、k-NN匹配、查询、可视化和评估方面的工作。

🚡 传输中的数据:针对网络通信进行了优化,随时可以在线连接,在 Protobuf、bytes、base64、JSON、CSV、DataFrame 中进行快速和压缩的序列化。非常适合流式传输和内存不足数据。

🔎 一站式k-NN:主流矢量数据库的统一一致的API,允许最近的邻居搜索,包括Elasticsearch,Redis,ANNLite,Qdrant,Weaviate。

👒 对于现代应用程序:GraphQL 支持使您的服务器在请求和响应时具有多功能性;内置的数据验证和 JSON 架构 (OpenAPI) 可帮助您构建可靠的 Web 服务。

🐍 Pythonic 体验:设计得像 Python 列表一样简单。如果你知道如何Python,你就知道如何DocArray。直观的习语和类型注释简化了您编写的代码。

🛸 与IDE集成:在Jupyter笔记本和Google Colab上实现漂亮的打印和可视化;PyCharm & VS Code 中的全面自动完成和类型提示。

DocArray由三个简单的概念组成:

文档:一种数据结构,用于轻松表示嵌套的非结构化数据。
DocumentArray:用于高效访问、操作和理解多个文档的容器。
数据类:用于直观地表示多模态数据的高级 API。

DocArray | #数据库
ETH Zürich《数据建模与数据库》课程(2022)

课程地址 | #数据库
TerminusDB 具有协作模型的分布式 #数据库 - 用于数据的 Git

TerminusDB 是一个强大的内存图形数据库,让你能够最大限度地提高生产力和数据的价值。 它具有众多功能和多个接口,能创建具有内置版本控制和其他类似 Git 操作的数据密集型、不可变和同步的数据库。
#数据建模 #机器学习 #数据集
1.阿里天池 国内互联网龙头阿里巴巴旗下的大数据竞赛网站
2.Kaggle 多项机器学习竞赛的数据科学社区
3.科赛网 单纯用来获取数据集很不错 ​​​
 
 
Back to Top