实时数据在数据分析和应用开发中越来越关键,但找到高质量、公开且实时更新的数据源并不容易。

bytewax 整理了一份非常全面的公开实时数据集和数据源清单,涵盖金融、区块链、交通、天气、物联网、安全、新闻等多个领域,既有免费的也有付费的,支持通过 HTTP 或 WebSocket 等方式访问。

这份资源对数据科学家、开发者和研究人员极具价值,方便快速接入和使用实时数据,加速数据驱动的应用开发和研究。

主要内容包括:

- 金融市场实时行情与区块链交易数据源,如 Coinbase、Binance、 Polygon.io 等;
- 交通运输实时数据,包括英国铁路、纽约公交、瑞士公共交通等;
- 天气和环境监测数据,如 NOAA、Open Weather API、EPA 空气质量数据;
- 网络安全实时威胁情报和证书透明度日志;
- 新闻实时聚合和事件流,涵盖多家主流媒体和技术社区;
- 物联网传感器实时数据渠道及卫星轨迹追踪;
- 还包括多种付费优质数据服务,满足专业需求。

Awesome Public Real-Time Datasets and Sources | #数据集
LAB-Bench:面向生物科学研究的 AI 能力基准评测数据集,助力科学智能的系统化验证与提升。| #数据集

• 覆盖8大类30个细分任务,涵盖文献抽取(LitQA2)、数据库检索(DbQA)、补充信息(SuppQA)、科学图表推理(FigQA/TableQA)、实验协议排错(ProtocolQA)、生物序列操作(SeqQA)及分子克隆复杂场景。
• 公开约80%数据,保留20%私有测试集防止训练污染,内置canary字符串便于模型训练过滤。
• 支持Python 3.10+,提供异步agent接口,便于并行评测与多模型对比。
• 详尽文档和示例代码包含多种基线测试,助力快速上手与复现。
• 数据集开放获取,支持Hugging Face平台同步调用,推动AI在生物研究中的实用转化。
• 论文详述数据集设计与评测方法,具备长期参考价值,为科研AI能力构建提供方法论支撑。
覆盖全球的多模态时空数据集,为研究地球环境变化提供丰富资源,支持跨学科分析

NeurIPS24-Terra | #数据集
音频效果研究数据库,提供科学文献资源,特色在于使用Notion™️动态表格的可视化,支持过滤、排序和标签功能,便于更新和管理音频效果相关文献

AFX-Research | #数据库
关于学习数据科学的新版路线图,包括深入学习Python编程语言,统计学,数据库,机器学习,深度学习,自然语言处理以及MLOPS(机器学习运维),提供了广泛的学习资源和实际项目实践,是学习数据科学的理想指南。

Perfect Roadmap To Learn Data Science In 2024 | #数据科学 #路线图
美国国家科学院在线数据库 | #数据库

超一万本书籍免费下载和阅读,包含科学、工程和健康卫生等领域著作。

美国国家科学院出版社 (NAP) 出版美国国家科学院、工程院和医学院的出版物。NAP 每年出版 200 多篇出版物,涉及科学、工程和医学领域的广泛主题,提供有关科学和卫生政策重要问题的权威、独立研究的信息。
数据科学项目模板,重点是易复现和易维护

该模板允许你:

给你的项目创建一个可读的结构
提交代码时自动运行测试
在运行时强制执行类型提示
提交前检查代码中的问题
有效地管理项目中的依赖关系
为可重复的任务创建简短易读的命令
仅重新运行管道的修改组件
自动记录你的代码
观察并自动化你的代码

项目地址 | #模板 #数据科学
一个用于传输中的嵌套、非结构化、多模态数据的库,包括文本、图像、音频、视频、3D 网格等。它允许深度学习工程师使用 Pythonic API 高效地处理、嵌入、搜索、推荐、存储和传输多模态数据。

🚪 跨/多模态世界的大门:用于表示复杂/混合/嵌套文本、图像、视频、音频、3D 网格数据的超表现力数据结构。吉娜的基础数据结构,CLIP-即服务,DALL·E流,迪斯科艺术等

🧑‍🔬 数据科学强国:通过CPU/GPU上的Torch/TensorFlow/ONNX/PaddlePaddle,大大加快数据科学家在嵌入、k-NN匹配、查询、可视化和评估方面的工作。

🚡 传输中的数据:针对网络通信进行了优化,随时可以在线连接,在 Protobuf、bytes、base64、JSON、CSV、DataFrame 中进行快速和压缩的序列化。非常适合流式传输和内存不足数据。

🔎 一站式k-NN:主流矢量数据库的统一一致的API,允许最近的邻居搜索,包括Elasticsearch,Redis,ANNLite,Qdrant,Weaviate。

👒 对于现代应用程序:GraphQL 支持使您的服务器在请求和响应时具有多功能性;内置的数据验证和 JSON 架构 (OpenAPI) 可帮助您构建可靠的 Web 服务。

🐍 Pythonic 体验:设计得像 Python 列表一样简单。如果你知道如何Python,你就知道如何DocArray。直观的习语和类型注释简化了您编写的代码。

🛸 与IDE集成:在Jupyter笔记本和Google Colab上实现漂亮的打印和可视化;PyCharm & VS Code 中的全面自动完成和类型提示。

DocArray由三个简单的概念组成:

文档:一种数据结构,用于轻松表示嵌套的非结构化数据。
DocumentArray:用于高效访问、操作和理解多个文档的容器。
数据类:用于直观地表示多模态数据的高级 API。

DocArray | #数据库
国家地球系统科学数据中心 | #数据库

内容数据有:大气圈相关,陆地表层相关,陆地水圈相关,冰冻圈相关,自然资源,海洋,极地,古环境,地理资源等等
抗疫研学— #医学 专业电子资源

PubMed 是由美国国家医学图书馆的国家生物技术信息中心开发的生物医学文献数据库查询系统,收录了来自MEDLINE、生命科学期刊和在线图书的3000多万篇生物医学文献,并提供生物化学与细胞生物学等相关生物医学的资讯。PubMed可以通过Mesh主题词进行检索,内容附有指向全文的链接,Books(相关图书)可链接到相关参考书籍的文摘页。同时PubMed提供Nucleotide、Protein、Genome、Structure、Popset、Taxonomy、OMIM等生物医药相关数据库的查询方式

SinoMed中国生物医学文献数据库 整合了中国生物医学文献数据库(CBM)全文版、中国生物医学文献学术分析、北京协和医学院博硕学位论文库、中国医学科普文献数据库等多种资源,是集检索、开放获取、个性化定题服务、全文传递服务于一体的生物医学中外文整合文献服务系统。其收录了1978以来1800多种中国生物医学期刊,以及汇编、会议论文的文献题录800余万篇,全部题录均进行主题标引和分类标引等规范化加工处理,覆盖基础医学、临床医学、预防医学、药学、口腔医学、中医学及中药学等生物医学的各个专业领域。

MEDLINE是美国国家医学图书馆(National Library of Medicine)编辑出版的国际综合生物医学信息书目 #数据库 ,是当今世界上最大也是最权威的生物医学文献数据库,收录有关医药、护理、牙科、兽医、医疗保健制度、临床科学等方面的权威医学信息。MEDLINE采用了包含树、树层次结构、副标题的MeSH(医学主题词表)索引方法,可从4,800多种医学期刊中检索文献。MEDLINE可通过EBSCO、Web of Science、OCLC平台访问。

进入页面后请选择“One-stop search for all EBSCOhost databases”选项,进入搜索页面后点击搜素框上方的“Choose Databases”选择MEDLINE数据库。

LWW/Lippincott Williams & Wilkins医学期刊库(OVID平台),一家专业医学出版社,为全球众多医师、专业临床医生、护理人员和医科学生提供高质量全文资源。LWW医学期刊库覆盖了生物学和医学等领域,目前我校师生可通过OVID平台访问该数据库近500种期刊。OVID公司是著名的、以医学为主要学科内容的电子产品商,该校师生还可通过OVID平台访问Journal of Bone and Joint Surgery(JBJS)骨与关节外科杂志从1993年至今的数据。

The Cochrane Library循证医学是国际Cochrane协作网的主要产品,由Wiley公司出版发行,汇集了全球最佳医学研究的综合性成果,被公认为循证医疗健康领域的“金标准”,是一个提供高质量证据的数据库,是临床研究证据的主要来源。目前我馆购买了The Cochrane Library 循证医学数据库的所有资源的全部年度访问权

ProQuest Health & Medical Complete 是ProQuest公司开发的医学全文数据库,全文以PDF或文本加图像格式存储,收录1969年以来4441种重要的基础医学、临床医学、卫生健康方面等专业期刊,涵盖护理学、内科学、儿科学、神经学、药理学、心脏病学、物理治疗以及新增的公共卫生和卫生管理等

The New England Journal of Medicine (NEJM)/新英格兰医学杂志 由马萨诸塞州医学会( Massachusetts Medical Society)所出版的同行评审医学期刊和综合性医学期刊,其内容涉及20 多个专业学科领域。现刊部分包含约31,000篇文章,以及55,000个图片,音频,视频等

中华医学会杂志社是以编辑出版中华医学会主办的各类医学期刊为主要任务的全国性医学期刊出版机构,截至目前中华医学会主办的医学期刊已达140余种,发行至世界60多个国家和地区

JoVE实验视频期刊数据库 JoVE出版社于2006年创办JoVE实验视频期刊,致力于以视频方式展现生物学、医学和化学等学科领域的研究过程与成果。实验视频来源于哈佛大学、斯坦福大学等世界著名高校及学术研究机构的实验室。目前该馆购买了9个学科专辑:Biology、Neuroscience、Medicine、Chemistry、Immunology and Infection、Developmental Biology、Bioengineering、Behavior、Cancer Research。

ASM/美国微生物学会期刊 美国微生物学会的期刊是微生物学领域最杰出的出版物,全面促进基础和临床微生物学领域的各项研究,其出版文章数量超过微生物学领域全部论文量的1/4,文章引用量几乎占所有微生物学论文引用数量的42%。目前此馆购买了ASM数据库所有期刊的年度访问权

Bentham Science 药学全文期刊数据库 Bentham Science出版公司,作为国际STM出版社之一,所有期刊均被权威文摘/索引机构收录,学科范围覆盖有药学、医学以及专利等。目前我校可使用Bentham Science数据库2009年以来127种期刊;34种OA图书;250多种OA期刊

USMLEasy/美国职业医师资格考试医学数据库 USMLEasy是美国医师资格考试备考的权威网站,提供美国职业医师资格考试Step 1,Step 2CK和Step3的所有备考资料,含有数以千计的在线考试题目,涉及美国职业医师资格考试的所有学科和知识点。所有问题都来自McGraw-Hill出版的权威系列考试辅导书籍,其中包括PreTest系列、LANGE和Q&A系列。数据库可模拟Step 1和 Step 2 CK的考试的出题模式,模拟实际考试

NMR库/有机化合物核磁共振碳谱数据库 NMR库由上海微谱信息技术有限公司出版,为药学、化学等学科从事天然产物研究、合成和药物开发的研究人员提供信息查询服务,以便快速确定已知化合物和新化合物的结构。微谱数据库收录化合物102余万个,包含收录化合物名称、分子式及文献信息的化合物信息库和收录有机化合物的碳谱数据及结构图的碳谱库,两个子库动态关联
#数据建模 #机器学习 #数据集
1.阿里天池 国内互联网龙头阿里巴巴旗下的大数据竞赛网站
2.Kaggle 多项机器学习竞赛的数据科学社区
3.科赛网 单纯用来获取数据集很不错 ​​​
高校图书馆导航 公共图书馆导航

编者按:
近期在搜索 #图书馆 资源时,发现高校图书馆与公共图书馆没有一个完整的体系,而且每次搜索都需要在搜索引擎中输入一次,为此特地整理了一个高效图书馆与公共图书馆网址导航,便于资料查找与学习。 #数据库
一、相关介绍:
高等学校图书馆为高等学校教学和科学研究服务的图书馆。是指大学图书馆和学院图书馆等,是高等学校的文献情报中心,主要服务对象是在校学生和教职员工。

公共图书馆,是指向社会公众免费开放,收集、整理、保存文献信息并提供查询、借阅及相关服务,开展社会教育的公共文化设施。公共图书馆的目的则是侧重于满足公民学习文化知识,普及科学常识,培养读书兴趣,提高全民素质。

二、整理分类
在整理的过程中,按照地区进行分类。
高校图书馆导航按照公办、本科以上层次高效进行整理,因为高校图书馆资源为限制性资源,所以部分高校图书馆在访问时需要学校统一验证才能访问。
公共图书馆导航的数据来源依据中华人民共和国文化和旅游部公布的国家级博物馆评估定级数据,在整理的过程中发现,各省市公共图书馆大部分有自己的官网、且时常更新,县一级的公共图书馆绝大多数无网站或者已经很久不更新了。
 
 
Back to Top