实时数据在数据分析和应用开发中越来越关键,但找到高质量、公开且实时更新的数据源并不容易。

bytewax 整理了一份非常全面的公开实时数据集和数据源清单,涵盖金融、区块链、交通、天气、物联网、安全、新闻等多个领域,既有免费的也有付费的,支持通过 HTTP 或 WebSocket 等方式访问。

这份资源对数据科学家、开发者和研究人员极具价值,方便快速接入和使用实时数据,加速数据驱动的应用开发和研究。

主要内容包括:

- 金融市场实时行情与区块链交易数据源,如 Coinbase、Binance、 Polygon.io 等;
- 交通运输实时数据,包括英国铁路、纽约公交、瑞士公共交通等;
- 天气和环境监测数据,如 NOAA、Open Weather API、EPA 空气质量数据;
- 网络安全实时威胁情报和证书透明度日志;
- 新闻实时聚合和事件流,涵盖多家主流媒体和技术社区;
- 物联网传感器实时数据渠道及卫星轨迹追踪;
- 还包括多种付费优质数据服务,满足专业需求。

Awesome Public Real-Time Datasets and Sources | #数据集
简单、无服务器、分布式的向量数据库,可用作API。采用Cloudflare Workers AI、D1和Vectorize编写。

主要特色包括:简洁的API端点用于插入、查询、检索和删除向量文本数据;无需将文本存储在数据库中即可生成嵌入;分布式数据库,数据在多个数据中心进行复制。

AthenaDB | #数据库
vectordb是一个 Pythonic 矢量数据库,提供一整套CRUD(创建、读取、更新、删除)操作和强大的可扩展性选项,包括分片和复制。它可以轻松部署在从本地到内部部署和云的各种环境中。vectordb准确满足你的需求——不多也不少。它证明了有效的 Pythonic 设计,无需过度设计,使其成为满足您所有需求的精益而强大的解决方案。

vectordb利用DocArray强大的检索能力以及Jina的可扩展性、可靠性和服务能力。神奇之处在于:DocArray 充当驱动向量搜索逻辑的引擎,而 Jina 则保证高效且可扩展的索引服务。这种协同作用最终带来了强大且用户友好的矢量数据库体验。

vectordb | #数据库
如果一本书各图书馆都搜不到,怎么办?可以试试世界上最大的书目记录数据库

WorldCat联机联合目录数据库包含OCLC近两万家成员馆编目的书目记录和馆藏信息。共收录有480多种语言总计达20亿多条的馆藏记录、3亿多条独一无二的书目记录,每个记录中还带有馆藏信息,基本上反映了从公元前4,800多年至今世界范围内的图书馆所拥有的图书和其他资料,代表了四千年来人类知识的结晶。文献类型多种多样,包括图书、手稿、地图、网址与网络资源、乐谱、视频资料、报纸、期刊与杂志、文章以及档案资料等等。该数据库平均每十秒更新一次。

需要有读者证登陆上海图书馆专业服务门户使用该数据库。

ps:问了一下相关人员,非上海本地居民是可以办理读者证的,但要去现场办理。

登录地址 | #图书馆 #数据库
一个用于传输中的嵌套、非结构化、多模态数据的库,包括文本、图像、音频、视频、3D 网格等。它允许深度学习工程师使用 Pythonic API 高效地处理、嵌入、搜索、推荐、存储和传输多模态数据。

🚪 跨/多模态世界的大门:用于表示复杂/混合/嵌套文本、图像、视频、音频、3D 网格数据的超表现力数据结构。吉娜的基础数据结构,CLIP-即服务,DALL·E流,迪斯科艺术等

🧑‍🔬 数据科学强国:通过CPU/GPU上的Torch/TensorFlow/ONNX/PaddlePaddle,大大加快数据科学家在嵌入、k-NN匹配、查询、可视化和评估方面的工作。

🚡 传输中的数据:针对网络通信进行了优化,随时可以在线连接,在 Protobuf、bytes、base64、JSON、CSV、DataFrame 中进行快速和压缩的序列化。非常适合流式传输和内存不足数据。

🔎 一站式k-NN:主流矢量数据库的统一一致的API,允许最近的邻居搜索,包括Elasticsearch,Redis,ANNLite,Qdrant,Weaviate。

👒 对于现代应用程序:GraphQL 支持使您的服务器在请求和响应时具有多功能性;内置的数据验证和 JSON 架构 (OpenAPI) 可帮助您构建可靠的 Web 服务。

🐍 Pythonic 体验:设计得像 Python 列表一样简单。如果你知道如何Python,你就知道如何DocArray。直观的习语和类型注释简化了您编写的代码。

🛸 与IDE集成:在Jupyter笔记本和Google Colab上实现漂亮的打印和可视化;PyCharm & VS Code 中的全面自动完成和类型提示。

DocArray由三个简单的概念组成:

文档:一种数据结构,用于轻松表示嵌套的非结构化数据。
DocumentArray:用于高效访问、操作和理解多个文档的容器。
数据类:用于直观地表示多模态数据的高级 API。

DocArray | #数据库
SKSQL 是一个用 Typescript 编写的用于 web 和 node.js 的 SQL 数据库。

它用作客户端上的存储,共享数组缓冲区。允许主网页和网络工作者之间的快速通信。

它可以作为 SQL 引擎单独使用,也可以与允许持久性和复制到其他连接客户端的服务器一起使用。

受 T-SQL 启发的语法,支持函数和过程。在 SQL 语句和过程中执行 javascript 函数。

sksql | #数据库
immudb是一个具有内置密钥和验证的数据库,它可以跟踪敏感数据的变化,历史记录的完整性将由客户端保护,而无需信任数据库。它可以作为键值存储和/或关系数据库(SQL)运行。

传统的数据库事务和日志是可变的,因此无法确定数据是否已被破坏。immudb是不可变的,可以添加现有记录的新版本,但决不能更改或删除记录。这让我们可以存储关键数据,而不必担心被篡改。

存储在 immudb 中的数据在密码学上是一致且可验证的。与区块链不同,immudb 每秒可以处理数百万笔交易,既可以用作轻量级服务,也可以作为库嵌入到您的应用程序中。immudb 可以在任何地方运行,包括物联网设备、笔记本电脑、服务器、本地或云中。

immudb可以用作键值存储或关系数据结构,并支持事务和BLOB,因此对用例没有限制。我们使用immudb保护和篡改明显的日志数据、传感器数据、敏感数据、事务、软件构建方案、规则库数据,甚至是视频流。

项目地址 | #数据库
抗疫研学— #医学 专业电子资源

PubMed 是由美国国家医学图书馆的国家生物技术信息中心开发的生物医学文献数据库查询系统,收录了来自MEDLINE、生命科学期刊和在线图书的3000多万篇生物医学文献,并提供生物化学与细胞生物学等相关生物医学的资讯。PubMed可以通过Mesh主题词进行检索,内容附有指向全文的链接,Books(相关图书)可链接到相关参考书籍的文摘页。同时PubMed提供Nucleotide、Protein、Genome、Structure、Popset、Taxonomy、OMIM等生物医药相关数据库的查询方式

SinoMed中国生物医学文献数据库 整合了中国生物医学文献数据库(CBM)全文版、中国生物医学文献学术分析、北京协和医学院博硕学位论文库、中国医学科普文献数据库等多种资源,是集检索、开放获取、个性化定题服务、全文传递服务于一体的生物医学中外文整合文献服务系统。其收录了1978以来1800多种中国生物医学期刊,以及汇编、会议论文的文献题录800余万篇,全部题录均进行主题标引和分类标引等规范化加工处理,覆盖基础医学、临床医学、预防医学、药学、口腔医学、中医学及中药学等生物医学的各个专业领域。

MEDLINE是美国国家医学图书馆(National Library of Medicine)编辑出版的国际综合生物医学信息书目 #数据库 ,是当今世界上最大也是最权威的生物医学文献数据库,收录有关医药、护理、牙科、兽医、医疗保健制度、临床科学等方面的权威医学信息。MEDLINE采用了包含树、树层次结构、副标题的MeSH(医学主题词表)索引方法,可从4,800多种医学期刊中检索文献。MEDLINE可通过EBSCO、Web of Science、OCLC平台访问。

进入页面后请选择“One-stop search for all EBSCOhost databases”选项,进入搜索页面后点击搜素框上方的“Choose Databases”选择MEDLINE数据库。

LWW/Lippincott Williams & Wilkins医学期刊库(OVID平台),一家专业医学出版社,为全球众多医师、专业临床医生、护理人员和医科学生提供高质量全文资源。LWW医学期刊库覆盖了生物学和医学等领域,目前我校师生可通过OVID平台访问该数据库近500种期刊。OVID公司是著名的、以医学为主要学科内容的电子产品商,该校师生还可通过OVID平台访问Journal of Bone and Joint Surgery(JBJS)骨与关节外科杂志从1993年至今的数据。

The Cochrane Library循证医学是国际Cochrane协作网的主要产品,由Wiley公司出版发行,汇集了全球最佳医学研究的综合性成果,被公认为循证医疗健康领域的“金标准”,是一个提供高质量证据的数据库,是临床研究证据的主要来源。目前我馆购买了The Cochrane Library 循证医学数据库的所有资源的全部年度访问权

ProQuest Health & Medical Complete 是ProQuest公司开发的医学全文数据库,全文以PDF或文本加图像格式存储,收录1969年以来4441种重要的基础医学、临床医学、卫生健康方面等专业期刊,涵盖护理学、内科学、儿科学、神经学、药理学、心脏病学、物理治疗以及新增的公共卫生和卫生管理等

The New England Journal of Medicine (NEJM)/新英格兰医学杂志 由马萨诸塞州医学会( Massachusetts Medical Society)所出版的同行评审医学期刊和综合性医学期刊,其内容涉及20 多个专业学科领域。现刊部分包含约31,000篇文章,以及55,000个图片,音频,视频等

中华医学会杂志社是以编辑出版中华医学会主办的各类医学期刊为主要任务的全国性医学期刊出版机构,截至目前中华医学会主办的医学期刊已达140余种,发行至世界60多个国家和地区

JoVE实验视频期刊数据库 JoVE出版社于2006年创办JoVE实验视频期刊,致力于以视频方式展现生物学、医学和化学等学科领域的研究过程与成果。实验视频来源于哈佛大学、斯坦福大学等世界著名高校及学术研究机构的实验室。目前该馆购买了9个学科专辑:Biology、Neuroscience、Medicine、Chemistry、Immunology and Infection、Developmental Biology、Bioengineering、Behavior、Cancer Research。

ASM/美国微生物学会期刊 美国微生物学会的期刊是微生物学领域最杰出的出版物,全面促进基础和临床微生物学领域的各项研究,其出版文章数量超过微生物学领域全部论文量的1/4,文章引用量几乎占所有微生物学论文引用数量的42%。目前此馆购买了ASM数据库所有期刊的年度访问权

Bentham Science 药学全文期刊数据库 Bentham Science出版公司,作为国际STM出版社之一,所有期刊均被权威文摘/索引机构收录,学科范围覆盖有药学、医学以及专利等。目前我校可使用Bentham Science数据库2009年以来127种期刊;34种OA图书;250多种OA期刊

USMLEasy/美国职业医师资格考试医学数据库 USMLEasy是美国医师资格考试备考的权威网站,提供美国职业医师资格考试Step 1,Step 2CK和Step3的所有备考资料,含有数以千计的在线考试题目,涉及美国职业医师资格考试的所有学科和知识点。所有问题都来自McGraw-Hill出版的权威系列考试辅导书籍,其中包括PreTest系列、LANGE和Q&A系列。数据库可模拟Step 1和 Step 2 CK的考试的出题模式,模拟实际考试

NMR库/有机化合物核磁共振碳谱数据库 NMR库由上海微谱信息技术有限公司出版,为药学、化学等学科从事天然产物研究、合成和药物开发的研究人员提供信息查询服务,以便快速确定已知化合物和新化合物的结构。微谱数据库收录化合物102余万个,包含收录化合物名称、分子式及文献信息的化合物信息库和收录有机化合物的碳谱数据及结构图的碳谱库,两个子库动态关联
一款高性能的开源 SQL #数据库QuestDB,(github地址)为提高性能而生,针对时间序列进行了优化处理。

拥有一个可交互式控制台,开发者可通过拖拽等方式,在界面上直接对数据进行处理,并查看其可视化结果。

该数据库适用于金融服务、物联网、机器学习 、DevOps 和可观测性应用等场景。
一款高性能的开源 #SQL #数据库QuestDB,为提高性能而生,针对时间序列进行了优化处理。拥有一个可交互式控制台,开发者可通过拖拽等方式,在界面上直接对数据进行处理,并查看其可视化结果。

该数据库适用于金融服务、物联网、机器学习 、DevOps 和可观测性应用等场景
Ec21,全球领先的B2B网上交易市场,总部在韩国首尔。自1996年进入市场以来,EC21以其优质的服务已拥有有效供求信息70余万个,产品信息60余万个,全球有10个国家办事处,以及集全球各地50万买家的庞大买家 #数据库 。EC21虽然是总部在韩国,但该平台定位于致力发展全球买家,是海外的综合贸易平台,并非仅仅针对韩国市场
高校图书馆导航 公共图书馆导航

编者按:
近期在搜索 #图书馆 资源时,发现高校图书馆与公共图书馆没有一个完整的体系,而且每次搜索都需要在搜索引擎中输入一次,为此特地整理了一个高效图书馆与公共图书馆网址导航,便于资料查找与学习。 #数据库
一、相关介绍:
高等学校图书馆为高等学校教学和科学研究服务的图书馆。是指大学图书馆和学院图书馆等,是高等学校的文献情报中心,主要服务对象是在校学生和教职员工。

公共图书馆,是指向社会公众免费开放,收集、整理、保存文献信息并提供查询、借阅及相关服务,开展社会教育的公共文化设施。公共图书馆的目的则是侧重于满足公民学习文化知识,普及科学常识,培养读书兴趣,提高全民素质。

二、整理分类
在整理的过程中,按照地区进行分类。
高校图书馆导航按照公办、本科以上层次高效进行整理,因为高校图书馆资源为限制性资源,所以部分高校图书馆在访问时需要学校统一验证才能访问。
公共图书馆导航的数据来源依据中华人民共和国文化和旅游部公布的国家级博物馆评估定级数据,在整理的过程中发现,各省市公共图书馆大部分有自己的官网、且时常更新,县一级的公共图书馆绝大多数无网站或者已经很久不更新了。
中华经典古籍库(镜像版)是专业、权威的大型古籍整理本全文 #数据库 ,由中华书局负责建设和开发。通过服务器镜像安装的形式为用户提供服务,主要面向机构进行销售,目标用户群体为中国传统文化领域的专业研究者。

为向党的百年华诞献礼,中华经典古籍库将通过“百佳数字出版精品项目献礼建党百年专栏”,精选300种优秀 #古籍 整理成果组成专库,面向公众限时免费开放
外文 #文献 网站

1.香港科技大学图书馆Dspace
包括香港科技大学的学术论文、学位论文、研究报告等内容,均可免费获取全文。

2.Openj-gate
提供4350种开放获取的期刊的数百万期刊全文文献。

3.加利福尼亚大学国际和区域数字馆藏
加利福尼亚大学国际和区域数字馆藏研究项目。EScholarship Repository主要提供已出版的期刊 #论文 、未出版的研究手稿、会议文献以及其他连接出版物上的文章1万多篇,均可免费阅读。

4.剑桥大学机构知识库
由Cambridge University Library和University Computing Service维护,提供剑桥大学相关的期刊、学术论文、学位论文等电子资源。

5.发展中国家联合期刊库
非营利的电子出版物服务机构,提供来自发展中国家(如巴西、古巴、印度、印尼、肯尼亚、南非、乌干达、 津巴布韦等)的开放获取的多种期刊的全文。

6.美国密西根大学论文库
2万多篇期刊论文、技术报告、评论等文献全文。包含艺术学、生物学、社会科学、资源环境学等学科的相关论文,另还有博硕士论文。标识为OPEN的可以打开全文。

7.jfg CERN Document Server
主要覆盖物理学(particle physics)及相关学科,提供360,000多篇全文文献,包括预印文献、期刊论文、图书、图片、学位论文等等。

8.ArXiv是属于Cornell University的非盈利教育机构,面向物理学、数学、非线性科学、计算机科学和定量生物学等学科提供16种免费电子期刊的访问。

9.NASA Technical Reports Server
主要是关于航空航天领域研究的科技报告和会议论文。

10.National Service Center for Environmental Publications提供的是美国环境保护总署(EPA)出版物。可以通过EPA出版号或题名检索EPA National Publications Catalog。

11.Energy Citations Database
提供美国能源部的科技信息摘要。学科范围:材料科学、环境科学、计算机、能源和物理。文献类型包括期刊论文、学位论文、研究报告和专利。

12.FullText提供7000多种学术期刊的免费全文获取。

13.Open J-Gate 开放获取期刊门户
提供基于开放获取的近 4000 种期刊的免费检索和全文链接,包含学校、研究机构和行业期刊,其中超过 1500 种学术期刊经同行评议( Peer-Reviewed )

14.PMC(PubMed Centeral)
美国NCBI(美国国家生物技术信息中心)建立的数字化生命科学期刊文献集,S现提供50余种生物医学期刊免费全文 。

15.DOAJ (Directory of Open Access Journals)
免费的全文科技学术期刊。现有2752种期刊,其中830种可以全文搜索。目前有140307篇文章。

16.HighWire Press
斯坦福大学图书馆的分支机构——HighWire出版社,拥有最大的免费期刊数据库,可以在线提供916种免费期刊和1,149,216篇全文 。

17.University of Tennessee, Knoxville
田纳西大学的经济学杂志,包括2000年至2002年三年共12期的免费期刊。

18.The Electronic Library of Mathematics
欧洲数学会电子 #图书馆 ,提供了期刊、会议、论文集、专著、演讲、软件等资源。并提供期刊和电子版图书的全文浏览。非电子版图书提供前言、摘要、目录和书评等内容。特别地,在经典著作栏目内,目前可检索到哈密尔顿和黎曼的经典论文的全文。

19.Science.gov
美国“科学”网站收录内容以研究与开发报告为主,所有的信息均免费使用,也不必注册,但是通过这些站点链接的有些信息是限制使用或有条件使用的。

20.ERIC教育资源信息中心
美国教育部资助的网站系列和世界上最大的教育资源 #数据库 ,其中包括各种文档以及教育研究与实践方面的论文摘要,这些摘要超过了一百万篇,收录980多种教育及和教育相关的期刊文献的题录和文摘。部分资源可查找到全文

21.PLoS公共科学图书馆
PLOS是一家由众多诺贝尔奖得主和慈善机构支持的非赢利性学术组织,旨在推广世界各地的科学和医学领域的最新研究成果,使其成为一种公众资源,科学家、医生、病人和学生可以通过这样一个不受限制的平台来了解最新的科研动态。PLoS出版了8种生命科学与医学领域的期刊,可以免费获取全文。

22.Journal of Statistical Software
由美国统计协会出版的《统计软件杂志》,提供1996年至今20卷的内容。可以免费获取全文。

23.Social Science Research Network
社会科学(经济类)研究论文数据库,部分提供全文。

24.Max Planck Society
德国马普学会,该学会创办了3种开放存取杂志:

(1)Living Reviews in Relativity ISSN 1433-8351

(2)Living Reviews in Solar Physics ISSN 1614-4961

(3)Living Reviews in European Governance ISSN: 1813-856X

Networked Computer Science Technical Reference Library(NCSTRL)
瀚堂典藏数据库,汇集海量历代 #文献 和近代报刊 B/S 服务器浏览器模式的巨型 #数据库 ,全库集成管理20,000多种 #古籍 ,两万五千种民国报纸 #期刊 ,超过5200万条记录与海量清晰图片直接对应,汉字总量60亿。文献内容持续修订、种类定期扩增,并可根据读者要求定制添加
学术格子 管理学术成果的专业平台
数据堂 专业数据处理预公司
中科易研 为学校科研机构提供数据录入、清洗、分析等服务 #数据服务
溪流数据 专注临床科研数据一体化平台 ​​​
全国地方文献资源共建共享联盟
数字化浪潮铺天盖地席卷而来。作为图书馆核心服务能力之一的地方文献工作,面临着新的机遇与挑战。为了适应新形势的发展,我们发起建立全国地方文献资源共建共享联盟。目前,联盟平台已聚集了数千万篇数字化的地方文献资源,覆盖图、期刊、报纸、学位论文、会议论文、图片、视频、地方志、年鉴等文献类型,建立了30多个省、市图书馆地方文献资源中心和500多个特色文献库,实现了全国范围的地方文献资源共建共享。 #文献 #数据库
 
 
Back to Top