vLLM-Omni 基于高效的 KV cache 管理和流水线执行,专为支持包括文本、图像、音频、视频等多模态输入的模型设计,轻松实现异构模型推理和服务。
它不仅兼容主流 Hugging Face 开源模型,还支持分布式推理、多阶段流水线调度、流式输出和 OpenAI 兼容接口,极大提升多模态模型在线推理的效率和灵活性。
主要功能:
- 支持多模态数据(文本、音频、图像、视频)处理与生成;
- 支持非自回归架构如扩散模型,实现高效的并行生成;
- 基于 KV cache 优化自回归模型推理性能;
- 异构流水线抽象,管理复杂多阶段模型工作流;
- 分布式推理支持,涵盖张量并行、数据并行和专家并行;
- 开箱即用的 OpenAI 兼容 API 服务器,方便集成;
- 支持主流平台(CUDA/ROCm/NPU/XPU),广泛适配多硬件环境。
适合AI开发者、研究人员和企业级应用场景的多模态AI模型推理部署。
开源项目 build123d 是一个基于 Python 的参数化边界表示(BREP)建模框架,底层用的是强大的 Open Cascade 几何内核。| #框架
它通过简洁的 Pythonic 接口,让设计师和工程师能够用代码精准构建适合3D打印、CNC加工、激光切割等制造业的模型。
主要功能亮点包括:
- 提供明确的1D、2D、3D几何类和丰富的操作符,支持代数式建模,代码更加可读与组合;
- 支持无状态的代数模式与有状态的Builder模式,满足不同设计习惯;
- 丰富的几何构造能力:线段、圆弧、圆形、矩形、孔、倒角、圆角等;
- 可导入SVG、STEP等多种格式,方便与其他CAD软件互通;
- 输出STL、STEP格式,便于3D打印和传统CAM加工;
- 代码严格符合Python标准,支持类型提示,易于扩展和维护。
安装简单:直接使用pip安装即可
pip install build123d官网文档和示例丰富,上手极快,适合工程师、设计师和开发人员用代码实现复杂的CAD设计思路。
标普500从去年11月实验开始至今跌了7%。在这个背景下,五个模型跑赢了大盘,但只有两个实现正收益。Claude和Gemini排在前面,GPT全线落后,Grok一度领先最后吐回了涨幅,Qwen把十万美元全押一只股票,亏了35%才出场。
实验的设置是相同的提示词、相同的工具集,超过50个研究工具调用加上社交媒体数据,每个模型用的是当时最新版本。运营成本大概每月500美元的API费用。
有观点认为这个数据从统计上几乎没有意义,一个模型表现好,完全可能只是运气,样本量太小无法区分能力和随机性。OP对此完全同意,并计划运行100个相同模型的并行实例来摊薄方差。有统计学背景的网友进一步指出,真正有价值的是让少量稳定模型在足够长的时间内做大量交易,而不是横向比较更多不同模型。
为什么Claude领先?OP的解释是一部分运气,一部分来自模型“性格”的差异。Claude表现得像一个主动型摆动交易者,每周管理仓位,持续跟踪市场动量;其他模型更倾向于持仓不动,风险偏好也差异明显。
有网友提到一个更有意思的问题:回测几乎不可能做到干净,因为这些模型已经见过历史数据,你没法假装它们不知道2020年发生了什么。这意味着这类实验天然只能跑前向测试,而且要等足够长的时间。
有观点认为,如果AI炒股真的有稳定的超额收益,量化基金早就把这条路堵死了。这个逻辑当然成立,但有网友指出,大型机构在乎的是能否把策略规模化,散户级别的摆动交易根本不在他们的关注范围内,Medallion基金不无限扩大规模就是同一道理。
还有一个更深的风险被提出来:不是某一个模型亏钱,而是当数千个模型同时读取相同信号、在相同时刻执行相同操作,系统性的相关性会造成什么。这个问题目前没有答案,但它比“Claude赢没赢”更值得想。
四个月,两个正收益,一个统计上还什么都说明不了的实验。下一步要跑多久,才算够?
Claude Code每次新对话都会花费大量token重新探索代码库结构,这是个被忽视的隐性成本。有人构建了预索引工具将这个开销从50K token压缩到3K以内,引发社区广泛讨论。
每次打开Claude Code,它做的第一件事不是帮你写代码,而是四处张望。
读目录、扫文件、查函数签名。大项目上,这个“熟悉环境”的过程要烧掉30到50K token,然后才轮到你真正想问的那个问题。有人给这个现象起了个名字:“探索税”。
一位开发者用一个叫`ai-codex`的脚本来解决这个问题。逻辑很简单:提前把项目结构扫描一遍,生成五个压缩后的Markdown文件,分别记录API路由、页面树、库导出、数据库schema和组件索引。在CLAUDE.md里加一行声明,让Claude每次对话优先读这几个文件,直接跳过探索阶段。
在一个有950个API路由、255个数据库模型的项目上测试:原来理解一个模块需要15次工具调用,使用索引后降到5次grep,总token消耗从50K级别压缩到约3K。
这条帖子在Reddit引发广泛讨论,涌现出大量类似工具。Cymbal用SQLite加tree-sitter做实时增量索引,JCodeMunch走MCP路线做精准符号检索,还有TheBrain、codebase-memory-mcp等等。有观点认为,这种“工具大爆炸”本身就说明Claude Code在原生能力上存在明显缺口。
最被质疑的点是索引过期问题。作者的回答是:路由和schema这类结构变动频率远低于代码内容本身,把`npx ai-codex`挂到git pre-commit hook里,每次提交自动更新,耗时不到一秒,基本无感知。
也有人提出不同意见。有网友认为配合Serena做实时符号分析、再加上合理的工具调用引导,也能把冷启动控制在3到5次调用以内,不一定需要静态索引。还有人指出,Rails或Django这类约定强制的框架根本不存在这个问题,因为模型早就被训练知道“路由在哪里”,这本质上是JavaScript生态系统过于混乱的代价。
有网友提到,加上prompt caching会产生双重节省效应:索引文件本身变化少,缓存命中率极高,等于既减少了加载的token量,又降低了每个token的单价。这个组合值得实测。
更深的问题是:预索引解决的是“什么在哪里”,解决不了“这些东西之间怎么关联”。模块耦合、依赖链、架构边界,这一层每次还是得从代码里重新推导。
所以预索引是个好的地板,不是天花板。
预索引能给你一张楼层平面图,Claude不用再挨个开门找厨房,但进了厨房之后,冰箱里装了什么,还是得自己看。
这个工具本身是Claude Code在单次对话中独立设计并构建完成的,这个细节本身也挺有意思。
把服务器泡进大海:中国给算力找了个新家
上海临港全球首个海风直连海底数据中心正式投运,用15℃海水替代空调制冷,绿电供给率超95%,PUE低至1.15。这不只是一个工程项目,是AI时代算力基础设施的一次范式迁移。
传统数据中心有一个藏不住的秘密:大约40%的电,根本没有用来计算,只是用来给机器降温。
一个中等规模的陆上数据中心,每年要喝掉10万吨淡水。相当于500个家庭一整年的用量,全都变成热气散掉了。你每次刷视频、跑AI推理,背后都有一台巨大的冷却机器在同步运转,它消耗的资源甚至比计算本身还多。
这个问题没有软件解,只有物理解。
上海临港做的事情,逻辑上其实很简单:把数据仓沉到海平面以下10到15米,海水年均温度15℃,天然恒温,铜管循环把热量导走,整个过程无需额外动力,也不消耗一滴淡水。制冷这个成本项,直接从账单上消失了。整体能效PUE做到1.15,而陆地数据中心的行业平均水平在1.4到1.6之间。省下来的,是真实的电。
有意思的地方在于能源侧的设计。数据舱部署在海上风电场内部,风机发的电通过专属海缆直连,传输损耗从陆地线路的5%到10%压缩到2%以下,绿电供给率超过95%。这不是采购绿色电力指标,是物理上的就近消纳。算力和能源放在同一片海域,中间的损耗几乎不存在。
这个结构让人想到CPU的存储层级设计。内存离处理器越近,延迟越低,带宽越高。把计算放到能源旁边,本质上是同一个思路。距离是损耗,消灭距离就是消灭损耗。
有网友提到海底环境的另一个优势:密封舱内缺氧,金属腐蚀速度大幅降低,设备故障率只有陆地的八分之一左右。这是个意外收获,密封本来是为了防水,结果顺手解决了氧化问题。微软早年做过类似实验,Natick项目在苏格兰海域运行了两年,数据证明海底服务器的故障率确实更低。项目最终没有规模化,原因是维护成本和商业模式没跑通。
中国这次的不同,在于同时解决了冷却、能源、工程三个问题,并且做到了商用规模。总重1950吨的设备,误差20厘米安置在海床上,这个精度要求本身就是一道独立的工程题。
有观点认为,海底数据中心还有一个不常被提及的特性:物理安全。陆地数据中心的位置是公开的,基础设施暴露在地面。海底的密封舱不一样,它在物理上很难被直接触及。这个角度引起了一些讨论,没有定论,值得观察。
未来的分工可能是:海底舱跑AI训练、大模型推理这类高并发、高能耗的批量任务;陆地数据中心处理低延迟、需要人工介入的实时业务,比如客服系统、实时视频处理。两套系统各司其职,按计算特征分层。
海底数据中心现在还有几个没解决的问题:长期海水腐蚀的边界在哪里,设备出故障时的维护窗口怎么定,大规模扩张时海床空间怎么规划。这些不是工程细节,是商业模式能不能跑通的前提。
算力的尽头是电力,这句话大家都在说。电力的尽头是什么,还没有人给出完整的答案。
上海临港全球首个海风直连海底数据中心正式投运,用15℃海水替代空调制冷,绿电供给率超95%,PUE低至1.15。这不只是一个工程项目,是AI时代算力基础设施的一次范式迁移。
传统数据中心有一个藏不住的秘密:大约40%的电,根本没有用来计算,只是用来给机器降温。
一个中等规模的陆上数据中心,每年要喝掉10万吨淡水。相当于500个家庭一整年的用量,全都变成热气散掉了。你每次刷视频、跑AI推理,背后都有一台巨大的冷却机器在同步运转,它消耗的资源甚至比计算本身还多。
这个问题没有软件解,只有物理解。
上海临港做的事情,逻辑上其实很简单:把数据仓沉到海平面以下10到15米,海水年均温度15℃,天然恒温,铜管循环把热量导走,整个过程无需额外动力,也不消耗一滴淡水。制冷这个成本项,直接从账单上消失了。整体能效PUE做到1.15,而陆地数据中心的行业平均水平在1.4到1.6之间。省下来的,是真实的电。
有意思的地方在于能源侧的设计。数据舱部署在海上风电场内部,风机发的电通过专属海缆直连,传输损耗从陆地线路的5%到10%压缩到2%以下,绿电供给率超过95%。这不是采购绿色电力指标,是物理上的就近消纳。算力和能源放在同一片海域,中间的损耗几乎不存在。
这个结构让人想到CPU的存储层级设计。内存离处理器越近,延迟越低,带宽越高。把计算放到能源旁边,本质上是同一个思路。距离是损耗,消灭距离就是消灭损耗。
有网友提到海底环境的另一个优势:密封舱内缺氧,金属腐蚀速度大幅降低,设备故障率只有陆地的八分之一左右。这是个意外收获,密封本来是为了防水,结果顺手解决了氧化问题。微软早年做过类似实验,Natick项目在苏格兰海域运行了两年,数据证明海底服务器的故障率确实更低。项目最终没有规模化,原因是维护成本和商业模式没跑通。
中国这次的不同,在于同时解决了冷却、能源、工程三个问题,并且做到了商用规模。总重1950吨的设备,误差20厘米安置在海床上,这个精度要求本身就是一道独立的工程题。
有观点认为,海底数据中心还有一个不常被提及的特性:物理安全。陆地数据中心的位置是公开的,基础设施暴露在地面。海底的密封舱不一样,它在物理上很难被直接触及。这个角度引起了一些讨论,没有定论,值得观察。
未来的分工可能是:海底舱跑AI训练、大模型推理这类高并发、高能耗的批量任务;陆地数据中心处理低延迟、需要人工介入的实时业务,比如客服系统、实时视频处理。两套系统各司其职,按计算特征分层。
海底数据中心现在还有几个没解决的问题:长期海水腐蚀的边界在哪里,设备出故障时的维护窗口怎么定,大规模扩张时海床空间怎么规划。这些不是工程细节,是商业模式能不能跑通的前提。
算力的尽头是电力,这句话大家都在说。电力的尽头是什么,还没有人给出完整的答案。
OpenClaw落地中国:字节跳动押注AI智能体技能生态
开源生态进入中国市场,通常有两种姿态:一种是悄悄被抄,一种是体面地被拥抱。OpenClaw这次走的是后一条路,只是拥抱它的人,出乎不少人的意料。
4月1日,OpenClaw官方宣布ClawHub中国镜像站上线,地址mirror-cn.clawhub.com,由字节跳动火山引擎提供服务器资源和技术运维。消息在X平台发出不到一天,浏览量冲破36万。用户现在可以直接告诉智能体"使用mirror-cn.clawhub.com查找技能",不需要碰终端命令行。
镜像站不是简单的流量转发。新增了中文搜索、精选技能榜单,所有收录技能完成基础安全扫描,支持腾讯QClaw、字节ArkClaw等本土智能体框架。覆盖超过4.3万个技能,火山引擎承诺赞助资金100%回流社区。
这件事有个有意思的前传。3月,腾讯推出SkillHub平台时,OpenClaw创始人Peter Steinberger公开质疑对方"照搬技能库",指其推高官方服务器成本却未主动支持社区。腾讯回应称是本地镜像站、标注了来源、还分流了87万次下载请求。双方你来我往,引发广泛讨论。到了4月1日,OpenClaw发布新版本,原生捆绑腾讯QQ机器人插件,腾讯SkillHub被默认为生态补充方案,算是和解了。
最终深度合作落到字节头上。有网友提到,腾讯其实动作更快,应用生态和流量在国内也是一流,但这么快跟字节达成合作,确实出人意料。有观点认为,火山引擎这次"诚意先行",不是先上车后补票,而是主动成为项目官方维护者。
值得一提的是,此前国内用户访问ClawHub源站频繁遭遇API限流、技能下载失败。镜像站通过国内节点实现技能秒级加载,对开发者而言实用价值很直接。同期火山引擎透露,豆包大模型日均Tokens消耗达120万亿,三个月翻倍,跻身全球消耗量前三。
当然,火山引擎也在声明里写清楚了:"不提供任何明示或暗示的保证,也不对可用性负责。"部分开发者担忧镜像站能否实时同步海外技能库,这个问题目前还没有确定的答案。
开源项目如何在中国生存,一直是个没有标准解法的问题。镜像站是一种答案,但镜像站和生态之间,还隔着很多层。
开源生态进入中国市场,通常有两种姿态:一种是悄悄被抄,一种是体面地被拥抱。OpenClaw这次走的是后一条路,只是拥抱它的人,出乎不少人的意料。
4月1日,OpenClaw官方宣布ClawHub中国镜像站上线,地址mirror-cn.clawhub.com,由字节跳动火山引擎提供服务器资源和技术运维。消息在X平台发出不到一天,浏览量冲破36万。用户现在可以直接告诉智能体"使用mirror-cn.clawhub.com查找技能",不需要碰终端命令行。
镜像站不是简单的流量转发。新增了中文搜索、精选技能榜单,所有收录技能完成基础安全扫描,支持腾讯QClaw、字节ArkClaw等本土智能体框架。覆盖超过4.3万个技能,火山引擎承诺赞助资金100%回流社区。
这件事有个有意思的前传。3月,腾讯推出SkillHub平台时,OpenClaw创始人Peter Steinberger公开质疑对方"照搬技能库",指其推高官方服务器成本却未主动支持社区。腾讯回应称是本地镜像站、标注了来源、还分流了87万次下载请求。双方你来我往,引发广泛讨论。到了4月1日,OpenClaw发布新版本,原生捆绑腾讯QQ机器人插件,腾讯SkillHub被默认为生态补充方案,算是和解了。
最终深度合作落到字节头上。有网友提到,腾讯其实动作更快,应用生态和流量在国内也是一流,但这么快跟字节达成合作,确实出人意料。有观点认为,火山引擎这次"诚意先行",不是先上车后补票,而是主动成为项目官方维护者。
值得一提的是,此前国内用户访问ClawHub源站频繁遭遇API限流、技能下载失败。镜像站通过国内节点实现技能秒级加载,对开发者而言实用价值很直接。同期火山引擎透露,豆包大模型日均Tokens消耗达120万亿,三个月翻倍,跻身全球消耗量前三。
当然,火山引擎也在声明里写清楚了:"不提供任何明示或暗示的保证,也不对可用性负责。"部分开发者担忧镜像站能否实时同步海外技能库,这个问题目前还没有确定的答案。
开源项目如何在中国生存,一直是个没有标准解法的问题。镜像站是一种答案,但镜像站和生态之间,还隔着很多层。
OpenClaude 不仅支持所有 Claude Code 内置的强大工具:bash 命令执行、文件读写编辑、多步推理、任务管理等,核心还保持了流畅的实时 token 流、工具调用和持久记忆。
安装也非常方便,npm 一键装,或者源码用 Bun 构建,再通过环境变量轻松配置比如 OPENAI_API_KEY 和模型名称即可启动。
主要功能亮点:
- 兼容多厂商多模型,自由选用最适合你场景的大语言模型;
- 全面支持函数调用,实现场景复杂的多步 AI 辅助工作流;
- 支持本地与云端模型混合使用,保障隐私且提升响应速度;
- 强大的工具链系统,涵盖代码执行、文件操作、网络检索等;
- 预设多种启动配置文件,快速定位最佳模型和使用体验。
适合开发者及 AI 爱好者打造跨模型通用的智能助理、代码生成和自动化管道,无需局限单一生态。
在使用 NotebookLM 的六个月里,我发现它不仅仅是一个 AI 笔记工具,更是一个能将 200 页文档在 1 小时内转化为深度洞察的个人研究助理。
很多人觉得 AI 只是在做总结,那是由于他们没有掌握正确的指令系统。以下是这套改变工作流的 10 个核心提示词系统,它们能帮你完成从信息输入到深度决策的闭环。
1. 来源引导系统:建立全局地图
在上传文档后,不要急于提问。首先运行此指令:
请基于已上传的来源,提供:1. 贯穿所有文档的 3 个核心主题;2. 各来源之间的共识点与矛盾点;3. 最令人惊讶或反直觉的发现;4. 文档提出但未充分回答的重大问题。
2. 矛盾猎手:寻找认知的缝隙
最好的研究往往存在于不同来源的冲突之中。
指令:找出所有来源在同一主题上结论不一致的地方。要求:1. 引用具体的冲突描述;2. 标明来源;3. 评估哪方证据更强;4. 标记为需要进一步调查的重点。
3. 专家简报构建:从研究到产出
将原始文档快速转化为可交付的专业简报。
指令:创建一个专业简报,包含:1. 5 句以内的执行摘要;2. 按重要性排序的核心发现;3. 支持发现的最强证据及来源;4. 领域内的不确定性或争议点;5. 3 条明确的行动建议。
4. 问题生成器:探索未知的未知
大多数研究者不知道自己不知道什么。
指令:基于来源生成:1. 深度研究此主题必须回答的 10 个关键问题;2. 目前来源尚未完全回答的 5 个缺口;3. 3 个如果答案改变将彻底颠覆现有认知的假设;4. 怀疑论者会提出的挑战。
5. 证据评级系统:构建稳固的逻辑基础
并非所有证据都具有同等价值。
指令:分析核心主张的证据质量:1. 评估证据是来自初级研究、专家意见还是轶事;2. 识别那些听起来自信但缺乏支撑的陈述;3. 标注哪些主张可以重度依赖,哪些需谨慎对待。
6. 时间线重构:把握演进脉络
脱离背景的知识是碎片化的。
指令:重构该主题的完整时间线。包括:1. 关键决策或发展的编年史;2. 导致转折点的触发因素;3. 行业共识随时间演变的路径;4. 现状与起点的对比及未来轨迹预测。
7. 反驳防御盾牌:预判质疑
在发布或演示前,先进行压力测试。
指令:帮我准备应对质疑:1. 针对我的结论可能出现的最强 5 个反驳点;2. 证据中容易被攻击的薄弱环节;3. 我所做的尚未被完全证实的假设;4. 如何利用现有证据进行有力回击。
8. 知识盲区地图:查漏补缺
指令:识别当前研究的缺口:1. 哪些重要子话题被忽略或覆盖不足;2. 缺少哪种类型的来源(如数据、案例或专家观点);3. 如果要使研究无懈可击,还需要补充哪 5 类来源。
9. 深度洞察提取:穿透表象
总结只是复述,洞察才是创造。
指令:超越简单的总结:1. 识别 3 个大多数读者会忽略的非显性洞察;2. 发现来源中未明说但确实存在的模式;3. 分析作者的言外之意;4. 找出那些看似微小但影响深远的数据点。
10. 最终报告生成:完成闭环
指令:结合所有来源和对话上下文,生成一份完整的报告。包含:标题、执行摘要、带证据引用的核心发现、深度分析、局限性说明以及下一步行动建议。
在 AI 时代,获取信息的速度已不再是壁垒,如何通过深度提问消除“直觉误判”才是核心。