DeepScholar是由伯克利和斯坦福联合研发的开放式深度研究系统,专注于高效处理数百篇学术文章,实现长文献综述的自动合成。DeepScholar不仅在研究合成质量上与OpenAI的同类系统不相上下,而且速度提升了近2倍,极大降低了时间和成本。

DeepScholar的核心技术依托于LOTUS,这是一个开源的语义查询引擎,采用AI驱动的语义操作符,能高效批量处理海量文献。团队围绕真实科研写作需求设计,特别是论文相关工作综述部分,平均需要处理20多篇文献,DeepScholar能精准完成这一复杂任务。

系统综合评估涵盖知识合成质量、检索准确度及结果可验证性,表现优异。虽然目前面临访问高峰带来的稳定性挑战,开发团队积极修复,欢迎社区贡献和反馈。

同时,项目开源了基准测试数据集与代码,及LOTUS引擎,助力科研与开发者打造更强大的研究辅助工具。公开的排行榜和论文为行业提供了参考标准和发展方向。

这一创新不仅展示了AI在学术研究领域的巨大潜力,也启示我们:面对日益爆炸的信息量,智能筛选和高质量合成是未来科研的关键。DeepScholar证明,技术进步能让学术知识更快、更准确、更易获取,推动科学发现的速度和深度。
Continuous batching:本文梳理了大型语言模型(LLM)推理效率的核心技术——连续批量处理(Continuous Batching)。从基础的注意力机制和KV缓存出发,逐步揭示了如何优化计算吞吐量,提升多用户同时服务的性能。

首先,LLM是通过预测下一个词元(token)实现文本生成的,但每生成一个词都需大量计算,尤其是注意力机制中计算查询(Q)、键(K)、值(V)三者之间的复杂关系,复杂度随序列长度平方增长。为了高效推理,引入了KV缓存:已计算过的键值对被存储,生成新词时无需重复计算,大幅减少计算量。

面对长提示词(prompt)超出显存限制,模型采用分块预填充(Chunked Prefill)策略,分批处理输入,结合KV缓存保持上下文信息完整,解决了显存瓶颈。

传统批量处理要求所有输入长度一致,需大量补齐(padding),导致资源浪费和效率下降。连续批处理突破这一限制,将多个请求的词元按序拼接,利用注意力掩码控制不同句子间不互相干扰,实现“锯齿形”批量处理(ragged batching)。结合动态调度,将已完成的请求即时替换为新请求,保持GPU利用率最大化。

总结来说,连续批处理整合了KV缓存、分块预填充和锯齿形批处理三大技术,极大提升了模型推理的吞吐量和效率,使得像ChatGPT这样的大规模服务能高效支持成千上万的并发用户。

这不仅是对模型计算逻辑的优化,更是架构设计上的创新,体现了在有限资源下满足海量实时请求的智慧。未来,随着缓存管理和调度策略的进一步演进,LLM推理的效率还将持续提升。
通义实验室推出Z-Image——一款仅60亿参数、性能卓越的图像生成基础模型。它通过系统性优化,证明了无需庞大模型规模,也能实现顶尖的真实感图像生成和中英文文本渲染,效果媲美领先商业模型。

Z-Image参数量仅为6亿,却能生成媲美十倍规模模型的高质量照片级真实图像,且能在普通显卡(<16GB显存)上流畅运行,极大降低了高端图像生成的门槛。目前已公开发布Z-Image-Turbo(生成版),编辑版Z-Image-Edit即将推出。

架构上,Z-Image采用单流扩散Transformer设计,将文本、图像条件信息与噪声潜变量统一编码为一条序列,简化模型结构,提升计算效率和表现力。

内部ELO竞技测试显示,Z-Image在开放源代码模型中处于领先地位,且与商业巨头模型竞争力强劲。

Z-Image-Turbo在细节、光影、质感控制上表现优异,高清真实且具备良好审美,生成效果兼顾真实感与艺术性。

特别值得一提的是它的双语文本渲染能力:不仅能准确呈现中英文文字,还能在海报设计中展现强大的构图与排版能力,即使小字体环境下也能保证文本清晰且美观。

Z-Image拥有丰富的世界知识与文化认知,能够精准生成名胜古迹、知名人物及特定实物,体现深厚的语义理解力。

内置的提示增强器(Prompt Enhancer)通过结构化推理注入逻辑与常识,支持处理复杂任务,如“鸡兔同笼”问题或古诗意境的视觉化,编辑时也能根据模糊指令推断用户意图,确保结果合乎逻辑。

编辑版Z-Image-Edit支持复杂指令执行,能同时修改与亮化背景,精准调整指定位置文本,并在大幅变换场景下保持人物一致性,实现对图像元素的细粒度控制。

GitHub | ModelScope | HuggingFace | Z-Image gallry
有人说用“vibe coding”(凭感觉用AI写代码)能直接做出上线的生产级应用,这是不现实的。生产环境的软件必然复杂,需要大量代码的编写和维护,单靠写prompt根本撑不起。

AI确实能帮你快速生成代码片段,甚至能做一些简单小工具、小项目,或者快速搭建原型,提升开发效率。但当涉及到真正的生产级应用,边界条件、集成、安全、性能和稳定性等问题,都需要工程师的严谨设计、测试和持续维护。

那些说“vibe coding”能做出SAP、Salesforce这样的大型系统,显然是夸张了。相反,经验丰富的工程师利用AI辅助,能快速完成70%-80%的代码工作,但他们依然需要深入理解业务、规范开发流程、严格测试和持续重构。

成功案例确实存在,比如一些小型APP或合规项目用AI辅助开发并上线,但这更多是建立在开发者本身具备扎实的基础和工程能力上。完全靠AI和prompt从零开始,几乎不可能保证产品质量和稳定性。

AI是加速器,不是替代品。真正的生产级软件开发,离不开架构设计、代码审查、测试覆盖和持续迭代。那些只靠prompt写代码,却指望一劳永逸的人,注定会碰壁。

生产级代码的核心,是对复杂性的掌控,而不是对AI的盲目信任。AI帮你写代码,工程师帮你撑起整个系统。
现代开发离不开终端和浏览器的频繁切换:查文档、预览文件、监控系统、调用 AI 助手等。

Wave Terminal
是一款开源跨平台终端,将传统终端功能与图形化操作完美结合,支持文件预览、网页浏览和智能 AI 辅助,所有操作都能在终端内完成,极大提升工作流效率。

Wave 支持 macOS、Windows 和 Linux,功能丰富包括:

- 灵活拖拽布局,管理多个终端、编辑器、浏览器和 AI 助手窗口;
- 内置编辑器支持远程文件编辑和语法高亮;
- 文件预览支持图片、视频、PDF、Markdown、CSV 等多种格式;
- AI 助手能理解终端上下文,辅助调试和文件操作;
- 远程连接一键直达,兼顾安全的凭证管理;
- 丰富自定义主题及命令行工作空间管理。
DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeekMath-V2代表了数学推理领域的重要突破。当前大型语言模型虽然在数学竞赛中表现优异,但仅靠最终答案的准确性无法保证推理过程的严谨性。DeepSeekMath-V2提出了“自我验证”机制,训练出一个高精度、可信赖的定理证明验证器,并以此作为奖励模型,推动生成器不断发现并修正自身证明中的错误,提升推理质量。

该方法不仅解决了传统强化学习模型忽视推理过程的问题,还通过扩大验证计算能力,自动标注新的复杂证明,持续增强验证器的能力。最终,DeepSeekMath-V2在IMO 2025、CMO 2024和Putnam 2024等顶级竞赛中取得了金牌水平的成绩,Putnam得分高达118/120,显示出强大的数学推理和证明能力。

这一成果表明,迈向自我验证的数学推理是提升AI数学能力的关键方向。它不仅推动了数学AI系统在科学研究中的应用潜力,也为解决开放性数学难题提供了新的思路和工具。尽管仍有挑战,DeepSeekMath-V2为未来可解释、可靠的数学AI奠定了坚实基础。
LaurieWired分享了一个实用技巧:通过合理格式化,你可以把普通的消费级SSD“升级”为接近企业级的耐用度,只需牺牲约5%的容量,就能获得约10倍的写入寿命提升。| 帖子 | #技巧

以Crucial MX500 1TB为例,默认耐用度是0.2 DWPD(每天写入全盘0.2次),而同样闪存颗粒的Micron 5300 PRO 960GB企业级SSD耐用度是1.5 DWPD。企业级SSD很大程度上其实是超额预留空间更多的消费盘,厂商刻意用更多预留区来换取更高耐用度,因为消费者通常偏好更大容量,却不太关注寿命。

Laurie的做法是新买SSD后,只格式化90%-95%的空间,留出一部分不分区不使用,等于人为增加了过度预留区。对于视频编辑等写入量巨大的场景,这样的空间换耐用度的策略非常划算,能显著延长盘的寿命。

其他网友补充指出,很多消费级SSD会在使用超过约50%容量时,从快速的SLC缓存模式切换到更慢的TLC或QLC,导致性能和延迟下降。留足空闲空间不仅延长寿命,也能保持性能稳定。还有人提醒,企业级SSD的电源断电保护和固件优化也更优秀,适合更苛刻的服务器环境。

这背后反映的是存储设计的一个核心原则:容量和耐用度经常是此消彼长的关系。对大多数普通用户来说,过度预留带来的耐用提升可能用不上,但对专业用户和重负载场景,合理减少可用容量换取耐用度,是一条高效且省钱的“升级”路径。

对消费者来说,理解SSD背后的工作机制和厂商策略,能帮助更聪明地使用硬盘,避免性能骤降和过早损耗。未来存储设备设计若能更开放、更易拆卸替换,像企业级的U.2、EDSFF接口那样,将大幅提升用户体验和设备寿命
Gemini 现在能生成完全互动的图像,覆盖任何主题。只需选中图中任意区域,系统即可给出详细解读,成为极其强大的学习工具。相比传统枯燥的文本,互动图像让复杂知识一目了然,极大提升了学习效率和体验。| 帖子

这一技术不仅适合学生,也能改变技术文档和专业资料的呈现方式。想象一下,开发者可以通过点击代码架构图,快速理解项目结构,无需翻阅厚重的说明书;博物馆、科研机构也能借此打造沉浸式的虚拟展览和深度探讨空间。

Gemini通过即时生成“微型网站”模式,AI不再只是引流传统网页,而是在用户需求点上直接构建内容,彻底颠覆信息获取方式。尽管目前交互功能仍有些限制,部分主题支持有限,但这已是未来教育和知识传播的关键方向。

Google的这项创新悄然推动着学习方式的变革,传统教科书开始显得过时。未来,知识不只是读出来,更是“点”出来,触摸出来,深度理解出来。
Back to Top