一篇关于Deep Research的综述论文《Deep Research: A Systematic Survey

想要系统性学习Deep Research的可以看看。该论文系统地梳理了Deep Research (DR) 这一新兴领域,旨在赋予大型语言模型(LLMs)类似于人类研究员的能力,使其能够通过自主规划、信息获取、记忆管理和深度推理来解决复杂的开放性问题 。

另外github仓库里还给出了相关论文的链接,方便直接查看。
Excel函数赋能手册:一位热心网友总结的Excel函数基本用法和相关技巧。| #手册
机器学习的数学路线图:The Roadmap of Mathematics for Machine Learning

这篇长文会帮助读者理解机器学习背后的数学基础,特别是线性代数、微积分和概率论。
“理解机器学习算法背后的数学原理是一种超能力。

如果你曾经处理过实际问题,你可能会发现,熟悉细节在想要超越基准性能时,能够带来极大的帮助。尤其是当你希望推动当前技术的边界时,这一点尤为重要。

但大多数这类知识都隐藏在复杂的数学背后。理解像随机梯度下降这样的算法方法可能看起来很困难,因为它们建立在多元微积分和概率论的基础上。

然而,只要有扎实的基础,很多想法其实是相当自然的。如果你是初学者,并且没有接受过正式的高等数学教育,自己制定学习计划可能会很困难。本文的目标是为你提供一条从零基础到深入理解神经网络工作原理的路线图。

为了简化问题,本篇文章的目的是不涵盖所有内容。相反,我们将专注于为你指引方向。这样,你就能够在需要时轻松学习其他相关主题。

我建议你不要一口气读完,而是将本文作为你学习过程中的参考点。深入研究文中介绍的概念,然后查看路线图并继续前进。我坚信,这是最好的学习方法:我会为你指引道路,但你必须亲自走这条路。

机器学习建立在三个支柱上:线性代数、微积分和概率论。
小册子:MCP Workbook | #手册

MCP (Model Context Protocol) 的概念、架构、核心组件以及工作流程。文中详细阐述了 MCP 的核心架构(Host、Client、Server)以及服务器提供的三大基础能力:Tools(执行动作的工具)、Resources(只读数据资源)和 Prompts(预设提示词模板) 。

此外,文章还通过具体的医疗查询案例,展示了从服务发现、LLM 推理、安全审批到并行任务执行的完整工作流程,强调了 MCP 在标准化 AI 互联与安全控制中的关键作用 。
一篇详细介绍提示词缓存的长文 |blog

这篇文章不仅从工程原理角度详细介绍了 prompt‑caching(paged attention + prefix caching)的工作机制,还给出了实际工程中如何设计 prompt/上下文结构来提升缓存命中率、降低计算成本/延迟的建议。
对话|复旦教授张军平:现在人工智能的研究路径可能走反了 | 文章
写代码时最常见的问题:->、::、=> 这些符号不对齐,看久了累,查 bug 更慢。

Myna 是一款专为编程而设计的开源等宽字体,着重设计了 ASCII 符号,让 ASCII 符号在代码里清晰、统一、可快速识别。

1. 优化 ->、::、=>、|、0/O/o、1/l/I 等符号形态。
2. 让多字符符号 ->、>>=、=~、:: 水平对齐。
3. 调整符号与字母数字的视觉权重。
4. 简化引号、括号、逗号等基础符号。
5. 强化 1/l/I、0/O/o 的区分度。
6. 为 Perl、Haskell、C、Rust、OCaml 适配符号密集场景。
Claude Code 的 “CLAUDE.md” 配置指南 | blog | #指南

因为大语言模型(LLM)本身是无状态的 —— 它并不会记住先前会话或项目的信息,每次新会话它对你的代码库毫无“背景知识”。所以为了让 Claude Code “了解”你的项目结构、目的、依赖、构建/测试命令,以及你对编码风格/流程/测试/构建/运行方式等的期望,就必须借助 CLAUDE.md。

CLAUDE.md 越简洁、越聚焦、越“通用适用”越好。如果将太多针对特定任务或细节的规则填进 CLAUDE.md,反而可能让模型忽略整个文件,因为它在系统层会把它当作“可能不相关”。

作者推荐仅在 CLAUDE.md 中放入项目的总体 “WHY / WHAT / HOW”(项目目的、整体架构/技术栈、核心构建/测试/运行流程),以及一些对所有任务都通用的重要规范——然后把其它更细节、任务/模块专属的说明放在独立 markdown 文件中(例如 code_conventions.md、testing.md、architecture.md 等),并在 CLAUDE.md 中以引用/说明的方式指向它们。这样既能保持上下文整洁,也能让 Claude 在真正需要的时候按需读取。
大语言模型(LLM)面试必备50问 | #面试 | 原文

2025年最新AI面试指南,帮你系统掌握LLM核心知识与技术细节。

1. Tokenization:将文本拆分为词、子词或字符,是LLM处理文本的基础,保障多语言支持与计算效率。
2. Attention机制:通过计算query、key、value的相似度,动态聚焦上下文关键部分,提升理解与生成能力。
3. Context window:模型一次能处理的最大token数,直接影响文本连贯性与计算资源消耗。
4. LoRA vs QLoRA:低秩适配技术中,QLoRA引入量化,极大节省显存,实现大模型单卡微调。
5. Beam search:保留多条高概率候选路径,生成文本更流畅优质,优于贪心解码。
6. Temperature调节输出随机性,平衡创造力与准确性。
7. Masked Language Modeling(MLM):随机遮蔽训练,提升模型双向语义理解,如BERT。
8. Seq2Seq模型:编码器-解码器架构,广泛用于翻译、摘要与对话生成。
9. Autoregressive vs Masked模型:分别适合生成和理解任务,训练目标决定模型能力。
10. Embeddings:密集向量表征词语语义,训练中不断优化。
11. Next Sentence Prediction(NSP):训练模型判断句子连贯性,增强语篇理解。
12. Top-k与Top-p采样:控制生成文本多样性和连贯性。
13. Prompt Engineering:设计有效提示,提升无监督任务表现。
14. 防止灾难性遗忘:混合训练数据、权重约束、模块化架构等策略保障知识持续性。
15. Model Distillation:通过教师-学生模型传递知识,压缩模型体积同时保留性能。
16. 处理OOV词:利用子词分解保证对新词的理解。
17. Transformer优势:并行计算、长距离依赖捕捉、位置编码带来性能飞跃。
18. 避免过拟合:正则化、Dropout、早停等技巧确保泛化能力。
19. 生成式与判别式模型:前者擅长文本生成,后者专注分类任务。
20. GPT-4升级:支持多模态输入,超大上下文窗口,准确率提升。
21-25. 位置编码、多头注意力、softmax、点积自注意力、交叉熵损失等核心技术详解。
26-31. 梯度计算、Jacobian矩阵、PCA降维、KL散度、ReLU导数、链式法则——深层理解模型训练机制。
32-40. Transformer注意力计算、Gemini多模态训练、基础模型类型、PEFT微调、RAG检索增强生成、专家混合模型、Chain-of-Thought推理、知识图谱集成等前沿技术。
41-50. 零样本与少样本学习、Adaptive Softmax优化、梯度消失对策、偏见修正、编码器解码器区别、传统统计模型比较、超参数调优、LLM定义与部署挑战(资源消耗、偏见、可解释性、隐私)全面覆盖。
Back to Top