黑洞资源笔记

14:10 · May 23, 2026 · Sat

Sci-Hub 团队整了个大招 —— Sci-Bot

这是一款基于 Sci-Hub 海量论文库（超过8500万篇）训练的 AI 科研助手，能用自然语言直接回答你的科研问题，并附上真实论文引用和链接。

优点：
- 直接调用全文，避免幻觉
- 支持中英俄等多种语言提问
- 免费使用（目前还是 Alpha 版）

15:09 · May 11, 2026 · Mon

漏洞自查循环：压榨大模型深层推理能力的底层逻辑 | 帖子

通过强制模型进行“漏洞自查-修复-再验证”的循环，可以压榨出模型更深层的推理能力。这不仅是提示词技巧，更是利用模型训练中对“确定性”的不同权重，将对话从“讨好模式”切换到“解决问题模式”。

有一个很有意思的发现。如果你对 Codex 5.5 说：“你对这个策略有 100% 的信心吗？如果没有，请找出所有可能的漏洞，提出修复方案，并不断循环这个过程，直到你达到 100% 的事实信心。”

这个指令会产生一种奇妙的化学反应。

普通的模型，比如 Opus 4.7，面对这种质疑往往会陷入一种“过度讨好”的死循环。你越问，它越会说“你完全正确”，这种过度调优的 RLHF（人类反馈强化学习）让它像个缺乏安全感的社交达人，只会顺着你的话说，哪怕逻辑已经烂透了。

但 Codex 5.5 表现得像个古板、严谨甚至有点乏味的工程师。它把“不确定性”视作一种 Bug。当被推入这个逻辑循环时，它不会盲目点头，而是真的开始拆解自己的指令流水线，像编译器检查语法错误一样，去寻找逻辑缝隙。有网友提到，这种做法其实是在利用模型的“自我意识”——它在迭代中会真正修补漏洞，而不是仅仅在语气上显得自信。

当然，这种做法是有代价的。

有观点认为，这种“强迫症式”的循环可能会诱发幻觉，或者导致过度工程化，把一个简单的功能搞得像个复杂的微服务架构。甚至有人怀疑，这本质上只是在增加 Token 的消耗，换取一种心理上的“虚假确定性”。

但如果把这个过程看作是一个 Eval Harness（评估框架），它的价值就显现出来了。与其让模型直接输出结果，不如让它先在内部进行一次“事前验尸”（Pre-mortem）。

这让我想起，提示词的本质其实是在调整模型的运行层级。当你在要求它达到 100% 信心时，你实际上是在强迫它从“模式匹配”的浅层，跳进“逻辑验证”的深层。

只是不知道，当模型真的达到了那种所谓的“100% 信心”时，它看到的究竟是完美的逻辑，还是它自己编织的一个逻辑闭环？

15:07 · May 11, 2026 · Mon

网页爬虫和自动化测试经常被反爬虫系统检测到，Playwright/Puppeteer默认配置暴露navigator.webdriver、HeadlessChrome UA等明显bot特征，导致Cloudflare、reCAPTCHA直接封杀。

CloakBrowser 提供源代码级别的隐身Chromium浏览器，完美绕过所有bot检测。

49个C++源代码补丁修改canvas、WebGL、音频指纹、WebRTC、自动化信号，reCAPTCHA v3得分0.9（人类水平），通过Cloudflare Turnstile、FingerprintJS等30/30检测项目。

主要功能：

- 源代码级指纹修改，49个C++补丁覆盖canvas、WebGL、音频、字体、GPU、屏幕、WebRTC等；
- Drop-in Playwright/Puppeteer替换，3行代码无缝切换；
- humanize=True一键启用人类行为模拟，鼠标贝塞尔曲线、逐字打字、真实滚动；
- 支持HTTP/SOCKS5代理，自动从代理IP检测时区/语言环境；
- 持久化浏览器配置文件，保持cookies/localStorage跨会话；
- Docker一键部署，支持CDP多连接指纹轮换。

支持Python/JavaScript，pip install cloakbrowser 或 npm install cloakbrowser，首次运行自动下载隐身Chromium二进制。

15:04 · May 11, 2026 · Mon

开发人形机器人控制器需要多个独立模块，RL处理下肢运动、IK控制上肢动作、规划器生成路径、推理栈部署硬件，来回切换调试效率低下。

GR00T Whole-Body Control 把人形机器人全身控制所需的功能全部整合到一起，提供了统一的开发与部署平台。

不仅有解耦WBC模型（用于NVIDIA Isaac-GR00T N1.5/N1.6）、GEAR-SONIC通用行为基础模型，还支持VR全身遥操作、运动砖块实时生成、训练/推理/部署全流程。

主要功能：

- GEAR-SONIC：基于大规模人类运动数据训练的全身控制器，支持行走、跑步、跪爬、跳跃、双臂操作等自然行为；
- Decoupled WBC：下肢RL+上肢IK解耦控制器，用于GR00T N1.5/N1.6模型；
- VR全身遥操作：通过PICO VR头显实现实时人机运动转移，支持数据采集；
- MotionBricks：实时潜空间生成框架，15k FPS零样本运动合成；
- 运动规划器：键盘/游戏手柄实时生成步态，支持多种风格（跑步、潜行、受伤等）；
- C++推理栈：硬件部署，支持ONNX导出、ZMQ协议、电机监控；
- 训练管道：PPO训练、Bones-SEED数据集处理（142K+动作，288小时），支持从头训练/微调。

支持MuJoCo仿真、Isaac Lab训练、真实机器人部署（Unitree G1），通过Git LFS拉取模型快速本地运行，适合机器人研究者和开发者。

15:03 · May 11, 2026 · Mon

PPT Master 用AI一键将任意文档转为**原生可编辑PPTX**，生成真实PowerPoint形状、文本框和图表，不是图片！直接点击编辑。

支持PDF、DOCX、URL、Markdown输入，还能复制公司模板、添加动画过渡、生成旁白语音，甚至导出MP4视频。

主要功能：

- AI自动生成**原生可编辑PPTX**，形状/图表/动画真实支持PowerPoint编辑；
- 支持PDF/DOCX/Markdown/URL等多种文档格式一键转换；
- 模板复制功能，可提取任意PPT作为私有模板库；
- 页面过渡+元素入口动画，原生OOXML支持；
- 语音旁白生成（支持克隆声线），直接嵌入PPTX并导出MP4；
- 图片智能获取（AI生成+网络搜索），支持Pexels/Pixabay等；

只需安装Python + pip install -r requirements.txt，即可在Claude/Cursor/VS Code等AI IDE中聊天生成：「请从这个PDF制作PPT」即可。数据本地处理，无平台锁定。

15:01 · May 11, 2026 · Mon

传统TTS合成往往依赖GPU或云端API，资源消耗大、延迟高，还需网络连接，使用起来门槛不低。

Agora Pocket TTS 颠覆传统，提供超轻量级文本转语音解决方案，完全适配CPU运行。

仅100M参数模型，支持音频流式生成，低至200ms首帧延迟，MacBook Air M4上CPU实时6倍速，仅用2核。支持Python API/CLI、语音克隆、多语言（英法德葡意西），无限长文本输入，甚至浏览器端运行。

主要功能：

- CPU高效运行，无需GPU，~200ms低延迟音频流式生成；
- 超轻量100M参数模型，实时6x速度，仅2核CPU；
- 语音克隆，支持自定义wav样本快速适配；
- 多语言支持：英语、法语、德语、葡萄牙语、意大利语、西班牙语；
- Python库/CLI/HTTP服务，pip/uv一键安装；
- 浏览器WebAssembly运行，无需安装即试用；
- 无限长文本处理，适合长篇朗读/ audiobook。

支持Python 3.10+，PyTorch 2.5+，跨平台Web/桌面，通过pip install pocket-tts本地运行，适合开发者、内容创作者和AI应用。

14:58 · May 11, 2026 · Mon

开发项目管理常常需要监督编码代理，监控任务进度、审查PR、验证CI状态，还要手动处理复杂工作，来回协调效率低下。

OpenAI Symphony 将项目工作转化为隔离的自主实现运行，让团队管理工作而非监督编码代理。

不仅能监控Linear看板自动生成代理处理任务，还提供CI状态、PR审查反馈、复杂度分析和演示视频等工作证明，验收后安全合并PR。

主要功能：

- 监控任务板（如Linear），自动生成隔离代理实现任务；
- 提供完整工作证明：CI状态、PR审查、复杂度分析、walkthrough视频；
- 安全PR合并机制，工程师无需实时监督；
- 支持harness engineering代码库，适用于成熟项目；
- 实验性Elixir参考实现，可快速部署运行；
- SPEC规范公开，便于自定义开发其他语言版本。

支持Elixir/Python等语言实现，适合工程团队和AI开发项目使用，低调工程预览版，专为可信环境测试。

14:50 · May 11, 2026 · Mon

为什么 AI 复杂任务，正在放弃 Markdown 转向 HTML | 推文

随着 AI 代理能力的增强，传统的 Markdown 格式已难以承载复杂的逻辑与视觉需求。转向 HTML 作为 AI 的输出媒介，能实现更高信息密度、交互式体验与更直观的视觉呈现，从而让人类在协作中保持深度参与。

当 AI 代理（Agent）开始处理极其复杂的任务时，Markdown 这种“轻量级”的语法反而成了一种枷锁。

如果你习惯于看 AI 生成的 Markdown 计划书，大概会发现一个尴尬的现状：一旦文档超过百行，阅读体验就开始崩塌。为了弥补表达能力的不足，AI 甚至会用 Unicode 字符去模拟颜色，或者用 ASCII 字符画一些简陋的流程图。这就像是在用电报机试图传输高清视频，虽然能传达意思，但效率低得令人沮丧。

HTML 正在成为一种更高效的“通信协议”。

它不仅仅是关于“好看”。HTML 的核心优势在于信息密度。通过嵌入 SVG 矢量图、利用 CSS 进行布局、甚至加入 JavaScript 实现交互，AI 可以交付一个真正的“产品”而非仅仅是一段“描述”。比如，与其看一段描述数据趋势的文字，不如让 AI 直接生成一个带滑块的交互式仪表盘。

有网友提到，HTML 带来的交互感能让协作变得更有趣。你可以要求 AI 生成一个临时的、针对特定任务的“微型编辑器”：比如一个可以拖拽排序的任务卡片流，或者一个带实时预览的 Prompt 调试器。这种“即用即弃”的工具感，让文档从静态的记录变成了动态的实验室。

当然，这种转变并非没有代价。

HTML 的 Token 消耗通常是 Markdown 的数倍，且在版本控制（Git Diff）中显得非常臃肿。如果只是为了简单的笔记，Markdown 依然是王者。但当我们需要进行复杂的架构设计、代码评审或原型开发时，HTML 提供的语义化结构和视觉清晰度，能显著降低人类的认知负荷。

与其说我们在重新发现 HTML，不如说我们在利用 Web 技术栈，为 AI 时代构建一种全新的、可交互的“数字界面”。

当文档本身变成了一个可以运行的小程序，我们与 AI 的关系，也从单纯的“指令与反馈”，进化成了真正的“共创”。

14:47 · May 11, 2026 · Mon

重构 Claude 使用逻辑：从自动补全升级为 AI 协作伙伴 | 推文

通过将 Andrej Karpathy 的 4 条基础规则扩展为针对现代 Agent 工作流的 12 条指令，可以将 Claude 的编程错误率大幅降低。核心在于将 AI 从“自动补全工具”升级为遵循“行为契约”的协作伙伴。

很多人把 CLAUDE.md 当成随手丢弃的偏好清单，要么塞满 4000 个 token 导致模型完全无视，要么干脆空着。这就像给一个极度聪明的实习生发了一本厚得没法读的员工手册，最后他只能靠直觉乱撞。

Karpathy 最初提出的 4 条规则解决了“写代码”时的基本逻辑问题：别瞎猜、保持简单、外科手术式修改、目标导向。这确实把错误率压了下来，但现在的 AI 已经不是只会写单行代码的补全工具了，它们是会在多个文件间跳转、执行多步任务的 Agent。

现在的痛点变了。有网友提到，Agent 会在长任务中迷失方向，或者在两个不同的代码风格之间试图“取平均值”，结果写出了一堆逻辑混乱的缝合怪。

为了补齐这些漏洞，需要引入更硬核的约束。比如，别让模型去做确定性的逻辑判断，那是代码该干的事，不是概率模型该干的事；必须设置严格的 Token 预算，否则它会陷入无休止的循环，直到烧光你的额度；还有最重要的，要求它“大声失败”。如果迁移漏掉了记录，或者测试只是在测常量，它必须直接告诉你“我没把握”，而不是伪装成成功。

有趣的是，规则并不是越多越好。当规则超过 200 行，模型就会开始机械地模仿“存在规则”这个事实，而不再理解规则本身。

这本质上是在为 AI 编写一套“操作系统协议”。规则不是建议，而是契约。