黑洞资源笔记

2 days ago

PageLM：AI驱动的教育学习平台

这是一个开源AI教育平台，将学习材料转化为互动体验，支持上下文聊天、智能笔记、闪卡、测验等功能，兼容多AI模型与嵌入服务，通过WebSocket实时生成内容，采用Docker部署且支持本地开发。

✨重点
●📚【核心功能】上下文聊天（上传文档问答）、智能笔记（Cornell格式自动生成）、闪卡（间隔重复）、测验（带提示与评分）、AI播客（语音学习）、作业规划、考试模拟、辩论功能
●🔄【多模型支持】兼容Google Gemini、OpenAI GPT、Anthropic Claude、xAI Grok、Ollama（本地）、OpenRouter等LLM
●⚙️【技术栈】后端Node.js+TypeScript+LangChain，前端Vite+React+TailwindCSS，支持JSON/向量数据库存储，Markdown结构化输出
●🚀【部署方式】Docker一键部署（开发/生产环境），本地需Node.js v21.18+、ffmpeg，支持WebSocket实时流处理
●🎙【音频功能】集成Edge TTS、ElevenLabs、Google TTS生成播客，支持语音转录与学习材料整理
●🔍【数据安全】文件上传基于本地存储，环境变量配置敏感信息，支持自定义文件大小限制
●📝【学习工具链】提供AI辩论伙伴、Cornell笔记模板、考试模拟反馈，适合教育工作者与学习者
●🔧【开发指南】含详细本地开发步骤（克隆仓库→配置.env→启动前后端），支持Windows/Linux跨平台部署

2 days ago

线性代数英文原版+中文版 | #电子书

MIT终身教授、美国国家科学院院士Gilbert Strang继全球畅销教材《线性代数导论》后，推出硬核新作《线性代数与数据学习》

豆瓣评分9.3，清华/MIT等顶尖学府指定教材

电子书

2 days ago

The Well: 15TB of Physics Simulations

物理仿真数据集规模空前，涵盖生物系统、流体力学、声波散射、磁流体动力学等多领域。The Well 提供了总量达15TB的高质量物理模拟数据，方便机器学习和计算科学研究者做模型训练与评估。

项目集成16个不同数据集，支持直接下载或从 Hugging Face 流式访问，配合PyTorch接口可轻松加载训练。还提供基准模型和训练脚本，助力科研人员快速验证和改进物理场的数值模拟与PDE代理模型。

主要特点：

- 涵盖多种物理领域的高精度仿真数据，数据规模达15TB；
- 提供易用的Python接口，支持分布式训练和数据流式加载；
- 包含基准测试和预训练模型，方便性能对比和模型迭代；
- 支持本地下载和云端流式访问，灵活适配不同计算环境；
- 由多所知名科研机构联合开发，质量和权威性有保障。

适合机器学习研究者、物理模拟开发者和计算科学团队，推动跨学科AI科研创新。

2 days ago

All In One USB Drive | #工具

多合一启动U盘工具集，集合了各种系统安装器、救援工具和实用程序，方便随时应对各种电脑维护和系统重装需求。支持将多个ISO镜像整合到一个U盘，通过Ventoy实现直接启动，操作简单，更新灵活。

主要功能：

- Linux系统救援套件和磁盘镜像工具；
- 多种主流Linux发行版和Windows安装镜像；
- Windows及Office激活脚本支持；
- 详细步骤指导，轻松制作和使用多启动U盘；
- 支持常见平台格式，满足不同场景需求。

工具

3 days ago

十年前的一本多语言版的逆向工程权威指南，含中文版 | #电子书

电子书

3 days ago

Machine Learning Engineering Open Book（机器学习工程开放书）

Stas Bekman创建并维护的一份开源技术指南。该项目旨在收集和分享关于大语言模型及多模态模型训练、微调和推理的实用方法论、工具及详细步骤。| #指南

内容从底层硬件（计算加速器、CPU、内存）到软件基础设施（文件存储、网络、SLURM 调度系统）的各个层面，特别关注在大规模分布式系统中遇到的调试、优化和测试等工程难题。

对于希望深入了解如何构建高效 ML 训练集群或解决实际训练崩溃问题的机器学习工程师和研究人员来说，这是一份极具价值的实战手册。

指南

3 days ago

爱丽丝漫游可微仙境：Alice’s Adventures in a differentiable wonderland | #电子书

这是本一路用直观的语言和可运行的代码教会你亲手构建现代神经网络的书。“神经网络无处不在——大型语言模型、语音转写、分子发现算法、机器人系统……剥开外衣，它们都只是可微基元的组合；研究神经网络，就是在学习如何“编程”并与这些模型交互，这正是所谓的“可微编程”。

这本入门读物，为像爱丽丝一样刚刚跌入这片奇异可微仙境的你而写。我将概览如何通过自动微分来优化函数，并精选最常见的架构来处理序列、图、文本与音频。

全书聚焦直觉、自成体系地介绍最重要的设计技巧——卷积块、注意力块、循环块——力求在理论与代码（PyTorch 与 JAX）之间架起桥梁，使读者最终能够理解当今最前沿的模型，如大语言模型 (LLM) 与多模态架构。”

作者现在开始写第二卷了，先放出了一章介绍强化学习的：内容涉及大型语言模型的后训练技术，聚焦于强化学习在模型微调中的作用。内容兼具广度（历史演进）与深度（数学推导）的技术文档。系统讲解了从奖励建模（Reward Modeling）、策略梯度（Policy Gradient）到PPO、GRPO及DPO等前沿算法的数学推导与应用细节。

电子书

3 days ago

Intelligent Robot Simulator (IR-SIM) 是一款基于 Python 的轻量级机器人仿真器，专注于导航、控制和强化学习的快速验证。与那些功能强大但臃肿的机器人模拟器不同，IR-Sim 不依赖复杂的物理引擎，适合快速搭建和测试算法。

IR-Sim 的核心优势：
- 安装快捷，配置简单
- 场景用 YAML 文件定义，易于管理
- 使用 Matplotlib 实时可视化
- 内置碰撞检测，支持多机器人避障
- 适合 AI 和强化学习的开发流程

它能帮你快速原型设计多机器人避障、基于激光雷达的导航、动态障碍物环境下的行为测试，甚至在进入大型仿真平台前完成高层次的算法验证。

该项目开源且活跃维护，已有多篇导航与规划领域的科研论文采用它。对于学生、研究者或导航算法爱好者，IR-Sim 是一种无需庞大依赖，快速试验想法的极佳工具。

技术选择不仅关乎功能，更是效率和灵活性的权衡。简化工具链，聚焦核心需求，才能让创新更快落地。