一位AI重度玩家分享了他的完整工具栈,从代码到视频,从设计到自动化,几乎覆盖了创作者能想到的所有场景。这份清单本身就是一份值得收藏的参考指南。| 帖子 | #工具 #指南

编程开发层面,他同时使用Claude Code、KIWI K2.5和Codex处理不同类型的编码任务,Cursor负责调试,Lovable专攻网页原型,Vibecode则用于移动端应用开发。他提到自己手上有二三十个实验性App在排队等着做,这种产出效率在过去是不可想象的。

视觉内容生产线同样丰富:Midjourney负责病毒式传播的图像风格,Grok和Nano Banana Pro作为图像生成的补充选项,Topaz Bloom处理图像放大。视频方面,Veo 3.1、Kling、Grok三管齐下,Topaz Astra负责视频增强。更有意思的是3D领域,Meshy AI可以把图片转成3D模型,DeepMind的Genie则用于构建3D世界。

内容运营工具也相当完整:HeyGen和Higgsfield用于AI虚拟人,Opus Clip做病毒式剪辑,Veed处理字幕,CapCut快速剪辑,ElevenLabs生成语音,Suno生成音乐。

有人问他每月在这些工具上花多少钱,他的回答很有意思:太多了,所以2026年的计划是用自己开发的App替换掉其中一部分。这其实揭示了一个趋势,当AI编程能力足够强,很多垂直SaaS的护城河会被个人开发者逐渐瓦解。

另一条评论也很犀利:这么大的工具栈不是竞争优势,而是订阅噩梦,真正的护城河是你独特的创意品味,不是你租用的工具。他的回应是:谁说我每个月都在为这些付费?

这句话点出了一个容易被忽视的事实。工具的价值不在于拥有多少,而在于你能用它们产出什么。当被问到日常最常用什么时,他的答案是自己用代码构建的内部工具和应用。

掌握AI的方式只有一种,就是把所有工具都用一遍。这话听起来偏执,但在技术剧变期,广泛尝试本身就是一种学习策略。
一个自动下载媒体素材的skill:智能媒体下载器 | #工具

根据你的描述自动搜索和下载图片、视频片段,支持视频自动剪辑。配合其他skill可以实现自动生成视频等功能。
一个开源内网穿透工具:PortBuddy 能否成为 ngrok 的平替?| #替代品 #工具

做开发的朋友应该都遇到过这个场景:本地跑着一个服务,想让外网访问测试一下,或者需要调试第三方的 Webhook 回调。这时候内网穿透工具就成了刚需。

PortBuddy 是最近开源的一个内网穿透方案,定位和 ngrok 类似,但在功能覆盖上更全面一些。

核心能力:

- 多协议支持:不只是 HTTP,TCP 和 UDP 也能穿透。这意味着你可以把本地的 PostgreSQL 数据库、游戏服务器、甚至任意 UDP 服务暴露出去
- 默认启用 SSL:HTTP 隧道自动加密,不用额外配置证书
- 支持 WebSocket:实时应用场景不受限
- 私有隧道:可以给隧道加密码,防止被人扫到滥用
- 自定义域名和静态子域名:正式环境也能用

技术栈值得一提:CLI 用 Java 25 配合 GraalVM 编译成原生可执行文件,服务端是 Spring Boot 3.5,网关用 WebFlux,前端是 React。整体架构做了微服务拆分,包括服务发现、SSL 证书自动管理等模块。

使用很简单,三步走:下载 CLI、用 API Token 认证、然后一行命令暴露端口。比如本地 3000 端口的 Web 服务,执行后直接给你一个公网 HTTPS 地址。

定价方面,免费版支持同时开 1 个隧道,团队版 10 美元/月可以开 10 个,额外隧道 1 美元/月。对于个人开发者来说,免费版基本够用。

说实话,内网穿透这个赛道已经很卷了,ngrok、frp、Cloudflare Tunnel 都是成熟方案。PortBuddy 的差异化可能在于:一是 TCP/UDP 支持开箱即用,二是完全开源可以自建。但能否站稳脚跟,还要看后续的稳定性和社区运营。

对于有自建需求、或者想深入了解隧道技术实现的开发者,这个项目的代码结构还是值得一读的。
hyprwhspr:Arch Linux 上的原生语音转文字工具 | #工具

用语音输入文字这件事,在 Linux 桌面上一直不太顺手。要么依赖云端服务有延迟,要么本地方案配置繁琐,Wayland 环境下更是各种兼容问题。

hyprwhspr 是一个专为 Arch Linux 和 Hyprland 打造的语音转文字工具,按下快捷键说话,松开后文字直接出现在光标位置,整个过程在本地完成。

项目默认使用 Whisper 模型实现离线识别,也支持最新的 Parakeet-v3 模型,有 NVIDIA 或 AMD 显卡还能启用 GPU 加速。除了本地模型,同样支持 OpenAI、Groq 等云端 API,甚至可以接入任意自定义后端。

主要特性:

- 通过 AUR 一键安装,交互式配置向导自动完成设置;
- 支持切换、按住说话、自动检测三种录音模式;
- 可视化录音状态指示器,自动匹配 Omarchy 主题配色;
- 内置词语替换功能,可自定义专业术语和标点符号转换;
- Waybar 托盘集成,实时显示服务状态;
- 支持多语言识别,可指定语言或自动检测。

安装后运行 hyprwhspr setup 即可完成配置,默认快捷键 Super+Alt+D 触发录音,文字自动粘贴到当前活动窗口。
开发者在调用不同 AI 模型时,常面临账号管理繁琐、API 协议不统一以及配额限制等问题,在不同平台的 Session 和 API 之间来回切换非常耗时。

Antigravity Tools 是一个高性能 AI 调度网关与账号管理工具,旨在打破不同 AI 厂商间的调用壁垒,提供一站式的本地 AI 中转方案。| #工具

它不仅能将 Google 或 Anthropic 的 Web 端 Session 转化为标准 API 接口,还支持智能账号轮换与协议转换,确保 AI 业务调用稳定且低延迟。

主要功能:

- 智能账号仪表盘,实时监控各账号配额健康状况并自动推荐最佳账号;
- 支持一键无缝切换账号,集成 OAuth 2.0 自动授权、批量导入及权限检测;
- 全协议适配,提供兼容 OpenAI、Anthropic 和 Gemini 标准格式的 API 端点;
- 智能状态自愈,遇到限流或授权过期时自动触发毫秒级重试与静默轮换;
- 模型路由中心,支持自定义正则表达式映射,实现专家级的请求重定向;
- 深度适配多模态功能,支持 Imagen 3 高级画质控制及超大 Payload 传输。

该工具基于 Tauri v2 和 Rust 构建,确保了极高的运行效率与本地数据安全性。支持 Windows、macOS 和 Linux 多平台使用,适合需要深度整合各类 AI 模型的开发者与爱好者使用。
为 AI 智能体集成网页操作能力时,经常会遇到目标网站没有公开 API、接口文档极其复杂或者调用成本过高的问题,手动编写爬虫或自动化脚本往往费时费力。

Web Hacker 是一个用于逆向工程 Web 应用的开源工具,它能让开发者在没有官方 API 的情况下,通过模拟和分析浏览器行为来实现网页自动化。| #工具

它的核心逻辑是通过监控浏览器在调试模式下的真实操作,利用 AI 代理分析捕获到的网络流量和状态,从而自动提取出可重复执行的 API 调用流程,并将其转化为标准化的常规程序。

主要功能:

- 自动捕获浏览器交互数据,包括网络请求、存储事件和交互记录;
- AI 驱动的流程发现,能够自动识别并合成复杂的 API 调用逻辑;
- 支持定义参数化任务,可根据不同的输入值动态执行自动化流程;
- 内置多种操作类型,支持页面导航、请求发送、延迟等待及数据返回;
- 灵活的占位符系统,支持从 Cookie、本地存储或 Meta 标签中提取动态 Token;
- 提供完整的监控、发现和执行工作流,支持将任务导出为生产环境可用的接口。

该项目基于 Python 3.12 开发,通过 Chrome DevTools Protocol 与浏览器通信,适合需要构建 AI 浏览器助手、自动化测试脚本或进行复杂数据采集的开发者使用。
视频剪辑过程中,传统的轨道模式在处理复杂动效时往往显得不够直观,而专业的动效软件又过于厚重,学习成本极高。

Nugget 是一款基于 Electron 开发的开源视频剪辑工具,它专注于动效制作,采用了与众不同的图层化编辑系统,为视频创作提供了更高的灵活性。 | #工具

除了基础的剪辑功能,它还支持无限图层叠加、关键帧动画、音频混音以及 AI 自动字幕,旨在让创作者无需依赖复杂的专业软件也能轻松制作出精美的动态效果。

主要功能:

- 采用图层化编辑逻辑,支持无限图层叠加,方便对单个素材应用多种效果;
- 完善的关键帧动画系统,支持位置、缩放、透明度及旋转的精确控制;
- 集成 FFmpeg 实现高效渲染,兼容 mp4、mov、mp3 等主流多媒体格式;
- 内置 AI 自动字幕功能,利用 Whisper 技术实现快速的语音转文字;
- 提供屏幕录制、音频录制、色度键抠像及 WebGL 模糊滤镜等进阶工具;
- 支持外部插件扩展和多语言界面,满足不同场景下的定制化需求。

该项目基于 TypeScript 和 Lit 构建,支持跨平台运行。开发者只需通过 npm 安装依赖并配置相应的 FFmpeg 环境即可在本地启动,非常适合追求轻量化动效制作的创作者使用。
平时使用各种 AI 编辑器或客户端时,常会遇到账号额度分散的问题。比如拥有 Kiro 账号却更习惯使用 Cursor 开发,或者 Gemini CLI 的额度充裕却无法直接在常用的聊天工具里调用,不同工具间的凭证无法通用,导致资源浪费且配置繁琐。

ProxyCast 是一个开源的桌面端工具,旨在让不同 AI 客户端的额度自然流动。它能将你已有的 AI 客户端凭证转换成标准的 OpenAI API 接口,为本地开发和其他第三方工具提供动力。| #工具

该工具不仅解决了多账号统一管理的问题,还提供了友好的图形化界面,让用户无需复杂的命令行操作即可实现凭证到 API 的转换,极大地提升了 AI 工具的使用效率。

主要功能:

- 统一管理多个 Provider,支持 Kiro、Gemini、通义千问、Vertex AI 等多种凭证来源;
- 将本地客户端凭证转换为标准 OpenAI 或 Anthropic API,兼容绝大多数主流 AI 插件与应用;
- 提供直观的仪表盘界面,支持服务状态监控、API 实时测试及日志查看;
- 智能凭证管理系统,支持自动读取本地 OAuth 凭证、Token 自动刷新以及配额超限自动切换;
- 灵活的路由与模型映射,可将请求自定义映射到指定的 Provider 或模型版本;
- 安全的本地运行环境,支持 TLS/HTTPS 加密通信,并提供访问控制与密钥认证功能。

支持 Windows、macOS 和 Linux 多平台使用,基于 Tauri 框架开发,运行轻量且响应迅速,适合希望整合 AI 资源、降低 API 开支的开发者与重度 AI 用户。
PortKiller,一个macOS 上查看哪个程序占用了哪个端口的小应用,也可以直接杀死对应的进程 | #工具
在剪辑长视频时,手动挑选精彩片段耗时费力。viral-clips-crew 是一个基于 CrewAI 的视频剪辑助手,能自动识别并提取最具潜力的爆款片段,快速生成适合社交媒体发布的短视频。| #工具

它支持 Python 环境,结合 OpenAI 和 Google Gemini API,轻松实现内容二次创作和高效传播。只需拖入视频,运行脚本,几分钟内即可产出带字幕的剪辑成品。

项目开源,适合内容创作者和社媒运营者,用科技简化视频剪辑流程,提升内容曝光率。

主要功能:

- 自动检测长视频中的关键高光片段
- 支持多种 API 结合,提升剪辑智能度
- 生成带字幕的短视频,便于直接发布
- 简单易用,快速上手,支持本地运行
- 适合社交媒体内容二次利用和内容营销

用 viral-clips-crew,让视频剪辑变得轻松又高效。
前端项目部署总是要花时间配置服务器、注册账号、搞复杂的流程,效率低还容易出错。

PinMe 是一个零配置的前端部署工具,只需一条命令就能完成静态网站或前端应用的发布。无需服务器,无需账号,无需繁琐设置,快速便捷。| #工具

它将你的站点发布为可验证内容,大幅降低被篡改和意外损坏的风险,同时自动保障内容的可用性和持久性。

支持上传文件或整个目录,绑定自定义子域名,还能结合 GitHub Actions 实现自动化 CI/CD 部署,适合个人开发者和团队项目。

主要功能:

- 零配置,简单一条命令完成部署;
- 支持静态站点、前端框架项目及 AI 生成页面;
- 自动发布到去中心化 IPFS 网络,内容可验证;
- 支持绑定 PinMe 子域名,方便访问;
- 提供上传历史管理与文件删除功能;
- 支持 GitHub Actions 集成,实现自动构建和部署。

安装方式:

npm install -g pinme
# 或者
yarn global add pinme


使用体验流畅且安全,让前端部署变得前所未有的轻松。适合想快速上线网站的开发者和团队。
自动化渗透测试一直是安全团队的难题,传统方法耗时且依赖人工判断,漏洞验证更是复杂繁琐。

Shannon 是一个完全自主运行的 AI 渗透测试工具,能自动扫描并真实利用漏洞,提供可复现的攻击示例,帮助开发和安全团队在漏洞被利用前发现风险。它在无提示的源代码环境下,已达到了96.15%的漏洞利用成功率。| #工具

主要特点包括:

- 端到端自动化测试流程,一键启动,AI 自动完成登录、导航到漏洞点和利用验证;
- 重点覆盖注入攻击、XSS、SSRF及认证绕过等关键 OWASP 漏洞类型;
- 结合代码静态分析和动态漏洞利用,确保发现的漏洞是真实可被利用的;
- 支持多线程并行测试,加快检测速度,快速生成专业渗透测试报告;
- 开源 AGPL-3.0 许可,适合安全团队、独立研究者和开发者自测应用安全;
- 支持通过 Docker 快速部署,配置灵活,支持包括两步验证的认证流程。

Shannon 不仅是攻防团队的红队利器,也是持续安全保障的智能助理,让安全检测变得高效、精准且可复制。

适合需要自动化安全检测和漏洞验证的Web应用开发与安全运维人员。
shannon-action.gif
23.9 MB
All In One USB Drive | #工具

多合一启动U盘工具集,集合了各种系统安装器、救援工具和实用程序,方便随时应对各种电脑维护和系统重装需求。支持将多个ISO镜像整合到一个U盘,通过Ventoy实现直接启动,操作简单,更新灵活。

主要功能:

- Linux系统救援套件和磁盘镜像工具;
- 多种主流Linux发行版和Windows安装镜像;
- Windows及Office激活脚本支持;
- 详细步骤指导,轻松制作和使用多启动U盘;
- 支持常见平台格式,满足不同场景需求。
在写报告或论文时,直接从 ChatGPT、DeepSeek 等 AI 平台复制的公式和表格常常在 Word、WPS 或 Excel 中显示乱码或格式错乱。

PasteMD
是一款专为解决这一痛点设计的效率工具。它常驻于系统托盘,能自动将剪贴板中的 Markdown 内容通过 Pandoc 转换成 DOCX 格式并插入 Word/WPS,智能识别 Markdown 表格并一键粘贴到 Excel,支持处理带公式的 Markdown 和网页富文本,极大提升了复制粘贴的准确度和效率。| #工具

主要功能包括:(演示效果见评论区)

- 全局热键一键粘贴 Markdown 到 Word/WPS,自动转换格式;
- 智能识别 Markdown 表格,自动粘贴到 Excel;
- 兼容主流 AI 网站的 Markdown 和网页内容复制;
- 支持公式转换,减少手动二次编辑;
- 托盘菜单灵活配置,支持通知、热键设置及日志查看;
- 支持 Windows 平台,使用简单,稳定高效。

适合科研工作者、学生和内容创作者使用,极大简化了从 AI 平台或 Markdown 编辑器复制内容到办公软件的流程。
科研人员和学生做报告还在手动做PPT?Paper2Slides帮你一键生成专业幻灯片和海报,支持PDF、Word等多种文档格式,精准提取关键内容,自动排版成高质量演示稿。| #工具

它内置多种主题风格,也支持用自然语言定制样式,生成速度快,支持断点续作,无需担心中途丢失进度。命令行一条指令即可完成转换,极大节省制作时间。

项目开源,适合科研展示、会议汇报和教学演示,帮助你从论文到演示一气呵成。

主要功能:
- 多格式文档支持(PDF、Word、Excel、Markdown等)
- 基于RAG技术的内容精准提取和索引
- 保留内容与原文对应,杜绝信息偏差
- 多样化主题与自定义风格
- 快速生成和实时预览
- 断点保存与续作,随时切换样式
- 支持幻灯片和海报两种输出形式

支持Python环境下运行,方便科研人员和教育工作者高效制作演示材料。
换到 Linux 后,你可能也遇到过:截图工具够用,但标注、打码、裁剪总要换软件,流程不顺。

MarkPix 是一个开源跨平台截图标注工具,让 Linux 也能拥有接近 Windows 的顺手体验。|#工具

标注工具
选择工具 - 选择、移动、缩放标注对象,支持实时编辑属性
矩形/椭圆 - 绘制矩形和椭圆形状
箭头/直线 - 绘制箭头和直线,支持多种箭头样式(经典、填充三角形、空心三角形)
文字工具 - 添加文字标注,支持普通文字和气泡样式(可调节圆角、尾巴方向)
画笔工具 - 自由绘制
序号标记 - 添加数字或字母序号标记
马赛克工具 - 对敏感区域进行马赛克处理
裁剪工具 - 裁剪图片(支持拖动或点击两次)

编辑功能
实时属性编辑 - 选中标注后可实时修改颜色、粗细等属性
撤销/重做 - 支持历史记录
复制到剪贴板 - 一键复制标注后的图片
保存图片 - 导出为 PNG 格式
缩放/平移 - 自由查看图片, 使用鼠标中键拖拽平移,鼠标滚轮缩放大小

自定义功能
自定义动作 - 支持配置外部命令(如 OCR、上传图床等),可在设置界面图形化管理
主题切换 - 支持浅色/深色/自动(跟随系统),设置自动持久化
输出文件配置 - 支持自定义输出文件名模板,使用变量如 {input_file_base}、{YYYY_MM_DD-hh-mm-ss}

界面特性
顶部工具栏 - 集成标题栏,空白区域可拖动窗口
浮动属性面板 - 选中标注时自动显示属性编辑面板

性能优化
马赛克效果 - 使用 Kuwahara 滤镜实现油画效果,积分图优化算法保证流畅性
做爬虫抓取或网站迁移时,面对满屏杂乱的 HTML 标签,想把它们清洗成干净的 Markdown 格式,往往让人头大。

python-markdownify 这个实用工具,专门用于解决 HTML 到 Markdown 的转化难题。| #工具

核心逻辑非常直接:将复杂的 HTML 字符串或文件,精准还原为结构清晰的 Markdown 文本。

支持高度定制化,无论是过滤特定标签、调整标题样式,还是处理表格与图片,都能按需配置。

通过 pip 即可一键安装,既能在 Python 代码中灵活调用,也支持命令行直接批量转换文件。

甚至允许继承类来重写转换规则,应对特殊的业务需求,扩展性相当高。

对于有处理大量文本数据、或者正在进行博客迁移的需求的人,这个库能省下大量写正则的时间。
想要快速了解一个域名的详细信息,通常需要在多个网站之间跳转查询,DNS 记录、SSL 证书、WHOIS 信息、SEO 数据分散在不同工具里,查起来费时费力。

Domainstack 是个开源域名分析的工具,只需输入域名就能一站式获取所有关键信息。| #工具

搜索任意域名后,自动抓取 WHOIS 和 RDAP 数据、DNS 记录、SSL 证书、HTTP 头信息、托管详情、地理位置和 SEO 信号。

还能提取网页标题、元标签、社交媒体预览图、robots.txt 规则等,甚至自动生成网站截图和提取网站图标,所有数据都缓存在数据库中,查询速度很快。

无需注册登录,直接访问即可使用,采用多层智能缓存机制,响应速度快且保护隐私。
image_2025-12-06_22-45-07.png
1.7 MB
编辑PDF文档从未如此简单。Nano PDF 是一款基于命令行的 PDF 编辑工具,利用谷歌 Gemini 3 Pro Image(昵称“Nano Banana”)模型,实现通过自然语言指令直接修改PDF幻灯片内容。| #工具

它支持:
- 用自然语言修改图表、文字内容,比如“把图表改成柱状图”;
- 自动生成与原有幻灯片风格一致的新幻灯片;
- 保留PDF中的可搜索文本层,保证内容不丢失;
- 一次编辑多页,且并行处理提升效率;
- 支持OCR文字层重建,确保编辑后文本依然可选。

安装简单,依赖Python环境和系统上的Poppler、Tesseract支持。只需配置谷歌付费API密钥,即可启动强大AI驱动的PDF智能编辑。

适合需要频繁调整演示文稿、报告或教材的专业人士和团队
Andrew Ng 推出“Agentic Reviewer”——一个能辅助论文评审的AI工具。灵感源于一位学生论文被拒6次,3年漫长反馈周期令人痛苦,所以想看看,AI能否打破这道时间瓶颈,帮助科研者更快迭代。| #论文 #工具

训练时,Agentic Reviewer在ICLR 2025评审数据上的表现令人振奋:
- 两位人类评审相关系数:0.41
- AI与人类评审相关系数:0.42

这意味着AI评审已接近人类水平。

它通过检索arXiv文献来支撑反馈,因此在AI等开源领域效果最好。虽然仍属实验性质,但这或许能彻底改变科研反馈的速度和质量。

多方讨论中,有人关心隐私、数据使用,有人提到AI评审可能导致投稿趋同,也有人期待未来AI能评估评审质量,甚至全链条自动化科研流程。更快的反馈循环不仅缩短时间,更能激发更深层次的创新和策略性投稿。

传统的同行评审耗时长、效率低,AI介入正好补上了“认知瓶颈”。未来,科研批判将成为人机协作的共享过程,既有人类的洞察,也有机器的规模和记忆。
 
 
Back to Top