做爬虫抓取或网站迁移时,面对满屏杂乱的 HTML 标签,想把它们清洗成干净的 Markdown 格式,往往让人头大。

python-markdownify 这个实用工具,专门用于解决 HTML 到 Markdown 的转化难题。| #工具

核心逻辑非常直接:将复杂的 HTML 字符串或文件,精准还原为结构清晰的 Markdown 文本。

支持高度定制化,无论是过滤特定标签、调整标题样式,还是处理表格与图片,都能按需配置。

通过 pip 即可一键安装,既能在 Python 代码中灵活调用,也支持命令行直接批量转换文件。

甚至允许继承类来重写转换规则,应对特殊的业务需求,扩展性相当高。

对于有处理大量文本数据、或者正在进行博客迁移的需求的人,这个库能省下大量写正则的时间。
想要快速了解一个域名的详细信息,通常需要在多个网站之间跳转查询,DNS 记录、SSL 证书、WHOIS 信息、SEO 数据分散在不同工具里,查起来费时费力。

Domainstack 是个开源域名分析的工具,只需输入域名就能一站式获取所有关键信息。| #工具

搜索任意域名后,自动抓取 WHOIS 和 RDAP 数据、DNS 记录、SSL 证书、HTTP 头信息、托管详情、地理位置和 SEO 信号。

还能提取网页标题、元标签、社交媒体预览图、robots.txt 规则等,甚至自动生成网站截图和提取网站图标,所有数据都缓存在数据库中,查询速度很快。

无需注册登录,直接访问即可使用,采用多层智能缓存机制,响应速度快且保护隐私。
image_2025-12-06_22-45-07.png
1.7 MB
编辑PDF文档从未如此简单。Nano PDF 是一款基于命令行的 PDF 编辑工具,利用谷歌 Gemini 3 Pro Image(昵称“Nano Banana”)模型,实现通过自然语言指令直接修改PDF幻灯片内容。| #工具

它支持:
- 用自然语言修改图表、文字内容,比如“把图表改成柱状图”;
- 自动生成与原有幻灯片风格一致的新幻灯片;
- 保留PDF中的可搜索文本层,保证内容不丢失;
- 一次编辑多页,且并行处理提升效率;
- 支持OCR文字层重建,确保编辑后文本依然可选。

安装简单,依赖Python环境和系统上的Poppler、Tesseract支持。只需配置谷歌付费API密钥,即可启动强大AI驱动的PDF智能编辑。

适合需要频繁调整演示文稿、报告或教材的专业人士和团队
Andrew Ng 推出“Agentic Reviewer”——一个能辅助论文评审的AI工具。灵感源于一位学生论文被拒6次,3年漫长反馈周期令人痛苦,所以想看看,AI能否打破这道时间瓶颈,帮助科研者更快迭代。| #论文 #工具

训练时,Agentic Reviewer在ICLR 2025评审数据上的表现令人振奋:
- 两位人类评审相关系数:0.41
- AI与人类评审相关系数:0.42

这意味着AI评审已接近人类水平。

它通过检索arXiv文献来支撑反馈,因此在AI等开源领域效果最好。虽然仍属实验性质,但这或许能彻底改变科研反馈的速度和质量。

多方讨论中,有人关心隐私、数据使用,有人提到AI评审可能导致投稿趋同,也有人期待未来AI能评估评审质量,甚至全链条自动化科研流程。更快的反馈循环不仅缩短时间,更能激发更深层次的创新和策略性投稿。

传统的同行评审耗时长、效率低,AI介入正好补上了“认知瓶颈”。未来,科研批判将成为人机协作的共享过程,既有人类的洞察,也有机器的规模和记忆。
BabelDOC:免费开源,翻译 PDF 文档的能力挺好,能保持格式几乎一模一样,同时支持各种大模型用来翻译 | #工具
视频内容搬运和二次创作流程繁琐?从下载、字幕生成、翻译到元数据制作,再到定时上传B站,环节多且费时。

YTB2BILI 是一个开源自动化视频处理系统,支持从 YouTube 等平台抓取视频,自动生成高质量字幕,智能翻译多语言内容,AI生成符合B站规范的标题和标签,最后按计划批量上传,极大简化了搬运流程。

系统内置多项智能功能:Whisper AI 语音识别字幕,百度与 DeepSeek AI 翻译,腾讯云COS云存储,Bilibili官方SDK对接,支持扫码登录与状态持久化,任务失败自动重试,实时可视化管理面板方便监控处理进度。

项目采用 Go + Next.js 架构,支持 MySQL/PostgreSQL/SQLite 多数据库,开发与生产环境灵活配置,支持多平台运行。开箱即用,一键构建启动,无需复杂部署。| #工具

适合内容创作者、二次剪辑和搬运团队,省时省力提升效率。

主要功能:
- 自动下载YouTube及其他平台视频
- Whisper AI自动生成精准字幕
- 百度翻译及DeepSeek AI多语言字幕翻译
- AI智能生成视频标题、描述和标签
- 高清封面自动下载并上传云存储
- 定时智能上传视频及字幕,防止被限制
- 实时管理面板监控任务状态和进度
- 支持B站扫码登录,状态自动检测和持久化
- 支持MySQL、PostgreSQL和SQLite数据库
- 任务失败自动隔离重试,保证流程稳定

只需配置数据库和云存储,启动服务即可轻松实现自动化搬运,极大提升视频内容管理效率。
英语学习工具:Typing Word | #英语 #工具

练习英语打字,从单词到整篇文章,边打边记,效率显著提升。TypeWords 是一款开源的英语学习打字工具,集跟打、辨认、复习、默写四种输入模式,自动计算记忆曲线,帮助你科学背单词。内置丰富词库覆盖四六级、托福、GRE等多种考试需求,还支持例句、发音、词源等详细学习资料。界面简洁无广告,支持个性化快捷键和键盘音效,学习体验流畅自然。项目基于 Vue,支持本地运行和数据备份,适合所有英语学习者和打字练习爱好者。

主要功能:

- 多模式单词练习,智能记忆曲线辅助复习
- 文章背诵,逐句跟打和默写,提升听写能力
- 丰富词库,覆盖主流英语考试词汇
- 提供音标、发音、例句、词源等多维度学习资源
- 错词本与收藏功能,帮助巩固薄弱单词
- 自定义快捷键和丰富键盘音效,提升打字乐趣
- 简洁现代化界面,无广告干扰,操作简单直观
论文语言晦涩难懂,阅读门槛高?alphaXiv 推出 quickarxiv,帮你一键转换arXiv论文链接,生成图文并茂、直观易懂的博文版解读。它利用DeepSeek OCR技术,快速提取关键信息和图表,让科研内容变得触手可及。| 帖子 | #论文 #工具

用法简单:只需将arXiv链接中的“arxiv”替换为“quickarxiv”,立刻获得清晰明了的论文摘要和深入见解。例如:quickarxiv.org/abs/2510.26692

这一创新不仅提升了学术传播效率,也让非专业读者更容易理解前沿科研成果。未来期待支持多篇论文对比和更丰富的交互功能,推动知识共享和跨领域交流。
现代Linux系统的资源监控工具往往功能复杂且难以上手,而below提供了一款简洁高效的解决方案。

below 是一个开源的时间旅行资源监控工具,支持实时查看和录制历史系统数据,包括硬件资源利用率、cgroup层级和进程信息、压力停滞指标(PSI)等。 | #工具

它不仅支持实时模式监控系统状态,还能录制数据以便回放分析,方便排查历史性能问题。通过dump命令还能导出JSON、CSV、OpenMetrics格式数据,方便与Prometheus和Grafana等监控系统集成。

主要功能包括:

- 实时监控系统资源使用情况;
- 支持cgroup和进程信息展示;
- 压力停滞信息(PSI)监控;
- 录制和回放系统历史数据;
- 脚本友好的数据导出接口;
- 支持与Prometheus/Grafana集成。

支持Fedora、Alpine、Gentoo等多种Linux发行版,安装简单,且提供Docker镜像方便快速部署。适合系统管理员和运维工程师使用。
在信息安全和OSINT(开源情报)领域,调查数据往往分散且难以整合。Flowsint 是一个开源图谱探索工具,专为可视化和灵活的图形调查设计,帮助用户通过实体关系图进行深入侦查和分析。| #工具

它支持丰富的自动转换模块,覆盖域名解析、IP信息、ASN查询、社交媒体账号搜索、电子邮件泄露检测、加密货币交易追踪等多类数据源,极大提升调查效率。

所有数据均存储在本地,保护隐私安全。项目基于Docker和Make构建,支持快速部署和灵活扩展,适合安全研究人员、记者、执法机构和企业风险分析使用。

主要功能包括:

- 图形化界面展示实体及其关系,支持动态探索和自动转换;
- 域名、IP、ASN、CIDR等网络基础信息全面查询;
- 社交媒体用户名、邮箱、电话号码的跨平台泄露和关联检测;
- 组织信息与加密货币钱包的深度挖掘;
- 高性能前端,支持海量节点无卡顿操作;
- 本地数据存储,确保调查隐私和安全;
- 模块化代码结构,方便定制和二次开发。

Flowsint为OSINT调查提供了一站式工具,推动透明、合规和高效的情报分析。
David Finsterwalder开源了一款基于Three.js的神经网络可视化工具,展示了一个简单多层感知机(MLP)在MNIST手写数字上的训练过程。所有训练和可视化代码用PyTorch写成,完全开源,方便学生和开发者直观理解神经网络的动态变化。

这款工具运行在浏览器上,权重数据以JSON形式存储,适合桌面大屏体验,手机端菜单显示有些重叠。尽管目前教学内容主要是德语且依赖现场讲解,作者计划未来翻译并丰富教育资料,甚至考虑通过WebRTC支持平板手写输入,提升互动体验。

Finsterwalder称此项目100%“vibecoded”完成,得益于Three.js的强大以及PyTorch实现MLP的简洁。他的灵感部分来自3Blue1Brown的神经网络视频封面,强烈推荐该频道作为神经网络入门资源。

该项目更适合教学核心原理,网络结构简单(约11万参数),相比大型模型如LLM更便于理解和演示。社区反响热烈,大家一致认为此类可视化是连接理论与实际的桥梁,有助学生直观感受模型训练,甚至激发研究者对架构互动式实验的兴趣。

与现有类似项目相比,Finsterwalder强调自己更注重动态权重更新的展示和空间三维效果,避免了扁平神经元排列的视觉局限。他也在与展览方沟通,期待将此工具带入更多教学和展示场景。

体验地址 | 帖子 | 代码仓库 | #可视化 #工具
Media is too big
VIEW IN TELEGRAM
XBOW斥资1.17亿美元打造AI黑客智能代理,现有人免费开源了类似工具Strix。Strix能自主模拟真实黑客行为,动态执行代码,发现并验证漏洞,带来实打实的漏洞利用示范,而非静态分析的假阳性。| #工具

传统安全测试难以跟上开发节奏,Strix直接嵌入CI/CD流程,实时检测漏洞,覆盖注入攻击、访问控制、业务逻辑漏洞等多种风险。更重要的是,非安全专家也能用,因为它集成了HTTP代理、浏览器自动化和Python运行环境,宛如一支随时待命的安全团队。

Strix运行在本地Docker容器中,保证代码隐私安全。安装简单:pipx install strix-agent,指向代码库即可。全部开源,任何人都能免费使用并贡献。

这将彻底改变安全测试与黑客攻防的生态,降低入门门槛,加速漏洞发现与修复。开源虽有双刃剑风险,但对安全社区和开发者而言,是巨大的利好。
绘制AWS架构图通常需要借助图形界面工具,但维护和版本管理却很麻烦。Diagram-as-code 是一个命令行工具,允许你用易读的 YAML 代码描述AWS基础设施,自动生成符合AWS架构规范的架构图。

它支持直接从CloudFormation模板生成图示(目前处于测试阶段),还能灵活调整图中元素位置大小,轻量且适合CI/CD流水线自动化。通过代码管理架构图,方便版本控制和协作,避免手工绘图的重复劳动。

主要功能:

- 用YAML定义AWS资源,生成标准架构图;
- 支持CloudFormation模板转换为图示(Beta);
- 自动布局和分组,图形美观易懂;
- 轻量级,无需图形界面,适合自动化流程;
- 可作为Golang库集成到其他工具或AI应用;
- 支持扩展定义文件,绘制非AWS图形;
- 提供MCP服务器,实现AI助手和开发工具的无缝集成。

支持macOS和Go环境,安装简单,命令行操作快速生成PNG格式架构图,适合开发者和运维工程师使用。| #命令行 #工具
日常用Cursor AI时常会遇到试用次数限制,或者因为机器ID问题无法继续免费体验Pro功能。

Cursor Free VIP
是一个开源辅助工具,支持自动重置机器ID,帮助绕过试用限制,让你免费升级使用更多高级功能。| #工具

该工具支持Windows、macOS和Linux系统,多语言界面覆盖英文、简体中文、繁体中文和越南语,方便不同用户使用。安装简单,提供自动运行脚本,管理员权限运行效果最佳。

主要功能包括:

- 自动重置Cursor机器ID,解决试用限制问题
- 跨平台支持Windows、macOS和Linux
- 多语言界面,使用更便捷
- 脚本自动化安装和运行,操作简单
一款开源高效文档转换工具,专注将PDF及多种格式文档精准转为纯文本,同时保持自然的阅读顺序。支持表格、公式、手写内容等复杂元素,适用范围广泛。

该版本基于大量精选学术论文、技术文档等高质量数据训练,结合合成数据与强化学习中的单元测试奖励机制,显著降低了“幻觉”错误,提升了识别准确率。

当前模型在多语言视觉语言模型基础上微调,主要优化英文文档,其他语言也具备一定兼容性。用户不仅可在线体验,还能在自有GPU上部署完整工具包,实现高效、可扩展的批量文档处理,成本低廉。

此工具为科研、教育及档案数字化提供了强大支持,推动文档自动化处理迈向更精准智能的未来。

olmOCR 2 | #工具
数据库备份和恢复任务繁琐又容易出错,多个工具切换更让运维头疼。

Onedump 是一款开源的数据库管理工具,专注于简化多种数据库的备份与恢复流程,一键搞定数据库数据导出和同步。| #数据库 #工具

它支持 MySQL 和 PostgreSQL,除了内置无依赖的 MySQL 原生转储器,还兼容 mysqldump 和 pg_dump,满足不同场景需求。

主要功能包括:

- 多源数据库备份到多目标存储(本地、AWS S3、Google Drive、Dropbox、SFTP);
- MySQL binlog 备份和恢复,实现精准的时间点恢复;
- 支持断点续传和并发的 SFTP 文件传输;
- 内置 MySQL 慢日志解析工具,方便性能分析;
- 配置文件可本地或直接从 S3 加载,支持集群和容器化部署;
- Slack 通知集成,实时掌握备份状态。

支持跨平台使用,既有方便的二进制文件,也有包含所有依赖的 Docker 镜像,适合 DBA、开发者和运维团队。
数据恢复和数字取证往往需要用到复杂且分散的工具,操作起来既费时又容易出错。

Digler 是一款开源的取证级磁盘分析和文件恢复工具,集深度磁盘扫描、文件碎片重组与灵活插件扩展于一体,支持多种磁盘镜像和物理设备,能够恢复各种文件系统中的丢失数据。| #工具

它不仅提供了命令行界面满足专业脚本化需求,还有现代化的桌面应用适合日常操作,兼顾易用性和强大功能。

主要特点:

- 支持多种磁盘镜像格式及原始设备读取;
- 文件系统无关的深度扫描,支持NTFS、FAT32、ext4等;
- 插件架构支持自定义文件扫描器,方便扩展新格式;
- 生成符合数字取证XML标准的详细报告;
- 通过扫描报告精准恢复指定文件;
- 提供命令行和桌面双接口,灵活适配不同用户习惯。

适合数字取证专家、数据恢复工程师及技术爱好者使用。
开发者日常常用的各种小工具,找半天还要装一堆软件,效率大打折扣?

ut 是一个基于 Rust 的轻量级开发者工具箱,把常见的编码、哈希、UUID生成、文本处理、HTTP工具等功能整合到一个命令行程序里。安装简单,一条命令搞定,极大提升工作流畅度。| #工具

主要功能:

- Base64 和 URL 编码/解码
- 多种哈希算法(MD5、SHA 系列)快速计算
- 多版本 UUID 生成,支持v1/v3/v4/v5/v7
- 生成安全随机 Token 和占位文本
- 文本大小写转换、差异对比和 JSON 构建
- 交互式正则测试工具
- 日期时间解析和时区转换
- 本地 HTTP 文件服务器和二维码生成
- 多色彩格式转换和 Unicode 符号查询

支持 Linux、macOS 和 Windows,单文件二进制无依赖,适合开发者和 IT 专业人士日常使用。

安装方式多样,支持源码编译,也有预编译脚本,开箱即用。

命令行输入 ut --help 查看所有功能,极简设计,极致体验
GPU Kill 是一款命令行工具,支持 NVIDIA、AMD、Intel 和 Apple Silicon 平台,实时监控GPU状态,优雅终止卡死进程,检测挖矿行为,保障GPU资源安全。 | #工具

功能亮点:
- 实时监控GPU使用率、显存、温度和进程
- 支持远程多服务器GPU管理
- 安全扫描,自动识别可疑进程
- 支持GPU重置和策略防护模式
- 内置AI集成服务器,方便智能管理

无论是科研训练还是数据中心运维,GPU Kill 都是GPU管理的利器。
一款基于 Rust 配置的现代化文本编辑器,追求极致模块化和高度可定制性,同时保留合理的默认配置。

它通过 Rust 代码直接配置编辑器行为,支持即时编译和热加载配置,改动后秒见效果,极大提升开发体验。

主要特点:

- 完全自定义模式,支持类似 Vim 的键位映射;
- 丰富插件系统,用户可按需加载或卸载;
- 支持多光标、代码折叠、语法高亮和树状结构解析(tree-sitter);
- 内置多种小部件,支持自定义命令和钩子扩展;
- 配置即代码,享受 Rust 静态类型和函数式编程优势;
- 跨平台终端界面,轻量高效。

适合喜欢用代码精细调控编辑器行为的开发者和追求极致编辑效率的用户。

duat | #工具 #文本编辑器
 
 
Back to Top