黑洞资源笔记

08:32 · Nov 1, 2025 · Sat

自动生成基于 Playwright 的网页爬虫，从此不再为重复抓取任务写代码烦恼。

Spider Creator 利用浏览器操作录制和大语言模型，仅需简单描述任务，自动生成高效爬虫脚本，适合企业大规模数据采集。| #爬虫

功能亮点：
- 通过自然语言描述抓取需求，快速生成爬虫代码；
- 结合浏览器录制与智能规划，实现复杂页面元素定位；
- 支持多阶段抓取任务，自动优化抓取流程；
- 生成的爬虫可脱离 AI 运行，降低长周期抓取成本；
- 内置示例丰富，方便快速上手和二次开发。

支持 Python 3.13 环境，运行环境简单，适合有定期数据采集需求的团队和企业。

爬虫

06:50 · Jul 24, 2025 · Thu

ScrapeGraphAI：基于大型语言模型与图逻辑的Python爬虫库，实现“一次爬取，多次利用”的高效数据提取方案。| #爬虫

• 利用LLM（如OpenAI、Ollama等）和图结构构建灵活爬取管线，支持网页及本地文档（HTML、Markdown、JSON、XML等）
• 多种爬取模式：单页智能提取（SmartScraperGraph）、多页搜索结果抓取（SearchGraph）、音频生成（SpeechGraph）、自动生成Python脚本（ScriptCreatorGraph）等，满足复杂场景需求
• 完善集成生态：支持Python、Node.js SDK，兼容Langchain、Llama Index、Zapier、Bubble等主流低代码/无代码平台，极大降低二次开发门槛
• 简单易用：5行代码快速上手，官方推荐虚拟环境安装，Playwright支持动态网页内容抓取
• 透明开源，MIT协议授权，活跃社区持续更新，20.5k⭐️，1700+ Fork，适合科研、数据分析、自动化工程长期参考与实践
• 详尽文档与示例代码覆盖多语言接口，支持多模型并行调用，灵活切换本地或云端LLM，强调方法论与长远适用性

ScrapeGraphAI通过“语言理解+图结构”策略，将爬虫从传统规则驱动转向智能语义驱动，极大提升数据清洗和结构化效率，是下一代智能数据抽取范式的典范。

爬虫

15:10 · Jun 19, 2025 · Thu

强大的网页爬取与数据提取应用，助力高效采集网络信息。

高级爬虫功能，支持深度、速度和目标内容高度定制；多语言搜索，可针对不同国家和地区进行内容采集；提供Python、Node.js、Go等多语言客户端SDK，无缝对接多种开发环境

WaterCrawl | #爬虫

爬虫

15:48 · Mar 6, 2025 · Thu

为Cursor、Claude等LLM客户端提供强大的网页爬取能力，让数据获取变得轻松高效。

支持网页爬取、搜索、内容提取等多种功能；配备智能重试机制，自动处理网络问题；提供信用使用监控，避免意外中断

Firecrawl MCP Server | #爬虫 #工具

爬虫工具

15:59 · Jan 24, 2025 · Fri

“指哪打哪”的爬虫，Firecrawl 推出 /extract 功能，该功能使得网页数据提取变得简单高效，支持用户通过自然语言提示来获取所需数据。

用户无需手动编写提取脚本，即可从任何网站提取结构化数据，且该功能能够适应网站内容的变化，避免了传统爬虫因网站更新而频繁失效的问题。

Firecrawl 的 API 支持一次性提取单个页面或数千个子页面的数据，并且没有上下文窗口的限制，能够处理大量的提取任务。

Firecrawl Extract | #爬虫

爬虫

12:59 · Nov 3, 2024 · Sun

Maxun - Web：数据采集自动化平台 | #爬虫

爬虫 • 无代码 • 智能化 • 全自动化

无代码网络数据提取平台, 用户可以在 2 分钟内训练一个网络爬虫机器人, 无需编程知识就能实现自动化的网页数据抓取, 支持将网站转换为 API 或直接导出到电子表格。

✨主要特性:
- 无代码方式提取数据
- 支持处理分页和滚动
- 可以按特定时间表运行机器人
- 支持网站到 API 的转换
- 支持网站到电子表格的转换
- 允许用户连接外部代理以绕过反爬虫保护
- 即将推出: 自适应网站布局变化、支持需要登录和双因素认证的网站抓取

✨机器人动作类型:
- Capture List: 用于提取结构化数据和批量项目
- Capture Text: 用于提取单个文本内容
- Capture Screenshot: 可获取全页面或可见区域截图

爬虫

09:24 · Apr 27, 2023 · Thu

tsuki-wscp 是一个网络爬虫，为 AI 模型训练提供数据收集 | #爬虫

爬虫

06:02 · Apr 3, 2023 · Mon

一个可视化爬虫软件，可以无代码图形化设计和执行的爬虫任务。支持中文和英文版本。

EasySpider | #可视化 #爬虫

18:09

Media is too big

VIEW IN TELEGRAM

可视化爬虫

07:05 · Jul 26, 2022 · Tue

一个开源的Python爬虫脚本，可基于机器学习自动从HTML页面中抓取数据。

在给爬虫提供输出结果的示例后，它便会自动提取规则，对页面数据进行抓取，整个过程无需指定CSS选择器。

MLScraper | #爬虫 #脚本

爬虫脚本

08:15 · Jul 9, 2022 · Sat

TLNewsSpider-舆情信息获取 - 狠心开源企业级舆情爬虫项目：支持任意数量爬虫一键运行、爬虫定时任务、爬虫批量删除；爬虫一键部署；爬虫监控可视化; 配置集群爬虫分配策略；现成的docker一键部署

TLNewsSpider | #工具 #爬虫

工具爬虫

15:42 · May 28, 2022 · Sat

Python网络爬虫开放知识库

作者语：在Re Analytics的过去几年中，我们花了很多时间寻找网络抓取的最佳实践，以使其可扩展且维护效率高。这就像猫捉老鼠的游戏，您需要随时了解最新动态，但与此同时，所需的信息在网上非常稀少。出于这个原因，我们开始集中收集我们收集的所有信息和我们开发的最佳实践，为 Python 网络爬虫社区建立一个参考点

Github | #爬虫

爬虫

09:28 · Mar 26, 2022 · Sat