自动生成基于 Playwright 的网页爬虫,从此不再为重复抓取任务写代码烦恼。

Spider Creator 利用浏览器操作录制和大语言模型,仅需简单描述任务,自动生成高效爬虫脚本,适合企业大规模数据采集。| #爬虫

功能亮点:
- 通过自然语言描述抓取需求,快速生成爬虫代码;
- 结合浏览器录制与智能规划,实现复杂页面元素定位;
- 支持多阶段抓取任务,自动优化抓取流程;
- 生成的爬虫可脱离 AI 运行,降低长周期抓取成本;
- 内置示例丰富,方便快速上手和二次开发。

支持 Python 3.13 环境,运行环境简单,适合有定期数据采集需求的团队和企业。
ScrapeGraphAI:基于大型语言模型与图逻辑的Python爬虫库,实现“一次爬取,多次利用”的高效数据提取方案。| #爬虫

• 利用LLM(如OpenAI、Ollama等)和图结构构建灵活爬取管线,支持网页及本地文档(HTML、Markdown、JSON、XML等)
• 多种爬取模式:单页智能提取(SmartScraperGraph)、多页搜索结果抓取(SearchGraph)、音频生成(SpeechGraph)、自动生成Python脚本(ScriptCreatorGraph)等,满足复杂场景需求
• 完善集成生态:支持Python、Node.js SDK,兼容Langchain、Llama Index、Zapier、Bubble等主流低代码/无代码平台,极大降低二次开发门槛
• 简单易用:5行代码快速上手,官方推荐虚拟环境安装,Playwright支持动态网页内容抓取
• 透明开源,MIT协议授权,活跃社区持续更新,20.5k⭐️,1700+ Fork,适合科研、数据分析、自动化工程长期参考与实践
• 详尽文档与示例代码覆盖多语言接口,支持多模型并行调用,灵活切换本地或云端LLM,强调方法论与长远适用性

ScrapeGraphAI通过“语言理解+图结构”策略,将爬虫从传统规则驱动转向智能语义驱动,极大提升数据清洗和结构化效率,是下一代智能数据抽取范式的典范。
强大的网页爬取与数据提取应用,助力高效采集网络信息。

高级爬虫功能,支持深度、速度和目标内容高度定制;多语言搜索,可针对不同国家和地区进行内容采集;提供Python、Node.js、Go等多语言客户端SDK,无缝对接多种开发环境

WaterCrawl | #爬虫
为Cursor、Claude等LLM客户端提供强大的网页爬取能力,让数据获取变得轻松高效。

支持网页爬取、搜索、内容提取等多种功能;配备智能重试机制,自动处理网络问题;提供信用使用监控,避免意外中断

Firecrawl MCP Server | #爬虫 #工具
“指哪打哪”的爬虫,Firecrawl 推出 /extract 功能,该功能使得网页数据提取变得简单高效,支持用户通过自然语言提示来获取所需数据。

用户无需手动编写提取脚本,即可从任何网站提取结构化数据,且该功能能够适应网站内容的变化,避免了传统爬虫因网站更新而频繁失效的问题。

Firecrawl 的 API 支持一次性提取单个页面或数千个子页面的数据,并且没有上下文窗口的限制,能够处理大量的提取任务。

Firecrawl Extract | #爬虫
Maxun - Web:数据采集自动化平台 | #爬虫

爬虫 • 无代码 • 智能化 • 全自动化

无代码网络数据提取平台, 用户可以在 2 分钟内训练一个网络爬虫机器人, 无需编程知识就能实现自动化的网页数据抓取, 支持将网站转换为 API 或直接导出到电子表格。

主要特性:
- 无代码方式提取数据
- 支持处理分页和滚动
- 可以按特定时间表运行机器人
- 支持网站到 API 的转换
- 支持网站到电子表格的转换
- 允许用户连接外部代理以绕过反爬虫保护
- 即将推出: 自适应网站布局变化、支持需要登录和双因素认证的网站抓取

机器人动作类型:
- Capture List: 用于提取结构化数据和批量项目
- Capture Text: 用于提取单个文本内容
- Capture Screenshot: 可获取全页面或可见区域截图
tsuki-wscp 是一个网络爬虫,为 AI 模型训练提供数据收集 | #爬虫
一个可视化爬虫软件,可以无代码图形化设计和执行的爬虫任务。支持中文和英文版本。

EasySpider | #可视化 #爬虫
Media is too big
VIEW IN TELEGRAM
一个开源的Python爬虫脚本,可基于机器学习自动从HTML页面中抓取数据。

在给爬虫提供输出结果的示例后,它便会自动提取规则,对页面数据进行抓取,整个过程无需指定CSS选择器。

MLScraper | #爬虫 #脚本
TLNewsSpider-舆情信息获取 - 狠心开源企业级舆情爬虫项目:支持任意数量爬虫一键运行、爬虫定时任务、爬虫批量删除;爬虫一键部署;爬虫监控可视化; 配置集群爬虫分配策略;现成的docker一键部署

TLNewsSpider | #工具 #爬虫
Python网络爬虫开放知识库

作者语:在Re Analytics的过去几年中,我们花了很多时间寻找网络抓取的最佳实践,以使其可扩展且维护效率高。这就像猫捉老鼠的游戏,您需要随时了解最新动态,但与此同时,所需的信息在网上非常稀少。出于这个原因,我们开始集中收集我们收集的所有信息和我们开发的最佳实践,为 Python 网络爬虫社区建立一个参考点

Github | #爬虫
awesome-web-scraping

这里面收集了有关网络 #爬虫 的各种资料、工具库的列表,不仅仅是 Python,还有 Go、Ruby、JavaScript、PHP ,一些爬虫商业服务、控制台工具、无头浏览器、验证码破解网站等 中文版
feapder ,GitHub 上一款上手简单,功能强大的 #Python #爬虫 #框架。使用方式类似 Scrapy,内置 3 种爬虫,支持分布式、批次采集、数据防丢、断点续爬、监控报警、浏览器渲染下载等功能
一款开源的个人 #搜索引擎 与 Web #爬虫Apollo。在收录网站 url 后,程序会自动抓取网站文字内容、视频字幕并存储。而后,用户便可通过搜索,快速查看爬取内容或访问网站源页面
一个智能 Web 爬虫脚本 #脚本 #web
其主要作用,是能快速且智能获取指定网站上的数据,这些数据可以是网页文本、url 地址或者其它 HTML 元素。
#爬虫
该脚本兼容 Python3,使用简单便捷,让你可从此告别爬虫手动解析网页及写规则的烦恼
Reqman 是一个帮助后端工程师进行 API 测试的 #工具 ,同时也是一个基于 Node.js 的 #爬虫 工具
spider-flow新一代 #爬虫 #平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫
 
 
Back to Top