简介
Beanbun是一个简单的可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 ,下载器基于 。
文件
特色
支持守护进程与普通两种模式(守护进程模式只支持Linux服务器)
默认使用guzzle进行爬取
支持分布式
支持内存,Redis等多种模式
支持自定义URI过滤
支持广度优先和深度优先两种爬取方式
遵守PSR-4标准
爬取网页分为多步,每步均支持自定义动作(如添加代理,修改user-agent等)
灵活的扩展机制,可方便的为框架制作插件:自定义类别,自定义爬取