文件名称:
browsertrix-crawler:在单个Docker容器中运行基于高保真度的基于浏览器的搜寻器-源码
开发工具:
文件大小: 218kb
下载次数: 0
上传时间: 2021-04-01
详细说明:Browsertrix搜寻器
Browsertrix Crawler是一个简化的基于浏览器的高保真爬网系统,旨在在单个Docker容器中运行单个爬网。 它是对原始进行更精简替换的一部分而设计的。
对于需要单个爬网并且需要管理多个容器的情况,原始的Browsertrix可能过于复杂。
这是重构Browsertrix成芯抓取系统的尝试,通过驱动和
特征
到目前为止,Browsertrix Crawler支持:
基于单个容器的基于浏览器的爬网,具有多个无头/无头浏览器
支持某些行为:自动播放以捕获视频/音频,滚动
支持直接捕获非HTML资源
可扩展的驱动程序脚本,用于通过Puppeteer自定义每个爬网或页面的行为
建筑学
此处提供的Docker容器打包了Browsertrix中使用的几个组件。
系统使用:
oldwebtoday/chrome安装最新版本的Chrome(当前chrom
(系统自动生成,下载前可以参看下载内容)
下载文件列表
相关说明
- 本站资源为会员上传分享交流与学习,如有侵犯您的权益,请联系我们删除.
- 本站是交换下载平台,提供交流渠道,下载内容来自于网络,除下载问题外,其它问题请自行百度。
- 本站已设置防盗链,请勿用迅雷、QQ旋风等多线程下载软件下载资源,下载后用WinRAR最新版进行解压.
- 如果您发现内容无法下载,请稍后再次尝试;或者到消费记录里找到下载记录反馈给我们.
- 下载后发现下载的内容跟说明不相乎,请到消费记录里找到下载记录反馈给我们,经确认后退回积分.
- 如下载前有疑问,可以通过点击"提供者"的名字,查看对方的联系方式,联系对方咨询.
相关搜索: