搜索资源 - 队列、爬取 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 队列、爬取

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

C# 编写的网络爬虫程序源码
可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
所属分类：网络基础
- 发布日期：2010-09-09
- 文件大小：780kb
- 提供者：gxinfoljs

基于C#的网络爬虫程序
主要特性有： • 可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。 • 状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。 • 有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。 • 健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 • 较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
所属分类：C#
- 发布日期：2011-04-20
- 文件大小：2mb
- 提供者：ym45697762

winform模拟网络蜘蛛源码
可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。今后有空可能加入的特性：新特性介绍爬取文件用Berkeley DB存储提高性能：常用操
所属分类：C#
- 发布日期：2011-10-21
- 文件大小：1mb
- 提供者：shawshrank

网络爬虫蜘蛛程序源码
这是一款用 C# 编写的网络爬虫主要特性有：可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
所属分类：其它
- 发布日期：2011-12-15
- 文件大小：780kb
- 提供者：chengxuco

网络爬虫程序源码
网络爬虫程序源码这是一款用 C# 编写的网络爬虫主要特性有：可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。今后有空可能加入的特性：新特
所属分类：C#
- 发布日期：2013-04-27
- 文件大小：780kb
- 提供者：u010476944

java 队列使用
java 队列使用，次例子是一个模拟网络爬虫工作大致流程的小例子，里面没有具体的爬取的实现，只是对爬取的流程的模拟，使用到了java 的 ArrayBlockingQueue、ConcurrentHashMap、这2个类和java 的 volatile 关键字。
所属分类：Java
- 发布日期：2014-03-20
- 文件大小：15kb
- 提供者：tengdazhang770960436

网络爬虫程序
网络爬虫程序源码这是一款用 C# 编写的网络爬虫主要特性有：可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。今后有空可能加入的特性：新特
所属分类：C#
- 发布日期：2014-04-01
- 文件大小：780kb
- 提供者：tanghongju

c#网络爬虫程序源码
网络爬虫程序源码这是一款用 C# 编写的网络爬虫主要特性有：可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。今后有空可能加入的特性：新特
所属分类：C#
- 发布日期：2015-06-01
- 文件大小：780kb
- 提供者：cuichaojie000

Mini-Search-Engine
Mini-Search-Engine 迷你搜索引擎项目，后台程序在Linux环境下用C/C++开发，前台页面在windows环境下用PHP实现。关键技术 1.网络爬虫爬网页从配置文件中读取初始url 将初始url存入一个用于广度遍历的队列中开始广度优先遍历队列对每个出队的url提取需要的信息(怎么解析HTML) 对从网页中爬取到的每一个url判断是否重复，若不重复则入列。(怎么url去重) 2.初始化系统从配置文件中读系统信息，例如服务器ip、端口号、页面文件位置、停用词文件位置等。
所属分类：C++
- 发布日期：2016-10-11
- 文件大小：1mb
- 提供者：q6115759

比价网站京东苏宁数据爬取代码-使用rabbitmq
本资源与web端的比价网站是一体的，两个合并使用，即是一个完整的网站程序
所属分类：Java
- 发布日期：2017-07-28
- 文件大小：18mb
- 提供者：qq_511921540

C#网络爬虫源码
网络爬虫程序源码这是一款用 C# 编写的网络爬虫主要特性有：可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。今后有空可能加入的特性：新特
所属分类：C#
- 发布日期：2017-09-26
- 文件大小：779kb
- 提供者：zhangcanliangv

最简单的爬虫-WebMagic 0.73 源码
最简单的爬虫设置，最好二次开发的爬虫 WebMagic 框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。作为爬虫框架，它使用httpclient作为获取网页工具、使用Jsoup作为分析页面定位抓取内容、使用ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架。不熟悉这些名词的同学
所属分类：Java
- 发布日期：2017-12-04
- 文件大小：348kb
- 提供者：aburta

C++网络爬虫项目
WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网络爬虫实训项目文档版本： 1.0.0.1 编写单位：达内IT培训集团 C++教学研发部编写人员：闵卫定稿日期： 2015年11月20日星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述互联网产品形形色色，有产品导向的，有营销导向的，也有技术导向的，但是以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技术含量的产品，如果不是唯一，至少也是其中之一。经过十几年的发展
所属分类：C/C++
- 发布日期：2018-07-04
- 文件大小：4mb
- 提供者：qq15690515

C#实现网络爬虫
这是一款用 C# 编写的网络爬虫主要特性有：可配置：线程数、线程等待时间，连接超时时间，可爬取文件类型和优先级、下载目录等。状态栏显示统计信息：排入队列URL数，已下载文件数，已下载总字节数，CPU使用率和可用内存等。有偏好的爬虫：可针对爬取的资源类型设置不同的优先级。健壮性：十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能：基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
所属分类：C#
- 发布日期：2019-04-03
- 文件大小：779kb
- 提供者：sbcxst

开源通用爬虫框架YayCrawler.zip
YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架，开发语言是Java。我们知道目前爬虫框架很多，有简单的，也有复杂的，有轻量型的，也有重量型的。您也许会问：你这个爬虫框架的优势在哪里呢？额，这个是一个很重要的问题！在这个开篇中，我先简单的介绍一下我这个爬虫框架的特点，后面的章幅会详细介绍并讲解它的实现，一图胜千言：1、分布式：YayCrawler就是一个大哥（Master）多个小弟（Worker）的架构（这种结构才是宇宙的真理），当然大哥还有一个小秘（Admin）和外
所属分类：其它
- 发布日期：2019-07-18
- 文件大小：160mb
- 提供者：weixin_39840515

xmg-gecco-demo-master.zip
一个gecco爬虫框架，简单易用，使用jquery风格的选择器抽取元素支持爬取规则的动态配置和加载支持页面中的异步ajax请求支持页面中的javascr ipt变量抽取利用Redis实现分布式抓取,参考gecco-redis 支持结合Spring开发业务逻辑,参考gecco-spring 支持htmlunit扩展,参考gecco-htmlunit 支持插件扩展机制支持下载时UserAgent随机选取支持下载代理服务器随机选取 Gecco是一款用java语言开发的轻量化的易用的网络爬
所属分类：互联网
- 发布日期：2020-04-23
- 文件大小：5mb
- 提供者：qq_35100963

多线程爬取王者荣耀壁纸
该程序为多线程爬取王者荣耀壁纸，其中用到了多线程、队列的知识，是一个比较好玩的程序，感兴趣可以下载来试一试
所属分类：互联网
- 发布日期：2020-09-18
- 文件大小：1kb
- 提供者：qiaoenshi

Python如何使用队列方式实现多线程爬虫
说明：糗事百科段子的爬取，采用了队列和多线程的方式，其中关键点是Queue.task_done()、Queue.join()，保证了线程的有序进行。代码如下 import requests from lxml import etree import json from queue import Queue import threading class Qsbk(object): def __init__(self): self.headers = { "User-Ag
所属分类：其它
- 发布日期：2020-12-17
- 文件大小：48kb
- 提供者：weixin_38609765

Python利用Scrapy框架爬取豆瓣电影示例
本文实例讲述了Python利用Scrapy框架爬取豆瓣电影。分享给大家供大家参考，具体如下： 1、概念 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通过Python包管理工具可以很便捷地对scrapy进行安装，如果在安装中报错提示缺少依赖的包，那就通过pip安装所缺的包 pip install scrapy scrapy的组成结构如下图所示引擎Scrapy Engine，用于中转调度其他部分的信号和
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：353kb
- 提供者：weixin_38547035

【每日爬虫】：生产者与消费者模式爬取王者荣耀壁纸
一：什么是生产者和消费者？在线程世界里，生产者就是生产数据的线程，消费者就是消费数据的线程。在多线程开发当中，如果生产者处理速度很快，而消费者处理速度很慢，那么生产者就必须等待消费者处理完，才能继续生产数据。同样的道理，如果消费者的处理能力大于生产者，那么消费者就必须等待生产者。为了解决这个问题于是引入了生产者和消费者模式。二：生产者消费者模式的工作机制 1、通过容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯，而是通过阻塞队列来进行通讯，所以生产者生产完数据之后不用
所属分类：其它
- 发布日期：2020-12-21
- 文件大小：376kb
- 提供者：weixin_38716423

« 12 »