您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. C# 编写的网络爬虫程序源码

  2. 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
  3. 所属分类:网络基础

    • 发布日期:2010-09-09
    • 文件大小:780kb
    • 提供者:gxinfoljs
  1. 基于C#的网络爬虫程序

  2. 主要特性有: • 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 • 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 • 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 • 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 • 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
  3. 所属分类:C#

    • 发布日期:2011-04-20
    • 文件大小:2mb
    • 提供者:ym45697762
  1. winform模拟网络蜘蛛源码

  2. 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特性 介绍 爬取文件用Berkeley DB存储 提高性能: 常用操
  3. 所属分类:C#

    • 发布日期:2011-10-21
    • 文件大小:1mb
    • 提供者:shawshrank
  1. 网络 爬虫 蜘蛛 程序 源码

  2. 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
  3. 所属分类:其它

    • 发布日期:2011-12-15
    • 文件大小:780kb
    • 提供者:chengxuco
  1. 网络爬虫程序源码

  2. 网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特
  3. 所属分类:C#

    • 发布日期:2013-04-27
    • 文件大小:780kb
    • 提供者:u010476944
  1. java 队列使用

  2. java 队列使用,次例子是一个模拟网络爬虫工作大致流程的小例子,里面没有具体的爬取的实现,只是对爬取的流程的模拟,使用到了java 的 ArrayBlockingQueue、ConcurrentHashMap、 这2个类和java 的 volatile 关键字。
  3. 所属分类:Java

  1. 网络爬虫程序

  2. 网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特
  3. 所属分类:C#

    • 发布日期:2014-04-01
    • 文件大小:780kb
    • 提供者:tanghongju
  1. c#网络爬虫程序源码

  2. 网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特
  3. 所属分类:C#

    • 发布日期:2015-06-01
    • 文件大小:780kb
    • 提供者:cuichaojie000
  1. Mini-Search-Engine

  2. Mini-Search-Engine 迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。 关键技术 1.网络爬虫爬网页 从配置文件中读取初始url 将初始url存入一个用于广度遍历的队列中 开始广度优先遍历队列 对每个出队的url提取需要的信息(怎么解析HTML) 对从网页中爬取到的每一个url判断是否重复,若不重复则入列。(怎么url去重) 2.初始化系统 从配置文件中读系统信息,例如服务器ip、端口号、页面文件位置、停用词文件位置等。
  3. 所属分类:C++

    • 发布日期:2016-10-11
    • 文件大小:1mb
    • 提供者:q6115759
  1. 比价网站京东苏宁数据爬取代码-使用rabbitmq

  2. 本资源与web端的比价网站是一体的,两个合并使用,即是一个完整的网站程序
  3. 所属分类:Java

    • 发布日期:2017-07-28
    • 文件大小:18mb
    • 提供者:qq_511921540
  1. C#网络爬虫源码

  2. 网络爬虫程序源码 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。 今后有空可能加入的特性: 新特
  3. 所属分类:C#

    • 发布日期:2017-09-26
    • 文件大小:779kb
    • 提供者:zhangcanliangv
  1. 最简单的爬虫-WebMagic 0.73 源码

  2. 最简单的爬虫设置,最好二次开发的爬虫 WebMagic 框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。作为爬虫框架,它使用httpclient作为获取网页工具、使用Jsoup作为分析页面定位抓取内容、使用ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架。不熟悉这些名词的同学
  3. 所属分类:Java

    • 发布日期:2017-12-04
    • 文件大小:348kb
    • 提供者:aburta
  1. C++网络爬虫项目

  2. WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是 以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技 术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展
  3. 所属分类:C/C++

    • 发布日期:2018-07-04
    • 文件大小:4mb
    • 提供者:qq15690515
  1. C#实现网络爬虫

  2. 这是一款用 C# 编写的网络爬虫 主要特性有: 可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。 状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。 有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。 健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。 较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
  3. 所属分类:C#

    • 发布日期:2019-04-03
    • 文件大小:779kb
    • 提供者:sbcxst
  1. 开源通用爬虫框架YayCrawler.zip

  2. YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java。我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻 量型的,也有重量型的。您也许会问:你这个爬虫框架的优势在哪里呢?额,这个是一个很重要的问题!在这个开篇中,我先简单的介绍一下我这个爬虫框架的特 点,后面的章幅会详细介绍并讲解它的实现,一图胜千言:1、分布式:YayCrawler就是一个大哥(Master)多个小弟(Worker)的架构(这种结构才是宇宙的真理),当然大哥还有一个小秘(Admin)和外
  3. 所属分类:其它

    • 发布日期:2019-07-18
    • 文件大小:160mb
    • 提供者:weixin_39840515
  1. xmg-gecco-demo-master.zip

  2. 一个gecco爬虫框架,简单易用,使用jquery风格的选择器抽取元素 支持爬取规则的动态配置和加载 支持页面中的异步ajax请求 支持页面中的javascr ipt变量抽取 利用Redis实现分布式抓取,参考gecco-redis 支持结合Spring开发业务逻辑,参考gecco-spring 支持htmlunit扩展,参考gecco-htmlunit 支持插件扩展机制 支持下载时UserAgent随机选取 支持下载代理服务器随机选取 Gecco是一款用java语言开发的轻量化的易用的网络爬
  3. 所属分类:互联网

    • 发布日期:2020-04-23
    • 文件大小:5mb
    • 提供者:qq_35100963
  1. 多线程爬取王者荣耀壁纸

  2. 该程序为多线程爬取王者荣耀壁纸,其中用到了多线程、队列的知识,是一个比较好玩的程序,感兴趣可以下载来试一试
  3. 所属分类:互联网

    • 发布日期:2020-09-18
    • 文件大小:1kb
    • 提供者:qiaoenshi
  1. Python如何使用队列方式实现多线程爬虫

  2. 说明:糗事百科段子的爬取,采用了队列和多线程的方式,其中关键点是Queue.task_done()、Queue.join(),保证了线程的有序进行。 代码如下 import requests from lxml import etree import json from queue import Queue import threading class Qsbk(object): def __init__(self): self.headers = { "User-Ag
  3. 所属分类:其它

    • 发布日期:2020-12-17
    • 文件大小:48kb
    • 提供者:weixin_38609765
  1. Python利用Scrapy框架爬取豆瓣电影示例

  2. 本文实例讲述了Python利用Scrapy框架爬取豆瓣电影。分享给大家供大家参考,具体如下: 1、概念 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 通过Python包管理工具可以很便捷地对scrapy进行安装,如果在安装中报错提示缺少依赖的包,那就通过pip安装所缺的包 pip install scrapy scrapy的组成结构如下图所示 引擎Scrapy Engine,用于中转调度其他部分的信号和
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:353kb
    • 提供者:weixin_38547035
  1. 【每日爬虫】:生产者与消费者模式爬取王者荣耀壁纸

  2. 一:什么是生产者和消费者? 在线程世界里,生产者就是生产数据的线程,消费者就是消费数据的线程。在多线程开发当中,如果生产者处理速度很快,而消费者处理速度很慢,那么生产者就必须等待消费者处理完,才能继续生产数据。同样的道理,如果消费者的处理能力大于生产者,那么消费者就必须等待生产者。为了解决这个问题于是引入了生产者和消费者模式。 二:生产者消费者模式的工作机制 1、通过容器来解决生产者和消费者的强耦合问题。 生产者和消费者彼此之间不直接通讯,而是通过阻塞队列来进行通讯,所以生产者生产完数据之后不用
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:376kb
    • 提供者:weixin_38716423
« 12 »