点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 爬虫(7)——正则表达式
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
多线程、高性能采集器爬虫.net版源码,可采ajax页面
1、数据采集基本功能 1)支持多任务、多线程数据采集,同时支持一个采集任务多个 多线程、高性能采集器爬虫.net版源码,可采ajax页面 实例运行,即将采集任务规则与采集任务运行进行剥离,方便采集任务的配置、跟踪管理; 2)支持GET、POST请求方式,支持cookie,可满足需身份认真的数据采集,cookie可预先存储,也可实时获取; 3)支持用户自定义的HTTP Header,通过此功能用户可完全模拟浏览器的请求操作,可满足所有的网页请求要求,此功能在数据web发布时尤为有用; 4)采集网
所属分类:
C#
发布日期:2011-12-20
文件大小:1mb
提供者:
andylaufzf
多线程、高性能采集器爬虫.net版源码
1、数据采集基本功能 1)支持多任务、多线程数据采集,同时支持一个采集任务多个 多线程、高性能采集器爬虫.net版源码,可采ajax页面 实例运行,即将采集任务规则与采集任务运行进行剥离,方便采集任务的配置、跟踪管理; 2)支持GET、POST请求方式,支持cookie,可满足需身份认真的数据采集,cookie可预先存储,也可实时获取; 3)支持用户自定义的HTTP Header,通过此功能用户可完全模拟浏览器的请求操作,可满足所有的网页请求要求,此功能在数据web发布时尤为有用; 4)采集网
所属分类:
C#
发布日期:2012-08-27
文件大小:1mb
提供者:
dream_boy
网络爬虫小程序
设计并实现crawler 程序 对 crawler 的功能要求如下,但不限于此: (1) 能够搜集本站内的所有网页,能提取出其中的URL 并加入到待搜集的URL 队列 中,对非本网站域名的URL,只允许搜集首页,记录发现的URL 即可;对搜集的结果,产 生2 个URL 列表:站内搜集URL、非站内(站外)发现URL; (2)使用User-agent 向服务器表明自己的身份; (3)能对HTML 网页进行解析,提取出链接URL,能判别提取的URL 是否已处理过, 不重复下载和解析已搜集过的网页;
所属分类:
Java
发布日期:2013-03-27
文件大小:286kb
提供者:
xiongjuntaouestc
多线程、高性能采集器爬虫.net版源码,可采ajax页面
1、数据采集基本功能 1)支持多任务、多线程数据采集,同时支持一个采集任务多个 多线程、高性能采集器爬虫.net版源码,可采ajax页面 实例运行,即将采集任务规则与采集任务运行进行剥离,方便采集任务的配置、跟踪管理; 2)支持GET、POST请求方式,支持cookie,可满足需身份认真的数据采集,cookie可预先存储,也可实时获取; 3)支持用户自定义的HTTP Header,通过此功能用户可完全模拟浏览器的请求操作,可满足所有的网页请求要求,此功能在数据web发布时尤为有用; 4)采集网
所属分类:
C#
发布日期:2013-06-23
文件大小:1mb
提供者:
wxlong8888168
多线程、高性能采集器爬虫.net版源码,可采ajax页面
1、数据采集基本功能 1)支持多任务、多线程数据采集,同时支持一个采集任务多个 多线程、高性能采集器爬虫.net版源码,可采ajax页面 实例运行,即将采集任务规则与采集任务运行进行剥离,方便采集任务的配置、跟踪管理; 2)支持GET、POST请求方式,支持cookie,可满足需身份认真的数据采集,cookie可预先存储,也可实时获取; 3)支持用户自定义的HTTP Header,通过此功能用户可完全模拟浏览器的请求操作,可满足所有的网页请求要求,此功能在数据web发布时尤为有用; 4)采集网
所属分类:
C#
发布日期:2014-07-02
文件大小:1mb
提供者:
hamjolley1234
精易模块 V3.69
精易模块 V3.69 what’s new:(20140312) 1.修复 “正则表达式类” 操作超过512kb文本时崩溃问题 2.修复 “类_脚本组件” 类方法“执行” 操作超过512kbJS文本时崩溃问题 3.修复 “普通填表” 类方法“网页_取文本” 和 “网页_取源码” "就绪判断_文本关键字""就绪判断_源码关键字"命令,返回超过512kb网页文本时崩溃问题 1.恢复“编码_usc2到ansi”和“编码_ansi到usc2”为原来的代码,原来代码能直接转换包含编码的文本,但是在特殊情
所属分类:
游戏开发
发布日期:2014-07-18
文件大小:1mb
提供者:
danyong321
多线程、高性能采集器爬虫.net版源码,可采ajax页面
1、数据采集基本功能 1)支持多任务、多线程数据采集,同时支持一个采集任务多个 多线程、高性能采集器爬虫.net版源码,可采ajax页面 实例运行,即将采集任务规则与采集任务运行进行剥离,方便采集任务的配置、跟踪管理; 2)支持GET、POST请求方式,支持cookie,可满足需身份认真的数据采集,cookie可预先存储,也可实时获取; 3)支持用户自定义的HTTP Header,通过此功能用户可完全模拟浏览器的请求操作,可满足所有的网页请求要求,此功能在数据web发布时尤为有用; 4)采集网
所属分类:
Web开发
发布日期:2015-03-02
文件大小:1mb
提供者:
tytok
精易模块[源码] V5.15
精易模块 V5.15 what’s new:(2015XXXX) 1、新增“线程_枚举”枚举指定进程ID中所有线程列表,成功返回线程数量,失败返回零。 2、删除“文件_取图标”与"文件_取图标句柄"功能重复。 3、优化“系统_创建桌面快捷方式”流程代码,感谢易友[ds9660]反馈。 4、修正“IP_10进制转IP”与“IP_16进制转IP”命令反向的问题,感谢易友[@humanbean ]反馈。 5、改善“网页_访问”死循环代码,感谢易友[@67564226]反馈。 6、优化“文本_取随机数
所属分类:
其它
发布日期:2015-03-21
文件大小:573kb
提供者:
qq598888903
新闻爬虫 (NewsPicker)附源码
NewsPicker(新闻抓取器) 版权:自主版权,开源 作者:tttk(网络芝麻) 开发语言:delphi 软件描述:利用蜘蛛算法到指定RSS站点抓取并下载新闻页面到本地,并过滤掉页面中所有无用信息,只保留新闻页面的主干,图片下载到本地,并修改图片路径。 1、支持页面过滤、预处理、新闻主干定义。通过正则表达式实现。 2、支持自定义数据源,默认mysql 3、支持ftp把下载资源上传到服务器 4、多线程技术,支持页面蜘蛛、图片蜘蛛、上传蜘蛛的线程数定义 5、完全开放源码,第三方组件需要自己下载
所属分类:
其它
发布日期:2008-12-05
文件大小:571kb
提供者:
aidi1234aidi
用Python写网络爬虫PDF-理查德 劳森(Richard Lawson)
第1章 网络爬虫简介 1 1.1 网络爬虫何时有用 1 1.2 网络爬虫是否合法 2 1.3 背景调研 3 1.3.1 检查robots.txt 3 1.3.2 检查网站地图 4 1.3.3 估算网站大小 5 1.3.4 识别网站所用技术 7 1.3.5 寻找网站所有者 7 1.4 编写第 一个网络爬虫 8 1.4.1 下载网页 9 1.4.2 网站地图爬虫 12 1.4.3 ID遍历爬虫 13 1.4.4 链接爬虫 15 1.5 本章小结 22 第2章 数据抓取 23 2.1 分析网页 23
所属分类:
Python
发布日期:2017-11-16
文件大小:9mb
提供者:
jiangshiyong2012
老王Python基础+进阶+项目篇(高清无密)
一、Python基础概述 二、Python基础教程 老王Python教程 基础篇 基础篇1-福利课python先入为主上 基础篇2-福利课-python先入为主下篇 基础篇3-虚拟机安装xubuntu开发环境 基础篇4-linux基本命令以及开发环境 基础篇5-python基本数据类型讲解1.1 基础篇6-福利课-python基本数据类型讲解1.2 基础篇7-python基本数据类型讲解1.3 基础篇8-python基本数据类型习题解答 基础篇9-python基本数据结构-列表 基础篇10-p
所属分类:
专业指导
发布日期:2018-06-07
文件大小:111byte
提供者:
sacacia
最新Python3.5零基础+高级+完整项目(28周全)培训视频学习资料
最新Python3.5零基础+高级+完整项目(28周全)培训视频学习资料;本资料仅用于学习。 【课程内容】 第1周 开课介绍 python发展介绍 第一个python程序 变量 字符编码与二进制 字符编码的区别与介绍 用户交互程序 if else流程判断 while 循环 while 循环优化版本 for 循环及作业要求 第2周 本节鸡汤 模块初识 pyc是什么 python数据类型 bytes数据类型 列表的使用 元组与购物车程序练习 购物车程序练习实例 字符串常用操作 字典的使用 三级菜单
所属分类:
Python
发布日期:2018-06-13
文件大小:94byte
提供者:
jihaichen
C++网络爬虫项目
WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是 以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技 术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展
所属分类:
C/C++
发布日期:2018-07-04
文件大小:4mb
提供者:
qq15690515
Ajax安全技术.pdf
众所周知,Ajax具备变革互联网的潜力,但危险的新安全威胁同样随之而来。《AJAX安全技术》揭示Ajax框架与生俱来的安全弱点密集区域,为开发人员创造安全应用提供指导。每一章由一个Ajax安全谬误开始,随后即将其揭穿。通读《AJAX安全技术》你将看到很多用于阐述关键知识点的真实Ajax安全漏洞案例。在书中还讲到保护Ajax应用的特殊方法,包括每种主要Web编程语言(.NET、Java和PHP)及流行新语言RubyonRails。 《AJAX安全技术》一书对AJAX安全这一未开发领域进行了非常严
所属分类:
Javascript
发布日期:2018-10-18
文件大小:50mb
提供者:
louis2014a1
MATLABMYSQL爬虫-zhgd.m
MATLABMYSQL爬虫-zhgd.m 本帖最后由 caicaibi 于 2018-7-20 11:48 编辑 一、引言 最近有朋友问我MATLAB怎么弄爬虫,下载的大量数据怎么实现归类,借此,我弄了一个MATLAB爬虫,然后将下载的数据存储到MYSQL数据库的例子,在这里分享给大家。希望想做这方面的朋友,能对基本内容有所了解。 二、环境配置 1.MATLAB R2012a 2.安装JDBC驱动 链接:https://pan.baidu.com/s/18GarT6io5L
所属分类:
其它
发布日期:2019-08-12
文件大小:3kb
提供者:
weixin_39841365
爬虫(7)——正则表达式
目录 正则表达式 什么是正则表达式 正则表达式语法(单个字符) 1.匹配某个字符串 2.点,匹配任意字符,但不能匹配换行符’\n’ 3.\d,匹配0-9数字 4.\D,匹配非数字 5.\s,匹配空白字符(\n,\t,\r,空格) 6.\w,匹配a-z,A-Z,数字,下划线 7.\W,与\w匹配的相反 8..[],组合的方式,可以匹配到中括号中的任意字符 电话号码的匹配 中括号代替 正则表达式语法(多个字符) 9.*:可以匹配0-任意多的字符 10.+:可以匹配1-任意多的字符 11.?:可以
所属分类:
其它
发布日期:2020-12-21
文件大小:188kb
提供者:
weixin_38644141
Python网络爬虫与信息提取(7)—— 用re库爬取淘宝商品信息
前言 上一节用beautifulsoup库爬取了csdn的个人信息,这一节学习使用re库爬取淘宝商品信息。 re库 正则表达式常用符号: 常用函数: 分析网页 在淘宝搜索物品就是将url结尾加上q = ?的关键字,这里以书包为例查看网页源码: 可以看到,标签名字在raw_title中,价格在view_price中,那么就用正则表达式匹配这个字符串即可。 代码 # 淘宝商品比价 import requests import re from prettytable import Prett
所属分类:
其它
发布日期:2021-01-21
文件大小:713kb
提供者:
weixin_38664469
Python网络爬虫与信息提取(7)—— 用re库爬取淘宝商品信息
前言 上一节用beautifulsoup库爬取了csdn的个人信息,这一节学习使用re库爬取淘宝商品信息。 re库 正则表达式常用符号: 常用函数: 分析网页 在淘宝搜索物品就是将url结尾加上q = ?的关键字,这里以书包为例查看网页源码: 可以看到,标签名字在raw_title中,价格在view_price中,那么就用正则表达式匹配这个字符串即可。 代码 # 淘宝商品比价 import requests import re from prettytable import Prett
所属分类:
其它
发布日期:2021-01-21
文件大小:713kb
提供者:
weixin_38603875
Python网络爬虫与信息提取(7)—— 用re库爬取淘宝商品信息
前言 上一节用beautifulsoup库爬取了csdn的个人信息,这一节学习使用re库爬取淘宝商品信息。 re库 正则表达式常用符号: 常用函数: 分析网页 在淘宝搜索物品就是将url结尾加上q = ?的关键字,这里以书包为例查看网页源码: 可以看到,标签名字在raw_title中,价格在view_price中,那么就用正则表达式匹配这个字符串即可。 代码 # 淘宝商品比价 import requests import re from prettytable import Prett
所属分类:
其它
发布日期:2021-01-21
文件大小:713kb
提供者:
weixin_38559346
爬虫 —–beautifulsoup、Xpath、re (三)
目录1.正则表达式 re1.1 正则表达式语法1.3 正则表达式re库的使用1.4 re库的主要功能函数:1.6 re库的另一种等价用法(编译)1.7 re 库的贪婪匹配和最小匹配2. 实例-淘宝商品比价定向爬虫 1.正则表达式 re 典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。 通过使用正则表达式,可以: - 测试字符串内的模式。
所属分类:
其它
发布日期:2021-01-20
文件大小:120kb
提供者:
weixin_38650379