搜索资源 - 爬虫（7）——正则表达式 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 爬虫（7）——正则表达式

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

多线程、高性能采集器爬虫.net版源码，可采ajax页面
1、数据采集基本功能 1）支持多任务、多线程数据采集，同时支持一个采集任务多个多线程、高性能采集器爬虫.net版源码，可采ajax页面实例运行，即将采集任务规则与采集任务运行进行剥离，方便采集任务的配置、跟踪管理； 2）支持GET、POST请求方式，支持cookie，可满足需身份认真的数据采集，cookie可预先存储，也可实时获取； 3）支持用户自定义的HTTP Header，通过此功能用户可完全模拟浏览器的请求操作，可满足所有的网页请求要求，此功能在数据web发布时尤为有用； 4）采集网
所属分类：C#
- 发布日期：2011-12-20
- 文件大小：1mb
- 提供者：andylaufzf

多线程、高性能采集器爬虫.net版源码
1、数据采集基本功能 1）支持多任务、多线程数据采集，同时支持一个采集任务多个多线程、高性能采集器爬虫.net版源码，可采ajax页面实例运行，即将采集任务规则与采集任务运行进行剥离，方便采集任务的配置、跟踪管理； 2）支持GET、POST请求方式，支持cookie，可满足需身份认真的数据采集，cookie可预先存储，也可实时获取； 3）支持用户自定义的HTTP Header，通过此功能用户可完全模拟浏览器的请求操作，可满足所有的网页请求要求，此功能在数据web发布时尤为有用； 4）采集网
所属分类：C#
- 发布日期：2012-08-27
- 文件大小：1mb
- 提供者：dream_boy

网络爬虫小程序
设计并实现crawler 程序对 crawler 的功能要求如下，但不限于此：（1）能够搜集本站内的所有网页，能提取出其中的URL 并加入到待搜集的URL 队列中，对非本网站域名的URL，只允许搜集首页，记录发现的URL 即可；对搜集的结果，产生2 个URL 列表：站内搜集URL、非站内（站外）发现URL；（2）使用User-agent 向服务器表明自己的身份；（3）能对HTML 网页进行解析，提取出链接URL，能判别提取的URL 是否已处理过，不重复下载和解析已搜集过的网页；
所属分类：Java
- 发布日期：2013-03-27
- 文件大小：286kb
- 提供者：xiongjuntaouestc

多线程、高性能采集器爬虫.net版源码，可采ajax页面
1、数据采集基本功能 1）支持多任务、多线程数据采集，同时支持一个采集任务多个多线程、高性能采集器爬虫.net版源码，可采ajax页面实例运行，即将采集任务规则与采集任务运行进行剥离，方便采集任务的配置、跟踪管理； 2）支持GET、POST请求方式，支持cookie，可满足需身份认真的数据采集，cookie可预先存储，也可实时获取； 3）支持用户自定义的HTTP Header，通过此功能用户可完全模拟浏览器的请求操作，可满足所有的网页请求要求，此功能在数据web发布时尤为有用； 4）采集网
所属分类：C#
- 发布日期：2013-06-23
- 文件大小：1mb
- 提供者：wxlong8888168

多线程、高性能采集器爬虫.net版源码，可采ajax页面
1、数据采集基本功能 1）支持多任务、多线程数据采集，同时支持一个采集任务多个多线程、高性能采集器爬虫.net版源码，可采ajax页面实例运行，即将采集任务规则与采集任务运行进行剥离，方便采集任务的配置、跟踪管理； 2）支持GET、POST请求方式，支持cookie，可满足需身份认真的数据采集，cookie可预先存储，也可实时获取； 3）支持用户自定义的HTTP Header，通过此功能用户可完全模拟浏览器的请求操作，可满足所有的网页请求要求，此功能在数据web发布时尤为有用； 4）采集网
所属分类：C#
- 发布日期：2014-07-02
- 文件大小：1mb
- 提供者：hamjolley1234

精易模块 V3.69
精易模块 V3.69 what’s new：（20140312） 1.修复 “正则表达式类” 操作超过512kb文本时崩溃问题 2.修复 “类_脚本组件” 类方法“执行” 操作超过512kbJS文本时崩溃问题 3.修复 “普通填表” 类方法“网页_取文本” 和 “网页_取源码” "就绪判断_文本关键字""就绪判断_源码关键字"命令，返回超过512kb网页文本时崩溃问题 1.恢复“编码_usc2到ansi”和“编码_ansi到usc2”为原来的代码，原来代码能直接转换包含编码的文本，但是在特殊情
所属分类：游戏开发
- 发布日期：2014-07-18
- 文件大小：1mb
- 提供者：danyong321

多线程、高性能采集器爬虫.net版源码，可采ajax页面
1、数据采集基本功能 1）支持多任务、多线程数据采集，同时支持一个采集任务多个多线程、高性能采集器爬虫.net版源码，可采ajax页面实例运行，即将采集任务规则与采集任务运行进行剥离，方便采集任务的配置、跟踪管理； 2）支持GET、POST请求方式，支持cookie，可满足需身份认真的数据采集，cookie可预先存储，也可实时获取； 3）支持用户自定义的HTTP Header，通过此功能用户可完全模拟浏览器的请求操作，可满足所有的网页请求要求，此功能在数据web发布时尤为有用； 4）采集网
所属分类：Web开发
- 发布日期：2015-03-02
- 文件大小：1mb
- 提供者：tytok

精易模块[源码] V5.15
精易模块 V5.15 what’s new：（2015XXXX） 1、新增“线程_枚举”枚举指定进程ID中所有线程列表，成功返回线程数量，失败返回零。 2、删除“文件_取图标”与"文件_取图标句柄"功能重复。 3、优化“系统_创建桌面快捷方式”流程代码，感谢易友[ds9660]反馈。 4、修正“IP_10进制转IP”与“IP_16进制转IP”命令反向的问题，感谢易友[@humanbean ]反馈。 5、改善“网页_访问”死循环代码,感谢易友[@67564226]反馈。 6、优化“文本_取随机数
所属分类：其它
- 发布日期：2015-03-21
- 文件大小：573kb
- 提供者：qq598888903

新闻爬虫（NewsPicker）附源码
NewsPicker（新闻抓取器）版权：自主版权，开源作者：tttk（网络芝麻）开发语言：delphi 软件描述：利用蜘蛛算法到指定RSS站点抓取并下载新闻页面到本地，并过滤掉页面中所有无用信息，只保留新闻页面的主干，图片下载到本地，并修改图片路径。 1、支持页面过滤、预处理、新闻主干定义。通过正则表达式实现。 2、支持自定义数据源，默认mysql 3、支持ftp把下载资源上传到服务器 4、多线程技术，支持页面蜘蛛、图片蜘蛛、上传蜘蛛的线程数定义 5、完全开放源码，第三方组件需要自己下载
所属分类：其它
- 发布日期：2008-12-05
- 文件大小：571kb
- 提供者：aidi1234aidi

用Python写网络爬虫PDF-理查德劳森（Richard Lawson）
第1章网络爬虫简介 1 1.1 网络爬虫何时有用 1 1.2 网络爬虫是否合法 2 1.3 背景调研 3 1.3.1 检查robots.txt 3 1.3.2 检查网站地图 4 1.3.3 估算网站大小 5 1.3.4 识别网站所用技术 7 1.3.5 寻找网站所有者 7 1.4 编写第一个网络爬虫 8 1.4.1 下载网页 9 1.4.2 网站地图爬虫 12 1.4.3 ID遍历爬虫 13 1.4.4 链接爬虫 15 1.5 本章小结 22 第2章数据抓取 23 2.1 分析网页 23
所属分类：Python
- 发布日期：2017-11-16
- 文件大小：9mb
- 提供者：jiangshiyong2012

老王Python基础+进阶+项目篇（高清无密）
一、Python基础概述二、Python基础教程老王Python教程基础篇基础篇1-福利课python先入为主上基础篇2-福利课-python先入为主下篇基础篇3-虚拟机安装xubuntu开发环境基础篇4-linux基本命令以及开发环境基础篇5-python基本数据类型讲解1.1 基础篇6-福利课-python基本数据类型讲解1.2 基础篇7-python基本数据类型讲解1.3 基础篇8-python基本数据类型习题解答基础篇9-python基本数据结构-列表基础篇10-p
所属分类：专业指导
- 发布日期：2018-06-07
- 文件大小：111byte
- 提供者：sacacia

最新Python3.5零基础+高级+完整项目（28周全）培训视频学习资料
最新Python3.5零基础+高级+完整项目（28周全）培训视频学习资料；本资料仅用于学习。【课程内容】第1周开课介绍 python发展介绍第一个python程序变量字符编码与二进制字符编码的区别与介绍用户交互程序 if else流程判断 while 循环 while 循环优化版本 for 循环及作业要求第2周本节鸡汤模块初识 pyc是什么 python数据类型 bytes数据类型列表的使用元组与购物车程序练习购物车程序练习实例字符串常用操作字典的使用三级菜单
所属分类：Python
- 发布日期：2018-06-13
- 文件大小：94byte
- 提供者：jihaichen

C++网络爬虫项目
WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网络爬虫实训项目文档版本： 1.0.0.1 编写单位：达内IT培训集团 C++教学研发部编写人员：闵卫定稿日期： 2015年11月20日星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述互联网产品形形色色，有产品导向的，有营销导向的，也有技术导向的，但是以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技术含量的产品，如果不是唯一，至少也是其中之一。经过十几年的发展
所属分类：C/C++
- 发布日期：2018-07-04
- 文件大小：4mb
- 提供者：qq15690515

Ajax安全技术.pdf
众所周知，Ajax具备变革互联网的潜力，但危险的新安全威胁同样随之而来。《AJAX安全技术》揭示Ajax框架与生俱来的安全弱点密集区域，为开发人员创造安全应用提供指导。每一章由一个Ajax安全谬误开始，随后即将其揭穿。通读《AJAX安全技术》你将看到很多用于阐述关键知识点的真实Ajax安全漏洞案例。在书中还讲到保护Ajax应用的特殊方法，包括每种主要Web编程语言（.NET、Java和PHP）及流行新语言RubyonRails。《AJAX安全技术》一书对AJAX安全这一未开发领域进行了非常严
所属分类：Javascript
- 发布日期：2018-10-18
- 文件大小：50mb
- 提供者：louis2014a1

MATLABMYSQL爬虫-zhgd.m
MATLABMYSQL爬虫-zhgd.m 本帖最后由 caicaibi 于 2018-7-20 11:48 编辑一、引言最近有朋友问我MATLAB怎么弄爬虫，下载的大量数据怎么实现归类，借此，我弄了一个MATLAB爬虫，然后将下载的数据存储到MYSQL数据库的例子，在这里分享给大家。希望想做这方面的朋友，能对基本内容有所了解。二、环境配置 1.MATLAB R2012a 2.安装JDBC驱动链接：https://pan.baidu.com/s/18GarT6io5L
所属分类：其它
- 发布日期：2019-08-12
- 文件大小：3kb
- 提供者：weixin_39841365

爬虫（7）——正则表达式
目录正则表达式什么是正则表达式正则表达式语法（单个字符） 1.匹配某个字符串 2.点，匹配任意字符，但不能匹配换行符’\n’ 3.\d,匹配0-9数字 4.\D,匹配非数字 5.\s,匹配空白字符（\n,\t,\r,空格） 6.\w,匹配a-z，A-Z，数字，下划线 7.\W,与\w匹配的相反 8..[],组合的方式，可以匹配到中括号中的任意字符电话号码的匹配中括号代替正则表达式语法（多个字符） 9.*:可以匹配0-任意多的字符 10.+:可以匹配1-任意多的字符 11.?:可以
所属分类：其它
- 发布日期：2020-12-21
- 文件大小：188kb
- 提供者：weixin_38644141

Python网络爬虫与信息提取（7）—— 用re库爬取淘宝商品信息
前言上一节用beautifulsoup库爬取了csdn的个人信息，这一节学习使用re库爬取淘宝商品信息。 re库正则表达式常用符号：常用函数：分析网页在淘宝搜索物品就是将url结尾加上q = ?的关键字，这里以书包为例查看网页源码：可以看到，标签名字在raw_title中，价格在view_price中，那么就用正则表达式匹配这个字符串即可。代码 # 淘宝商品比价 import requests import re from prettytable import Prett
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：713kb
- 提供者：weixin_38664469

Python网络爬虫与信息提取（7）—— 用re库爬取淘宝商品信息
前言上一节用beautifulsoup库爬取了csdn的个人信息，这一节学习使用re库爬取淘宝商品信息。 re库正则表达式常用符号：常用函数：分析网页在淘宝搜索物品就是将url结尾加上q = ?的关键字，这里以书包为例查看网页源码：可以看到，标签名字在raw_title中，价格在view_price中，那么就用正则表达式匹配这个字符串即可。代码 # 淘宝商品比价 import requests import re from prettytable import Prett
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：713kb
- 提供者：weixin_38603875

Python网络爬虫与信息提取（7）—— 用re库爬取淘宝商品信息
前言上一节用beautifulsoup库爬取了csdn的个人信息，这一节学习使用re库爬取淘宝商品信息。 re库正则表达式常用符号：常用函数：分析网页在淘宝搜索物品就是将url结尾加上q = ?的关键字，这里以书包为例查看网页源码：可以看到，标签名字在raw_title中，价格在view_price中，那么就用正则表达式匹配这个字符串即可。代码 # 淘宝商品比价 import requests import re from prettytable import Prett
所属分类：其它
- 发布日期：2021-01-21
- 文件大小：713kb
- 提供者：weixin_38559346

爬虫 —–beautifulsoup、Xpath、re （三）
目录1.正则表达式 re1.1 正则表达式语法1.3 正则表达式re库的使用1.4 re库的主要功能函数：1.6 re库的另一种等价用法（编译）1.7 re 库的贪婪匹配和最小匹配2. 实例-淘宝商品比价定向爬虫 1.正则表达式 re 典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了，但它缺乏灵活性，若采用这种方法搜索动态文本，即使不是不可能，至少也会变得很困难。通过使用正则表达式，可以： - 测试字符串内的模式。
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：120kb
- 提供者：weixin_38650379