点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 用多线程实现的Java爬虫程序
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
Sosoo 1.0网络爬虫程序.doc
Sosoo 1.0网络爬虫程序 ---用户开发手册 编写人:王建华(rimen/jerry) 编写目的:基于sosoo定制web spider程序的编程人员。 目录 一:安装sosoo 2 二:功能定制 2 1.基本功能参数的设置。 2 2.配置机器人对url的检查 3 3:实现文件管理。 4 4.定制html文档下载规则。 4 5.设置对下载后http文档的过滤处理 5 6.启用机器人运行期监控。 5 7.启用对http协议分析的监控。 5 三:sosoo描述 6 四:应用开发指南 6 1.
所属分类:
Web开发
发布日期:2010-12-18
文件大小:39kb
提供者:
mfr625
用多线程实现的Java爬虫程序
本程序用到了多线程(静态变量和同步),泛型,文件操作,URL类和连接,Hashtable类关联数组,正则表达式及其相关类。运行时需使用命令行参数,第一个参数应使用http://开头的有效URL字符串作为爬虫的主页,第二个参数(可选)应输入可转换为int型的字符串(用Integer.parseInt(String s)静态方法可以转换的字符串,如3)作为爬虫深度,如果没有,则默认深度为2。
所属分类:
Java
发布日期:2011-03-20
文件大小:38kb
提供者:
iamaluckydog2004
java网络爬虫
用多线程实现的Java网络爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。
所属分类:
Java
发布日期:2012-07-01
文件大小:1mb
提供者:
datasyman
自己用java做的一个类似网页爬虫的东西
能实现整个网站的抓取,暂时还不支持javascr ipt形式的连接 能抓取网页,网页中的所有的URL重新生成,图片,文件,包括所有格式的文件,全部都能保持原有的路径结构 抓取下的网页,通过apache搭建成网站,能在本地保持成一个完整的网站的形式 能直接使用,也能支持二次开发使用,不过暂时还会存在比较多的不完善的地方. 提供内置线程,能控制抓取操作执行的时间,循环执行 东西还不是很完善,欢迎大家提出意见
所属分类:
Java
发布日期:2006-02-24
文件大小:765kb
提供者:
chenxh
java网络爬虫 多线程
用多线程实现的Java爬虫程序 非本人所写,但认为代码不错,可以学习和借鉴
所属分类:
Java
发布日期:2012-12-19
文件大小:50kb
提供者:
jsjhxqh
简单Java搜索引擎实现——豆瓣主题搜索
这是信息检索课程的一个课后大作业,实现简单的搜索引擎功能,有多线程爬虫,中文分词,倒排索引,查询模型等内容。后台用Java实现,前台是一个简单的jsp界面。后粗糙,须建一个数据库,可从程序中Page类看出,就一张表,很简单。在运行前,需要先运行crawler类,保证从网页爬取数据,存在raws文件夹内。
所属分类:
Java
发布日期:2013-06-25
文件大小:1mb
提供者:
jul324
Python入门网络爬虫之精华版
Python入门网络爬虫之精华版 Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细介绍一下。 首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫 当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入http://www.lining0806.com/,你就会看到宁哥的小站首页。 简单来说这段过程发生了以下四个步骤: 查找域名对应的IP地址。 向IP对应的服务器发送请求
所属分类:
Python
发布日期:2016-11-04
文件大小:5kb
提供者:
q6115759
httpclient + jsoup java爬虫DEMO
java爬虫,代码写的有点丑,反正是能用。 今天给大家分享一个多线程的知识点,和线程池,最近任务是写爬虫,五百个网址,循环很慢,然后考虑用多线程,今天看了一下多线程,氛围继承thread 和实现runnuble接口,差不多这么拼写的,区别在于runnuble接口可以共享资源,当然,也就考虑到了线程安全问题,都知道,for循环中的int i 是非线程安全的,先不聊原子性的,直说多线程,实现runnble接口,刚开始会导致数据重复,查询资料,说事因为线程不安全导致,因为涉及到征用乱七八招的东西,然
所属分类:
Java
发布日期:2018-08-02
文件大小:55mb
提供者:
yichen01010
多线程实现的Java爬虫程序
以下是一个Java爬虫程序,它能从指定主页开始,按照指定的深度抓取该站点域名下的网页并维护简单索引。 参数:private static int webDepth = 2;//爬虫深度。 主页的深度为1,设置深度后超过该深度的网页不会抓取。 private int intThreadNum = 10;//线程数。开启的线程数。 抓取时也会在程序源文件目录下生成一个report.txt文件记录爬虫的运行情况,并在抓取结束后生成一个fileindex.txt文件维护网页文件
所属分类:
其它
发布日期:2020-12-22
文件大小:55kb
提供者:
weixin_38745859