点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - 网页排重
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
自己动手写搜索引擎(罗刚著).doc
自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
所属分类:
其它
发布日期:2011-04-18
文件大小:6mb
提供者:
qq736655941
网页排重 -- 简单易行的Charikar算法
网页排重 -- 简单易行的Charikar算法
所属分类:
其它
发布日期:2008-05-12
文件大小:26kb
提供者:
shuizimuzhongling
自己动手写网络爬虫(全).pdf
《自己动手写网络爬虫》介绍了网络爬虫开发中的关键问题与Java实现。主要包括从互联网获取信息与提取信息和对Web信息挖掘等内容。《自己动手写网络爬虫》在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。 《自己动手写网络爬虫》此书代码清晰,但是对初学者不太合适,因为完全没有介绍开发平台和配置环境,以及在程序中所用到的jar包,初学者的动手能力有限,使得程序很难调通,高手倒是可以挑战一下 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1
所属分类:
专业指导
发布日期:2011-12-17
文件大小:2mb
提供者:
usenamer
《自己动手写搜索引擎》罗刚——doc版
《自己动手写搜索引擎》是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。《自己动手写搜索引擎》全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。 自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。 其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。 在实现搜索方面,《自己动手写搜索引擎》用
所属分类:
Web开发
发布日期:2011-12-29
文件大小:6mb
提供者:
givemeoneaccount
一种基于关键词的近似网页检测算法
针对海量Web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新入库的网页文档,利用所包含的关键词迅速缩小计算范围,提高计算效率。实验结果表明该算法是有效的,小规模评测结果得到较好的效果。
所属分类:
其它
发布日期:2008-06-22
文件大小:166kb
提供者:
wowrur
自己动手写搜索引擎(罗刚)
自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
所属分类:
Java
发布日期:2012-04-25
文件大小:3mb
提供者:
jayghost
网页命名通
网上的许多资料,下载回来后,其文件名大都是形如czxt01.htm,czxt02.htm等等,还得一个个打开才能看到该网页到底讲的是什么。 本程序可以将指定目录下的网页文件(*.htm,*.html),用该文件中的标题来重命名该文件,能正确处理文件重名及非法字符用作文件名的问题。也可生成一个索引文件(index.htm),方便地浏览。可以设置索引文件显示的颜色及背景图片。 本程序采用新的排序算法,确保文件名中有数字序列时的正确排序,不会将 xxx10.htm 排在 xxx4.htm 的前面。2
所属分类:
其它
发布日期:2006-03-16
文件大小:40kb
提供者:
xbdvcx2
自己动手写网络爬虫 完整版
第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
所属分类:
Java
发布日期:2013-02-25
文件大小:25mb
提供者:
apxar
自己动手写网络爬虫 PDF
第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
所属分类:
Java
发布日期:2013-07-12
文件大小:25mb
提供者:
xianchen1122
自己动手写网络爬虫_完整版
第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
所属分类:
Java
发布日期:2013-09-09
文件大小:25mb
提供者:
haobaoipv6
商剑网络信息万能采集器(商剑采集-完全免费!!!)
软件名称: 商剑网络信息万能采集器 软件版本:3.2 应用平台:Win9x/Me/NT/2000/XP/2003 官方网址:http://www.100spider.cn/ 下载网址1:http://www.100spider.cn/F-spider.rar 软件界面图:http://www.100spider.cn/p/1.jpg 软件简介: 商剑,能把整个百度的图片都采集下来! 商剑,能把淘宝网全部商品信息都采集下来! 商剑,能把聪慧网全部企业信息都采集下来! 商剑信息采集软件,是一款可以
所属分类:
网络基础
发布日期:2008-09-28
文件大小:3mb
提供者:
spider100
自己动手写网络爬虫
完整版《自己动手写网络爬虫》! 第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2
所属分类:
专业指导
发布日期:2013-10-27
文件大小:27mb
提供者:
qq674708957
无障碍网页设计技术手册
壹、 摘要 1 貳、 手冊內容說明 2 參、 無障礙網頁設計技術 4 規範一、對於聽覺及視覺內容要提供相等的替代文字內容 4 1-1對於網頁中非文字的聽覺與視覺內容,應提供相等內容的替代文字(如透過"alt"、"longdesc")[第一優先等級] 4 1-1-1替代文字 4 1-1-2條列項目圖片的替代文字 4 1-1-3圖片連結的替代文字 5 1-1-4圖片的簡短替代文字 5 1-1-5圖片的較長文字敘述 6 1-1-6影像地圖區域的替代文字 7 1-1-7附屬小程式(applets)及物
所属分类:
网络基础
发布日期:2014-12-11
文件大小:984kb
提供者:
qq_24415977
自己动手写网络爬虫
第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
所属分类:
Java
发布日期:2015-12-25
文件大小:25mb
提供者:
mr_boot
自己动手写网络爬虫
第1篇 自己动手抓取数据 第1章 全面剖析网络爬虫 3 1.1 抓取网页 1.1.1 深入理解url 1.1.2 通过指定的url抓取网页内容 1.1.3 java网页抓取示例 1.1.4 处理http状态码 1.2 宽度优先爬虫和带偏好的爬虫 1.2.1 图的宽度优先遍历 1.2.2 宽度优先遍历互联网 1.2.3 java宽度优先爬虫示例 1.2.4 带偏好的爬虫 1.2.5 java带偏好的爬虫示例 1.3 设计爬虫队列 1.3.1 爬虫队列 1.3.2 使用berkeley db构建爬
所属分类:
Java
发布日期:2016-03-05
文件大小:25mb
提供者:
cszhouyang
百度咋做长文本去重(一分钟系列)
在抄袭成风的互联网环境下,采用“分句”的方式,用5条最长的网页内容作为网页的签名,能够极大的降低排重系统复杂度,提高排重准确率,不失为一种好的选择。
所属分类:
Java
发布日期:2017-03-01
文件大小:17kb
提供者:
hyy80688
C++网络爬虫项目
WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是 以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技 术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展
所属分类:
C/C++
发布日期:2018-07-04
文件大小:4mb
提供者:
qq15690515
嘟嘟搜索 7.0 VB加速版.exe
系统简介: 本搜索引擎是采用倒排结构算法,ASP_VB脚本,Access数据库的小型垂直(行业)搜索引擎。 具有平台适应性好,易于维护,速度快,源码开放等优点。 平均单个网页处理时间:小于15秒。 平均检索时间:小于300豪秒。 应用范围:(重要) 1.中小型网站的站内全文搜索,中小企业内网全文搜索。 2.小型应用范围的互联网行业搜索,例如:汽车用品搜索,化妆品网购搜索,蔬菜信息搜索等。 3.SEO工作者和初学者的实践应用,主要是虚拟大型互联网全文搜素引擎(谷歌、百度等),并用于检验SEO效果
所属分类:
其它
发布日期:2019-07-05
文件大小:12mb
提供者:
weixin_39840650
web基础蜘蛛网页文章采集器 v3.2.zip
web基础蜘蛛网页文章采集器,英文名称Fast_Spider,属于蜘蛛爬虫类程序,用于从指定网站采集海量精华文章,将直接丢弃其中的垃圾网页信息,仅保存具备阅读价值和浏览价值的精华文章,自动执行HTM-TXT转换。本软件为绿色软件解压即可使用。 web基础蜘蛛网页文章采集器特点如下: (1)本软件采用北大天网MD5指纹排重算法,对于相似相同的网页信息,不再重复保存。 (2)采集信息含义:[[HT]]表示网页标题,[[HA]]表示文章标题,[[HC]]表示10个权重关键字,[[UR]]表示网页
所属分类:
其它
发布日期:2019-07-15
文件大小:5mb
提供者:
weixin_39841848
OSD报告:此脚本创建一个网页以显示SCCM OSD报告-源码
2.0版的新功能 重做的脚本更加动态。 添加了TSAdvertisementID作为变量,以方便最终用户进行编辑。 新增了使用ConfigMgr模块来导入TS和驱动程序步骤以动态构建HTML的功能。 将驱动程序分组在一起,并将它们作为一个步骤放置(这使水平表格的尺寸减小了)。 添加了跳过步骤的处理(当TS步骤不满足条件时)。 将鼠标悬停在灰色复选标记上可以看到更多详细信息。 现在,结果以最新的计算机排在最前面。 OSD报告 该脚本将在ConfigMgr数据库中查询任务序列状态消息。 解析输出并将
所属分类:
其它
发布日期:2021-02-25
文件大小:4mb
提供者:
weixin_42128537
«
1
2
3
»