搜索资源 - 网页相似度 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 网页相似度

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

大规模网页模块识别与信息提取系统设计与实现
本科生论文。本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上，通过为所有符合W3C规范的Html标签分类，逐个分析各Html标签所包含的语义信息，细化规则设置，实现了一种自底向上的无信息遗漏的网页分块算法，并在此基础上，利用统计方法得到详细的概率分布数据，实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法，并将其求交，提高了主题内容信息块的识别精确度。上述算法已集成到天网搜索引擎平台的网页预处理模块中，并且在SEWM 2008会议中，以这套算法为
所属分类：其它
- 发布日期：2009-11-30
- 文件大小：1mb
- 提供者：zjj77520

武大学术论文相似度检测软件
本软件不能检查已发表文档，因为已发表的文档往往已经到处传播和引用开来。 ⑵.本软件的每检测400字需要6秒钟，一篇8000字的文档至少需要2分钟，需要一点点耐心。 ⑶.本软件检测结果存在误差，用更小的文档块进行检测，可以减少误差，但需要的时间会相应增加，经过我们在多家编辑部的试用情况，块数大小定为200-400字较为合适，此时误差率也是可以接受的，文档相似率一般是比实际的要低。 ⑷.如果某个相似块未显示，说明未检索到相似的文档。 ⑸.本软件每天检测字数不能超过10万字，否则服务器过载，将封锁I
所属分类：专业指导
- 发布日期：2010-08-29
- 文件大小：1mb
- 提供者：lihuan317

以视觉相似为基础的Phishing 检测方法
目前检测网络欺诈均采用人工的方式。该文提出了一种基于EMD( ear th mo ve dista nce) 算法的视觉相似度欺诈网页检测算法, 算法将网页在像素级别的相似度比较结果作为依据, 判断某网页是否为欺诈网页。在2 个实际系统中应用和实践了该算法, 通过对9 280 个网站进行检测, 检测出欺诈的正确率为90. 90%, 结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。
所属分类：其它
- 发布日期：2010-12-23
- 文件大小：178kb
- 提供者：lversonshx

网页相似度计算之实词抽取
该demo利用htmlparser和正则表达式把网页的实词提取出来，为搜索引擎开发做准备
所属分类：Java
- 发布日期：2011-09-17
- 文件大小：778kb
- 提供者：yywusuowei

一种基于关键词的近似网页检测算法
针对海量Web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新入库的网页文档,利用所包含的关键词迅速缩小计算范围,提高计算效率。实验结果表明该算法是有效的,小规模评测结果得到较好的效果。
所属分类：其它
- 发布日期：2008-06-22
- 文件大小：166kb
- 提供者：wowrur

网页相似度计算之实词抽取
网页相似度计算之实词抽取，用于判断两个网页的相似度的算法
所属分类：Java
- 发布日期：2012-05-16
- 文件大小：778kb
- 提供者：imdxw

网页查重算法Shingling和Simhash研究
对比介绍了网页查重算法Shingling和Simhash的优劣，提出了两者适用的不同领域，是文本相似度计算的重要参考资料
所属分类：C
- 发布日期：2012-10-17
- 文件大小：107kb
- 提供者：sunyong1327

文本相似度论文和网页查重
各种文本相似度论文，包含网页查重的论文。
所属分类：互联网
- 发布日期：2013-07-30
- 文件大小：30mb
- 提供者：huangxia73

智能问答系统中问句相似度计算方法
智能问答系统中问句相似度计算方法下一代的搜索引擎追求的是返回更精确的答案而不是一大堆网页智能问答
所属分类：专业指导
- 发布日期：2013-12-02
- 文件大小：197kb
- 提供者：u013015357

金石极速网页采集 v1.7.zip
金石极速网页采集是一款可以采集您指定的网页，可以关键词匹配采集，也可以采集全部信息。自动过滤网上的重复信息，并允许您自行设置相似度在多少以上的信息不再重复采集，可以自行设置采集的线程数可用于媒体从业人员监测指定网页的信息，采集速度快，几分钟可完成上百网页的检测采集。另有配套金石数据传输工具可供导出新闻定制采集到的数据，详见相关软件介绍。金石极速网页采集 v1.7截图
所属分类：其它
- 发布日期：2019-07-15
- 文件大小：4mb
- 提供者：weixin_39841882

Python-HTMLSimilarity使用结构和样式度量标准比较html相似度
这个包提供了一组函数来度量网页之间的相似度
所属分类：其它
- 发布日期：2019-08-10
- 文件大小：8kb
- 提供者：weixin_39840914

基于网页DOM树节点路径相似度的正文抽取
由于人工抽取网页信息效率低、成本高，因此根据对大量网页结构的观察，提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容，然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验，结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性，正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
所属分类：其它
- 发布日期：2020-10-16
- 文件大小：198kb
- 提供者：weixin_38673694

基于网页聚类的Web信息自动抽取
针对现今较流行的动态Web网页数量巨大、数据价值高，并且网页结构高度模板化的特点，设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇，并引入列相似度和全局自相似度计算方法，提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整，以提高内容节点的正确标识。实验结果表明，该方法能够自动寻找并抽取网页主要信息，达到了较高的准确率和查全率。
所属分类：其它
- 发布日期：2020-10-22
- 文件大小：290kb
- 提供者：weixin_38674512

基于语义网络的实体相似度海量网页分类的优化方法
基于语义网络的实体相似度海量网页分类的优化方法
所属分类：其它
- 发布日期：2021-03-07
- 文件大小：1mb
- 提供者：weixin_38500572

融合多特征的蒙汉网页新闻文本相似度计算
跨语言文本相似度计算是挖掘蒙汉可比语料的基础和关键，其结果直接影响了可比语料的质量。本文通过分析新闻文本特点，提出了一种融合多特征的跨语言新闻文本相似度计算方法。该方法首先抽取新闻的发布日期、标题及正文信息作为特征，再利用双语文档发布日期的差异、正文长度关系、正文阿拉伯数字相似度、标题重合程度及正文重合程度五种启发信息进行加权线性组合来判断相似程度。实验表明，本文提出的方法能明显提高蒙汉新闻文本相似度计算的准确率。
所属分类：其它
- 发布日期：2021-03-02
- 文件大小：661kb
- 提供者：weixin_38502639

URL标准化确定首选域解决文章的相似度
什么是首选域：首选域是您希望搜索引擎用来将您的网页编入索引的域（有时也指规范域），就是网站首选的域名。通俗的说首选域就是网站的首选域名。我经常看到，有很多站长们一直在论坛抱怨，两个问题1.为什么我的网站没有加www的有排名，而加www没有排名，而之前网站的所有外链都是超链接至加www域名。而没有加www的根本没有发外链。2.为什么site:域名.com的收录量跟,site:www.域名.com的收录量的差别很大。而且还同时存在Site:域名.com跟site:www.域名.com的收录有很多文章
所属分类：其它
- 发布日期：2021-03-02
- 文件大小：525kb
- 提供者：weixin_38743737

Simple-Plagiarism-Checker：使用余弦相似度概念检查查询和文档之间相似度的Web应用程序-源码
单纯P病检查器使用Python-Flask的Pla窃检查器的Web应用程序。 TF-IDF和余弦相似度是一种非常普遍的技术。它允许系统快速检索类似于搜索查询的文档。同样，基于相同的概念，而不是检索类似于查询的文档，它会检查查询与现有数据库文件的相似程度。脚步：用户输入查询查询得到处理（大写到小写，删除标点符号等）完成计算（项频率，余弦相似度）抄袭百分比在网页上返回 Python烧瓶 Flask是适用于Python的轻量级Web框架易于使用（与Python语法相同）虽然
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：3kb
- 提供者：weixin_42135753

URL标准化确定首选域解决文章的相似度
什么是首选域：首选域是您希望搜索引擎用来将您的网页编入索引的域（有时也指规范域），就是网站首选的域名。通俗的说首选域就是网站的首选域名。我经常看到，有很多站长们一直在论坛抱怨，两个问题1.为什么我的网站没有加www的有排名，而加www没有排名，而之前网站的所有外链都是超链接至加www域名。而没有加www的根本没有发外链。2.为什么site:域名.com的收录量跟,site:www.域名.com的收录量的差别很大。而且还同时存在Site:域名.com跟site:www.域名.com的收录有很多文章
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：525kb
- 提供者：weixin_38698927

基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案
针对网页中的维吾尔文不良文档信息的过滤问题，提出一种基于互信息和余弦相似度的不良文档信息过滤方案。首先，对输入文档进行预处理，过滤掉无用单词。然后，利用文档频率（DF）和互信息（MI）相结合，从文档中提取出高区分度的特征向量。最后，利用TF-IDF方法对特征进行加权，并计算加权特征向量与分类模板中的各类加权特征向量之间的余弦相似度，来分类文档并过滤掉不良文档信息。实验结果表明，该方案能够有效过滤不良维吾尔文文档，正确过滤率达到了83.5%。
所属分类：其它
- 发布日期：2021-01-27
- 文件大小：858kb
- 提供者：weixin_38502722

基于页面敏感特征的金融类钓鱼网页检测方法
提出一种基于页面敏感特征的金融类钓鱼网页检测方法，通过获取网页超文本标记语言特定标签中的文本信息，利用适合中文的多模式匹配算法（AC_SC, AC suitable for Chinese）匹配出敏感文本条数，计算出敏感文本特征值；定位截取网页的logo图像，采用PCA-SIFT算法提取图像特征，并与预先建立的网页logo图像库进行匹配，计算出logo图像相似度；基于文本特征值和图像相似度实现对金融类钓鱼网页的判定。实验结果表明，该方法具有很强的针对性和时效性，并能取得不低于97%的召回率。
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：796kb
- 提供者：weixin_38690830

« 12 3 4 »