您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 大规模网页模块识别与信息提取系统设计与实现

  2. 本科生论文。本文在已有的基于Dom-Tree和启发式规则的网页信息提取算法的基础上,通过为所有符合W3C规范的Html标签分类,逐个分析各Html标签所包含的语义信息,细化规则设置,实现了一种自底向上的无信息遗漏的网页分块算法,并在此基础上,利用统计方法得到详细的概率分布数据,实现了文本相似度比较和Bayes后验概率估计两种网页主题内容信息块识别算法,并将其求交,提高了主题内容信息块的识别精确度。 上述算法已集成到天网搜索引擎平台的网页预处理模块中,并且在SEWM 2008会议中,以这套算法为
  3. 所属分类:其它

    • 发布日期:2009-11-30
    • 文件大小:1mb
    • 提供者:zjj77520
  1. 武大学术论文相似度检测软件

  2. 本软件不能检查已发表文档,因为已发表的文档往往已经到处传播和引用开来。 ⑵.本软件的每检测400字需要6秒钟,一篇8000字的文档至少需要2分钟,需要一点点耐心。 ⑶.本软件检测结果存在误差,用更小的文档块进行检测,可以减少误差,但需要的时间会相应增加,经过我们在多家编辑部的试用情况,块数大小定为200-400字较为合适,此时误差率也是可以接受的,文档相似率一般是比实际的要低。 ⑷.如果某个相似块未显示,说明未检索到相似的文档。 ⑸.本软件每天检测字数不能超过10万字,否则服务器过载,将封锁I
  3. 所属分类:专业指导

    • 发布日期:2010-08-29
    • 文件大小:1mb
    • 提供者:lihuan317
  1. 以视觉相似为基础的Phishing 检测方法

  2. 目前检测网络欺诈均采用人工的方式。该文提出了 一种基于EMD( ear th mo ve dista nce) 算法的视觉相似度欺诈网页检测算法, 算法将网页在像素级别的相似度比较结果作为依据, 判断某网页是否为欺诈网页。在2 个实际系统中应用和实践了该算法, 通过对9 280 个网站进行检测, 检测出欺诈的正确率为90. 90%, 结果显示该算法具有较高的欺诈检测精度以及较低的时间性能开销。
  3. 所属分类:其它

    • 发布日期:2010-12-23
    • 文件大小:178kb
    • 提供者:lversonshx
  1. 网页相似度计算之实词抽取

  2. 该demo利用htmlparser和正则表达式把网页的实词提取出来,为搜索引擎开发做准备
  3. 所属分类:Java

    • 发布日期:2011-09-17
    • 文件大小:778kb
    • 提供者:yywusuowei
  1. 一种基于关键词的近似网页检测算法

  2. 针对海量Web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新入库的网页文档,利用所包含的关键词迅速缩小计算范围,提高计算效率。实验结果表明该算法是有效的,小规模评测结果得到较好的效果。
  3. 所属分类:其它

    • 发布日期:2008-06-22
    • 文件大小:166kb
    • 提供者:wowrur
  1. 网页相似度计算之实词抽取

  2. 网页相似度计算之实词抽取,用于判断两个网页的相似度的算法
  3. 所属分类:Java

    • 发布日期:2012-05-16
    • 文件大小:778kb
    • 提供者:imdxw
  1. 网页查重算法Shingling和Simhash研究

  2. 对比介绍了网页查重算法Shingling和Simhash的优劣,提出了两者适用的不同领域,是文本相似度计算的重要参考资料
  3. 所属分类:C

    • 发布日期:2012-10-17
    • 文件大小:107kb
    • 提供者:sunyong1327
  1. 文本相似度论文和网页查重

  2. 各种文本相似度论文,包含网页查重的论文。
  3. 所属分类:互联网

    • 发布日期:2013-07-30
    • 文件大小:30mb
    • 提供者:huangxia73
  1. 智能问答系统中问句相似度计算方法

  2. 智能问答系统中问句相似度计算方法 下一代的搜索引擎追求的是返回更精确的答案而不是一大堆网页 智能问答
  3. 所属分类:专业指导

    • 发布日期:2013-12-02
    • 文件大小:197kb
    • 提供者:u013015357
  1. 金石极速网页采集 v1.7.zip

  2. 金石极速网页采集是一款可以采集您指定的网页,可以关键词匹配采集,也可以采集全部信息。自动过滤网上的重复信息,并允许您自行设置相似度在多少以上的信息不再重复采集,可以自行设置采集的线程数可用于媒体从业人员监测指定网页的信息,采集速度快,几分钟可完成上百网页的检测采集。另有配套金石数据传输工具可供导出新闻定制采集到的数据,详见相关软件介绍。 金石极速网页采集 v1.7截图
  3. 所属分类:其它

  1. Python-HTMLSimilarity使用结构和样式度量标准比较html相似度

  2. 这个包提供了一组函数来度量网页之间的相似度
  3. 所属分类:其它

  1. 基于网页DOM树节点路径相似度的正文抽取

  2. 由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:198kb
    • 提供者:weixin_38673694
  1. 基于网页聚类的Web信息自动抽取

  2. 针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。
  3. 所属分类:其它

    • 发布日期:2020-10-22
    • 文件大小:290kb
    • 提供者:weixin_38674512
  1. 基于语义网络的实体相似度海量网页分类的优化方法

  2. 基于语义网络的实体相似度海量网页分类的优化方法
  3. 所属分类:其它

  1. 融合多特征的蒙汉网页新闻文本相似度计算

  2. 跨语言文本相似度计算是挖掘蒙汉可比语料的基础和关键,其结果直接影响了可比语料的质量。本文通过分析新闻文本特点,提出了一种融合多特征的跨语言新闻文本相似度计算方法。该方法首先抽取新闻的发布日期、标题及正文信息作为特征,再利用双语文档发布日期的差异、正文长度关系、正文阿拉伯数字相似度、标题重合程度及正文重合程度五种启发信息进行加权线性组合来判断相似程度。实验表明,本文提出的方法能明显提高蒙汉新闻文本相似度计算的准确率。
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:661kb
    • 提供者:weixin_38502639
  1. URL标准化确定首选域解决文章的相似度

  2. 什么是首选域:首选域是您希望搜索引擎用来将您的网页编入索引的域(有时也指规范域),就是网站首选的域名。通俗的说首选域就是网站的首选域名。我经常看到,有很多站长们一直在论坛抱怨,两个问题1.为什么我的网站没有加www的有排名,而加www没有排名,而之前网站的所有外链都是超链接至加www域名。而没有加www的根本没有发外链。2.为什么site:域名.com的收录量跟,site:www.域名.com的收录量的差别很大。而且还同时存在Site:域名.com跟site:www.域名.com的收录有很多文章
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:525kb
    • 提供者:weixin_38743737
  1. Simple-Plagiarism-Checker:使用余弦相似度概念检查查询和文档之间相似度的Web应用程序-源码

  2. 单纯P病检查器 使用Python-Flask的Pla窃检查器的Web应用程序。 TF-IDF和余弦相似度是一种非常普遍的技术。 它允许系统快速检索类似于搜索查询的文档。 同样,基于相同的概念,而不是检索类似于查询的文档,它会检查查询与现有数据库文件的相似程度。 脚步: 用户输入查询 查询得到处理(大写到小写,删除标点符号等) 完成计算(项频率,余弦相似度) 抄袭百分比在网页上返回 Python烧瓶 Flask是适用于Python的轻量级Web框架 易于使用(与Python语法相同) 虽然
  3. 所属分类:其它

  1. URL标准化确定首选域解决文章的相似度

  2. 什么是首选域:首选域是您希望搜索引擎用来将您的网页编入索引的域(有时也指规范域),就是网站首选的域名。通俗的说首选域就是网站的首选域名。我经常看到,有很多站长们一直在论坛抱怨,两个问题1.为什么我的网站没有加www的有排名,而加www没有排名,而之前网站的所有外链都是超链接至加www域名。而没有加www的根本没有发外链。2.为什么site:域名.com的收录量跟,site:www.域名.com的收录量的差别很大。而且还同时存在Site:域名.com跟site:www.域名.com的收录有很多文章
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:525kb
    • 提供者:weixin_38698927
  1. 基于互信息和余弦相似度的维吾尔文不良文档信息过滤方案

  2. 针对网页中的维吾尔文不良文档信息的过滤问题,提出一种基于互信息和余弦相似度的不良文档信息过滤方案。首先,对输入文档进行预处理,过滤掉无用单词。然后,利用文档频率(DF)和互信息(MI)相结合,从文档中提取出高区分度的特征向量。最后,利用TF-IDF方法对特征进行加权,并计算加权特征向量与分类模板中的各类加权特征向量之间的余弦相似度,来分类文档并过滤掉不良文档信息。实验结果表明,该方案能够有效过滤不良维吾尔文文档,正确过滤率达到了83.5%。
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:858kb
    • 提供者:weixin_38502722
  1. 基于页面敏感特征的金融类钓鱼网页检测方法

  2. 提出一种基于页面敏感特征的金融类钓鱼网页检测方法,通过获取网页超文本标记语言特定标签中的文本信息,利用适合中文的多模式匹配算法(AC_SC, AC suitable for Chinese)匹配出敏感文本条数,计算出敏感文本特征值;定位截取网页的logo图像,采用PCA-SIFT算法提取图像特征,并与预先建立的网页logo图像库进行匹配,计算出logo图像相似度;基于文本特征值和图像相似度实现对金融类钓鱼网页的判定。实验结果表明,该方法具有很强的针对性和时效性,并能取得不低于97%的召回率。
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:796kb
    • 提供者:weixin_38690830
« 12 3 4 »