您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于SVM 的中文报道关系识别方法研究

  2. 针对网络新闻的特点,从人名、时间名、地点名、组织机构名、内容五个方面抽取特征词形成特征向量。在此基础上,分别进 行了相似度计算,其中,人名、组织机构名、内容采用余弦夹角的方法,时间和地点向量,相似度计算采用了引入报道时间和关联度 计算。最后,使用这5 个相似度作为特征,使用SVM 进行训练,并在测试集上进行了测试。测试结果表明,这种方法可以有效地改 善系统的性能。
  3. 所属分类:网络基础

    • 发布日期:2010-05-09
    • 文件大小:190kb
    • 提供者:xue100sheng
  1. 基于概念向量空间模型的中文自动文摘系统

  2. 本文提出了一种基于hownet提取出词语的词义,用词语的词义代替传统的词形频率统计方法,并基于词义排歧建立主题语义概念向量空间模型。通过对抽取出的语句进行句子相似度的计算提高文摘精确度,设计实现了一个中文自动文摘系统。
  3. 所属分类:其它

  1. 句子相似度计算java

  2. 实现句子相似度计算,实现了两种,一个是词形相似度一个是词序相似度
  3. 所属分类:Java

    • 发布日期:2013-07-30
    • 文件大小:2mb
    • 提供者:duxiulong
  1. 句子相似度算法

  2. 实现句子相似度计算,实现了两种,一个是词形相似度一个是词序相似度
  3. 所属分类:Java

    • 发布日期:2015-08-04
    • 文件大小:2mb
    • 提供者:yanglj_
  1. simhash.zip

  2. simhash 高效的文本相似度去重算法实现 simhash是什么 Google发明的的文本去重算法,适合于大批量文档的相似度计算。 流程介绍 simhash是由 Charikar 在2002年提出来的,为了便于理解尽量不使用数学公式,分为这几步: 1、分词,把需要判断文本分词形成这个文章的特征单词。 2、hash,通过hash算法把每个词变成hash值,比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串
  3. 所属分类:互联网

    • 发布日期:2020-07-16
    • 文件大小:9mb
    • 提供者:wangxy_job