您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. kmeans中文文本聚类java源码(包括对文本tf,idf的计算,文本相似度计算)

  2. 算法思想:提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度,用标准的k-means算法就可以实现文本聚类。源码为java实现
  3. 所属分类:其它

    • 发布日期:2009-05-08
    • 文件大小:9kb
    • 提供者:kaiyan0308
  1. 文本相似度检测工具1.0版

  2. 用VS2005,C#利用VSM向量空间算法实现的包括.txt,.doc,.html,.htm文本的相似度检测
  3. 所属分类:C#

    • 发布日期:2011-01-30
    • 文件大小:2mb
    • 提供者:loveok56
  1. 基于量子遗传算法的XML聚类集成

  2. 为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法先利用kNN分类划分k个差异性的聚类成员;其次根据聚类成员的关系获得的内联相似度矩阵,并通过多次分割、向下、向上、双向收缩的QR算法分解特征值对应的特征向量来实现矩阵的维数缩减;然后在映射空间上,用初始聚类中心构造量子遗传算法的初始种群,用量子遗传算法来寻找样本集的最优聚类组合,把每一个样本判别到最优的聚类类别中,从而完成聚类集成。为了验证本文提出的算法,实验结果显示,该聚类集成算法比单聚类算法具有更好
  3. 所属分类:其它

    • 发布日期:2011-12-26
    • 文件大小:324kb
    • 提供者:hunanjjyy
  1. VSM信息检索模型(向量空间模型)

  2. 向量空间模型(VSM)的JAVA实现,从文档表示到相似度计算,使用两种相似度计算方式:cos和tf-idf算法
  3. 所属分类:Java

    • 发布日期:2012-06-10
    • 文件大小:1mb
    • 提供者:elevenchanbj
  1. 简单向量空间模型VSM算法的实现

  2. 简单向量空间模型可用于文档相似度的计算,也可以用于检索信息,配有详细的注释
  3. 所属分类:C#

    • 发布日期:2012-07-22
    • 文件大小:4kb
    • 提供者:fuhao555
  1. 蛙蛙教我学习文本分类

  2. 文本聚类是搜索引擎和语义web的基本技术,这次本蛙和大家一起学习一下简单的文本聚类算法,可能不能直接用于实际应用中,但对于想学搜索技术的初学者还是有一定入门作用的。这里会用到TF/IDF权重,用余弦夹角计算文本相似度,用方差计算两个数据间欧式距离,用k-means进行数据聚类等数学和统计知识。关于这些概念可以去google,或者参考文本后的参考链接。 思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准
  3. 所属分类:C#

    • 发布日期:2013-03-11
    • 文件大小:16kb
    • 提供者:makangmk
  1. 文本聚类算法实现

  2. k均值算法文本聚类的具体实现过程 思路:计算两篇文档的相似度,最简单的做法就是用提取文档的TF/IDF权重,然后用余弦定理计算两个多维向量的距离。能计算两个文本间的距离后,用标准的k-means算法就可以实现文本聚类了。
  3. 所属分类:C#

    • 发布日期:2013-08-16
    • 文件大小:16kb
    • 提供者:q383965374
  1. 基于Hash表的代码相似度度量

  2. 本人的数据结构实习作业“基于Hash表的代码相似度度量”,代码简洁明了,可读性强,并附带较多的注释,方便他人查看。一般通过查看注释便能了解程序的结构与功能,方便进行修改。以下是实习作业的具体要求: 对于两个C++程序,设计并实现两种不同的基于Hash表的检测算法(开地址法和链地址法),计算两个程序的相似度,并分析比较两种算法的效率。 分别读取两个C++程序文件(p1.cpp, p2.cpp),自行设计哈希函数,分别利用开放地址法和链地址法的冲突解决方案,构建C++语言关键字的Hash表。在扫描
  3. 所属分类:C/C++

    • 发布日期:2014-06-04
    • 文件大小:19kb
    • 提供者:gwlbjfu
  1. 向量空间模型 JAVA改进版

  2. 向量空间模型(VSM)的JAVA实现,从文档表示到相似度计算,使用两种相似度计算方式:cos和tf-idf算法,对错误进行修改
  3. 所属分类:Java

    • 发布日期:2014-06-19
    • 文件大小:2mb
    • 提供者:achunb604
  1. 基于 word2vec 计算文本相似度的话题聚类研究

  2. 本文设计并实现了一个微博交通内容的热门话题发现及文本聚类系统,便于及时捕获 出微博中的交通话题,有助于更快速准确地对交通事件做出预判和决策。为了能在聚类中更 准确地对文本进行相似度计算,本文采用 word2vec 将词语表示成词向量,并提出了一种基 10 于稠密特征的 DC-word2vec 算法,通过引入高频网络词组成的高维词表对特征向量进行扩维 映射,使其变得稠密化且每一维度都有了具体的实际意义。通过对比其他几类算法的计算相 似度准确率,验证了 DC-word2vec 的效果最佳,并将其应
  3. 所属分类:算法与数据结构

    • 发布日期:2017-11-02
    • 文件大小:976kb
    • 提供者:smy2536327507
  1. 向量相似度的算法实现

  2. 向量空间模型是信息检索中最重要的形式化模型之一,向量相似度是对向量空间模型评分的重要依据。本实验需要编程实现向量相似度的基本算法。
  3. 所属分类:搜索引擎

    • 发布日期:2020-04-24
    • 文件大小:2kb
    • 提供者:qq_41277081
  1. 结合知识图谱实现基于电影的推荐系统.pdf

  2. 在推荐算法中融入电影的知识图谱,能够将没有任何历史数据的新电影精准地推荐给目标用户。交叉特征矩阵 Cr 交叉单元 第层 el 7交叉压缩单元模型的结构 交叉压缩单元模型的具体处理过程如下 (1)将与进行矩阵相乘得到。 (2)将复制一份,并讲行转置得到。实现特征交叉融合 (3)将经过权重矩阵进行线性变化(与矩阵相乘) (4)将经过权重矩阵进行线性变化。 (5)将(3)与(4)的结果相加,再与偏置参数相加,得到。将用于推荐算法模型的后续计算。 (6)按照第(3)、(4)、(5)步的做法,同理可以得到
  3. 所属分类:机器学习

    • 发布日期:2019-09-02
    • 文件大小:847kb
    • 提供者:zjxaut2008
  1. 机器学习算法基础学习总结

  2. 机器学习算法基础学习总结2.基本算法 2.1 Logistic回归 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高 适用数据类型:数值型和标称型数据。 类别:分类算法。 试用场景:解决二分类问题。 简述: Logistic回归算法基于 Sigmoid函数,或者说 Sigmoid就是逻辑回归函数。 Sigmoid函数定义如下:1/(1-exp(-z))。函数值域范围(0,1)。可以用来做分 类器。 Sigmoid函数的函数曲线如下: 逻辑凹归模型分解如下:(1)首先将不同
  3. 所属分类:机器学习

    • 发布日期:2019-07-02
    • 文件大小:305kb
    • 提供者:abacaba
  1. 后验概率改进Fisher向量的高性能图像检索算法

  2. 提出了一种高性能的图像检索方法,结合纹理分类和改进的Fisher向量实现图像检索。首先,将图像划分为互不重叠的图像子块,对每一图像子块依据纹理复杂度进行分类,对不同类别的图像子块提取不同的特征。其次,采用基于后验概率改进的Fisher向量进行特征编码,依据乘积量化和非对称距离计算方法,分段计算两特征向量之间的距离,快速求取相似度指标,据此进行图像检索。在Holidays数据集上进行图像检索的实验结果表明,该方法的查准率和召回率高,且耗费的查询时间少。
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:407kb
    • 提供者:weixin_38655284
  1. 一种基于软构件描述文本信息抽取的检索方法

  2. 通过对目前应用广泛的软构件检索技术的研究,提出了一种基于软构件描述文本信息抽取的检索方法。该方法利用中文分词技术和向量空间模型中“词频与倒文档频度”算法抽取关键词,通过《知网》语义相似度,计算用户需求与可重用软构件的匹配度,实现了对软构件的语义检索,能实现模糊查询,具有一定的张弛能力。
  3. 所属分类:其它

    • 发布日期:2020-10-18
    • 文件大小:240kb
    • 提供者:weixin_38699757
  1. 一种复杂场景下景物图像的匹配算法

  2. 针对同一传感器从不同视角拍摄图像的匹配,提出一种Harris-SIFT算法。首先对图像进行多尺度的预处理,使用动态阈值的Harris算子提取特征点,随后生成128维的SIFT特征向量并对特征向量进行相似度检测,最后建立匹配对应关系,实现特征向量的一一匹配。实验结果表明,该算法可有效适用于复杂场景下景物图像的匹配。
  3. 所属分类:其它

    • 发布日期:2020-10-17
    • 文件大小:504kb
    • 提供者:weixin_38686658
  1. 机器学习(聚类十)——谱聚类及代码实现

  2. 谱聚类是基于谱图理论基础上的一种聚类方法,与传统的聚类方法相比:具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。(但效率不高,实际工作中用的比较少) 谱聚类 通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据进行聚类的目的;其本质是将聚类问题转换为图的最优划分问题,是一种点对聚类算法。 谱聚类算法将数据集中的每个对象看做图的顶点 V,将顶点间的相似度量化为相应顶点连接边E的权值 w,这样就构成了一个基于相似度的无向加权图 G(V,E),于是聚类问题就转换为图的划分问题。
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:221kb
    • 提供者:weixin_38748769
  1. DBSCAN-and-TI-DBSCAN-w.r.t.-cosine-similarity-and-Euclidean-measure:DBSCAN +和TI-DBSCAN + wrt余弦相似度和欧几里得测度-源码

  2. 归一化向量上的DBSCAN + wrt余弦相似度,DBSCAN +和TI-DBSCAN + wrt欧几里得 项目目标 该项目的目的是在Python和类C语言的归一化向量上实现3种不同的算法-DBSCAN + wrt余弦相似度,DBSCAN +和TI-DBSCAN + wrt Euclidean。在此存储库中,您将找到该算法的python版本,我的同事的C ++版本位于: : “ +”(+)版本通过将边界点分配给可能的多个簇而不是像传统DBSCAN算法那样分配给第一个簇来修改经典簇。 TI-
  3. 所属分类:其它

  1. faiss:高效的相似度搜索和密集矢量聚类的库-源码

  2. 费斯 Faiss是用于高效相似性搜索和密集矢量聚类的库。 它包含的算法可搜索任意大小的向量集,最多可搜索到不适合RAM的向量。 它还包含用于评估和参数调整的支持代码。 Faiss用C ++编写,带有完整的Python / numpy包装器。 一些最有用的算法是在GPU上实现的。 它由开发。 新闻 新增:版本1.7.0(2021-01-27)支持寄存器内4位PQ搜索 新:版本1.6.5(2020-11-20)pytorch / faiss互操作性改进 新:版本1.6.4(2020-10-20)移至
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:946kb
    • 提供者:weixin_42161450
  1. caiss:跨平台多语言的相似向量相似词相似句高效检索引擎。功能强大,使用方便。欢迎star&fork,周末可以要求提供支持服务-源码

  2. Caiss说明文件 一。简介 随着人工智能技术的普及,海量高维度向量的相似度查询技术在研究和生产中的作用和存在与日俱增。结果,市面有很多优秀开源的解决方案,但是,在使用过程中遇到了一些问题,样本: 由于针对各种算法原理的了解不深,不会调整参数,导致的训练模型结果偏差贯通。 开源库对于各种距离的支持有限,无法满足随时变化的实验需求。 标签信息和向量的分离,导致标记和查询需要在不同的步骤中完成。 功能不够全面,无法覆盖日常需要的“增删改查”功能。 部分解决方案,对于平台或对于编程语言的依赖,导致了各
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:18mb
    • 提供者:weixin_42137723
« 12 3 »