您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 基于句子向量空间模型的案例知识库关键技术研究

  2. 随着信息技术的发展,经验知识管理已成为企事业单位的核心竞争力量。在人类的经验知识结构中,非结构化知识占很大比例,案例知识是非结构化经验知识的一种重要的形式,案例知识的高效交流、共享和充分利用已成为借鉴已有经验知识来解决新问题的源泉。存储案例知识的案例知识库是基于案例推理的基础和必要条件,案例知识库的研究有深远意义。 本文重点研究基于本体和句子向量空间模型(SVSM,Sentence Vecter Space Model)的案例知识库关键技术,完成的主要工作如下: 1.建立了案例知识库的三层立体
  3. 所属分类:专业指导

    • 发布日期:2010-04-03
    • 文件大小:2097152
    • 提供者:chunjunlu
  1. 改进性文本聚类资源研究

  2. 经典的文本聚类算法很多,K均值聚类算法是目前比较流行的一种基于划分的算法。该算法中文档 相似度计算通常采用向量空间模型,它们在假设术语间相互独立的基础上,通过逻辑表达式或向量间的 内积反映用户查询和文档的相似度,将查询结果按相似度的降序排列后提供给用户[1]。它们对用户的查 询项进行精确匹配,因此只能反映用户所要检索内容的某一方面,无法保证语义概念上的匹配。而且算法 效果与样本输入的次序和词频相关,只有当句子包含的词数足够多时,相关的词才会重复出现,其效果才 能体现出来,因此该算法只适合于词频
  3. 所属分类:其它

    • 发布日期:2010-05-17
    • 文件大小:190464
    • 提供者:nanaliv
  1. 基于概念向量空间模型的中文自动文摘系统

  2. 本文提出了一种基于hownet提取出词语的词义,用词语的词义代替传统的词形频率统计方法,并基于词义排歧建立主题语义概念向量空间模型。通过对抽取出的语句进行句子相似度的计算提高文摘精确度,设计实现了一个中文自动文摘系统。
  3. 所属分类:其它

  1. Web Data Mining (英文)

  2. 目录回到顶部↑ 第一部分 数据挖掘基础. 第1章 概述3 1.1 什么是万维网3 1.2 万维网和互联网的历史简述4 1.3 web数据挖掘5 1.3.1 什么是数据挖掘6 1.3.2 什么是web数据挖掘7 1.4 各章概要8 1.5 如何阅读本书10 文献评注10 第2章 关联规则和序列模式12 2.1 关联规则的基本概念12 2.2 apriori算法14 2.2.1 频繁项目集生成14 2.2.2 关联规则生成17 2.3 关联规则挖掘的数据格式19 2.4 多最小支持度的关联规则挖掘
  3. 所属分类:专业指导

    • 发布日期:2012-05-02
    • 文件大小:8388608
    • 提供者:chen_767
  1. 天津大学社会信息检索TFIDF大作业

  2. 本资源为天津大学社会信息检索的一项大作业,基于爬取的语料库,总体实现了三个功能:TFIDF计算,两句子相似度计算,基于语料库的搜索引擎。 具体任务如下: 1) TFIDF: 给定用自己名字命名的文件夹,请自己爬取一定数量的网页、微博形成语料集合,存入该文件夹;在线状态下,对其中的词语进行TFIDF统计。 2) SIM: 在线状态下,从网页页面输入任意两个句子,求其相似度,包括:内积,余弦及Jaccard三种度量方式;同时,可实现对导入的文件夹语料的tfidf统计。 3)SJet:实现基于向量空
  3. 所属分类:Python

    • 发布日期:2018-06-12
    • 文件大小:1048576
    • 提供者:saxem1997
  1. Python-基于同义词词林知网指纹字词向量向量空间模型的句子相似度计算

  2. self complement of Sentence Similarity compute based on cilin, hownet, simhash, wordvector,vsm models,基于同义词词林,知网,指纹,字词向量,向量空间模型的句子相似度计算。
  3. 所属分类:其它

    • 发布日期:2019-08-10
    • 文件大小:7340032
    • 提供者:weixin_39840924
  1. word2vec源码解析.pdf

  2. word2vec 是浅层神经网络训练出来的稠密向量表示的一种方法。应用于自然语言处理过程中。word2vec. c 2014/6/99:31 f(a > MAX STRING -1)a / Truncate too long words 114 115word[a]=0;//字符串结束符 116 117 118// Returns hash value of a word 119//计算单词的hash码 120 int GetWordHash(char *word) unsigned lo
  3. 所属分类:深度学习

    • 发布日期:2019-07-04
    • 文件大小:119808
    • 提供者:scnuzjf
  1. 基于特征融合的K-means微博话题发现模型

  2. 针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Model,VSM),并结合主题模型(Latent Dirichlet Allocation,LDA)挖掘出微博短文本中的潜在语义,把两个模型得到的特征进行特征融合,并应用K-means聚类算法进行话题的发现。实验结果表明,与传统的话题检测方法相比,该
  3. 所属分类:其它

    • 发布日期:2020-10-15
    • 文件大小:501760
    • 提供者:weixin_38673798
  1. Top2Vec:Top2Vec学习联合嵌入的主题,文档和单词向量-源码

  2. 更新:现在可以嵌入预训练的通用句子编码器和BERT句子转换器。阅读。 Top2Vec Top2Vec是用于主题建模和语义搜索的算法。它会自动检测文本中存在的主题,并生成联合嵌入的主题,文档和单词向量。训练Top2Vec模型后,您可以: 获取检测到的主题数。 获取主题。 获取主题大小。 获取层次结构主题。 通过关键字搜索主题。 按主题搜索文档。 通过关键字搜索文档。 查找类似的单词。 查找类似的文档。 使用公开模型 有关其工作原理的更多详细信息,请参见。 好处 自动查找主题数。 无需停用词列表
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:6291456
    • 提供者:weixin_42097533
  1. sentence-transformers:BERT和XLNet的句子嵌入-源码

  2. 句子转换器:使用BERT / RoBERTa / XLM-RoBERTa&Co.和PyTorch的多语言句子嵌入 该框架提供了一种简单的方法来计算句子和段落的密集向量表示形式(也称为句子嵌入)。 这些模型基于诸如BERT / RoBERTa / XLM-RoBERTa等的转换器网络,并经过专门调整以有意义的句子嵌入,以使具有相似含义的句子在向量空间中接近。 我们为100多种语言提供了越来越多的,并针对各种用例进行了微调。 此外,该框架允许轻松,以在您的特定任务上实现最佳性能。 有关完整文档
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:6291456
    • 提供者:weixin_42116734
  1. AutoenCODE:AutoenCODE是一种深度学习基础架构,可将源代码片段编码为矢量表示形式,可用于学习相似性-Source code learning

  2. 自动编码 AutoenCODE是一种深度学习基础架构,可将源代码片段编码为矢量表示形式,可用于学习相似性。 该存储库包含有关如何学习给定文本语料库(源代码或任何其他文本语料库)的句子级嵌入的代码,数据和说明。 然后,可以将学习到的嵌入(即,连续值向量)用于识别语料库中句子之间的相似性。 AutoenCODE使用神经网络语言模型( [3])和预言神经网络( [4]),该神经网络语言模型预先训练了语料库中的词嵌入,并递归地结合了嵌入以学习句子级嵌入。 AutoenCODE由和构建,并在以下研
  3. 所属分类:其它

    • 发布日期:2021-03-25
    • 文件大小:17825792
    • 提供者:weixin_42134240