搜索资源 - 文本向量 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 文本向量

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

kmeans中文文本聚类java源码（包括对文本tf，idf的计算，文本相似度计算）
算法思想：提取文档的TF/IDF权重，然后用余弦定理计算两个多维向量的距离来计算两篇文档的相似度，用标准的k-means算法就可以实现文本聚类。源码为java实现
所属分类：其它
- 发布日期：2009-05-08
- 文件大小：9kb
- 提供者：kaiyan0308

SVM文本分类程序（Java版）
中科院ICTCLAS2009分词 WVTool做向量空间模型生成 LIBSVM的线性核函数做分类 Swing应用程序框架做界面包含netbeans工程3个，分别是用来写（界面类+分类的类），（对中科院的JNI进行包装的工程）和（WVTool扩展工程）内附详细使用说明，每个目录下都有README
所属分类：Java
- 发布日期：2009-05-15
- 文件大小：14mb
- 提供者：dvdface

基于向量空间模型的多主题Web文本分类方法
基于向量空间模型的多主题Web文本分类方法.pdf
所属分类：Web开发
- 发布日期：2009-08-12
- 文件大小：233kb
- 提供者：oxwangfeng

SVM（支持向量机）相关资料
找到的一些SVM在文本图像处理和其他方面应用的的资料，希望对大家的学习有所帮助
所属分类：专业指导
- 发布日期：2009-09-02
- 文件大小：6mb
- 提供者：amutong

文本向量化WVTool使用和原程序讲解
在我们进行数据挖掘学习的过程中，除了有现成的整理好的数据集供我们使用外，我们还需要自己构建数据集。对于做文本分类的研究者来说，要做的第一步就是要将文本向量化，然后在向量空间中对文本进行研究。这样就出现了一个问题，如何将文本向量化？WVTool是一款开源软件，它主要做文本词频方面的处理，对于实现文本向量化非常有用。它支持对文本、半结构化内容（Html、XML）的向量化处理功能。并且它现在与RapidMiner Data Mining suit （YALE）可以良好的集成，因此它的应用前景还是比较
所属分类：Java
- 发布日期：2009-09-12
- 文件大小：179kb
- 提供者：paco495631217

中文文本分类中特征抽取方法的比较研究.pdf
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率 DF、信息增益 IG、互信息 MI、 χ2 分布 CHI四种不同的特征选取方法。采用支持向量机(SVM)和 KNN 两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法( IG、 MI和 CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特
所属分类：专业指导
- 发布日期：2009-12-06
- 文件大小：340kb
- 提供者：shiyoumaomao

基于VSM的中文文本分类系统的设计与实现.pdf
摘　要: 文本分类是指在给定分类体系下, 根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重, 并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到 90 %左右, 而且标题权重的引入和新分类算法的实施有效地改善了分类性能。
所属分类：其它
- 发布日期：2010-01-24
- 文件大小：257kb
- 提供者：goodskyfly_1876

vsm程序，用于文本预处理，分类使用
文本预处理，先进行向量化，编程向量形式进行后期处理。本文是C++程序，实现文本向量化
所属分类：C++
- 发布日期：2010-03-28
- 文件大小：3kb
- 提供者：hxd19830806

基于句子向量空间模型的案例知识库关键技术研究
随着信息技术的发展，经验知识管理已成为企事业单位的核心竞争力量。在人类的经验知识结构中，非结构化知识占很大比例，案例知识是非结构化经验知识的一种重要的形式，案例知识的高效交流、共享和充分利用已成为借鉴已有经验知识来解决新问题的源泉。存储案例知识的案例知识库是基于案例推理的基础和必要条件，案例知识库的研究有深远意义。本文重点研究基于本体和句子向量空间模型(SVSM，Sentence Vecter Space Model)的案例知识库关键技术，完成的主要工作如下： 1．建立了案例知识库的三层立体
所属分类：专业指导
- 发布日期：2010-04-03
- 文件大小：2mb
- 提供者：chunjunlu

svg画图文档可伸缩向量
可伸缩向量图形（SVG）使得用文本指定出现在页面上的图像成为可能。例如，传统图形需要指定矩形的每一个像素，而 SVG 只要说明矩形存在，并指出它的大小、位置和其它属性即可。
所属分类：其它
- 发布日期：2010-04-14
- 文件大小：873kb
- 提供者：lihaijing1125

svmcls文本分类程序（含C++源代码+语料库）完整版
svmcls 2.0文本自动分类器支持中文和英文文档，特征选择方式包括全局和按类别选取，概率估算方法支持基于文档（布尔）统计和基于词频统计，支持三种特征加权方式，特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计，文本证据权重，右半信息增益，分类方法包括支持向量机SVM和K近邻KNN，由李荣陆老师于2004年开发完成。网上流传很多版本的svmcls文本分类程序，但几乎全部都是不能编译通过的，有些是缺少xercesc文件夹，有些是缺少xerces-c_2_2_0D.dll，有些是缺少分词
所属分类：C
- 发布日期：2010-04-30
- 文件大小：19mb
- 提供者：moxibingdao

在MAX+PLUS II中，设计一个半加器和或门、4－16译码器和4位向量乘法器
1.利用文本编辑器和VHDL语言设计一个半加器和或门，将其定义成Symbol图元，在图形编辑器中利用这些Symbol将其设计成一个全加器。下载到CPLD芯片中，接入输入电平信号和输出LED显示器，通电验证并抄写其真值表。 2.利用VHDL语言设计一个4－16译码器，下载后实现。 3.利用VHDL语言设计一个4位向量乘法器，下载后实现。
所属分类：嵌入式
- 发布日期：2010-07-05
- 文件大小：355kb
- 提供者：bi_qianyu

中文文本分类中特征抽取方法的比较研究
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、V2 分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN 两种不同的分类器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和CHI) 在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性
所属分类：专业指导
- 发布日期：2010-09-02
- 文件大小：239kb
- 提供者：guofeng314

SVMCLS 文本自动分类器（可编译Release完整版）--李荣陆
之前的最好资源描述如下： svmcls 2.0文本自动分类器支持中文和英文文档，特征选择方式包括全局和按类别选取，概率估算方法支持基于文档（布尔）统计和基于词频统计，支持三种特征加权方式，特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计，文本证据权重，右半信息增益，分类方法包括支持向量机SVM和K近邻KNN，由李荣陆老师于2004年开发完成。网上流传很多版本的svmcls文本分类程序，但几乎全部都是不能编译通过的，有些是缺少xercesc文件夹，有些是缺少xerces-c_2_2_0
所属分类：C
- 发布日期：2010-09-21
- 文件大小：9mb
- 提供者：superyangtze

贝叶斯文本分类实用完整C++代码，文本转向量python代码
贝叶斯文本分类实用完整C++代码，超详细注释，有完整的训练和测试数据，有数据转成文本向量的python工具代码，代码在VC6上测试运行无误，能够得到正确的运行效果。。本人课程设计，倾情奉献！
所属分类：C++
- 发布日期：2014-10-29
- 文件大小：1mb
- 提供者：dujianguying1

基于后缀树模型的文本实时分类系统的研究和实现
本文在面向网络内容分析的前提下，提出了一种基于后缀树的文本向量空间模型(VSM)，并在此模型之上实现了文本分类系统。对比基于词的VSM，该模型利用后缀树的快速匹配，实时获得文本的向量表示，不需要对文本进行分词、特征抽取等复杂计算。同时，该模型能够保证训练集中文本的更改，对分类结果产生实时影响。实验结果和算法分析表明，我们系统的文本预处理的时间复杂度为O(N)，远远优于分词系统的预处理时间复杂度。此外，由于不需要分词和特征抽取，分类过程与具体语种无关，所以是一种独立语种的分类方法
所属分类：网络基础
- 发布日期：2009-02-22
- 文件大小：223kb
- 提供者：blacfun

tensorflow2.0 中英翻译对文本的预处理（文本转换为文本向量 tfds.features.text.SubwordTextEncoder.build
把中英文翻译的数据转化为模型可以接受的格式
所属分类：机器学习
- 发布日期：2020-08-09
- 文件大小：983byte
- 提供者：weixin_43788143

基于文本挖掘的中文定量文体特征分析
在本文中，选择数据挖掘来检查是否存在某种语言学以词性（POS）为例的功能可以用作中文量化风格特征。也可以说本文的目的是探索确定中文定量文体特征的方法。课文新闻，科学，官方，艺术，电视对话以及选择日常会话方式以建立我们研究的语料库。文本用主成分分析法分析了以POS为特征的向量。通过聚集层次聚类方法聚类。他们的结果表示POS可以用作文本的独特功能。然后，支持采用矢量机建立训练数据分类模型，精度和召回率，以验证文本分类的结果。随机的选择森林来计算POS的重要性，即对POS的贡献分类，并
所属分类：其它
- 发布日期：2021-03-10
- 文件大小：330kb
- 提供者：weixin_38564003

基于文本聚类的中文量化风格特征识别
“新闻广播”和“三个人之间的强强对话”的风格是不同的。前者在广播，而后者在对话。本文收集了这两个程序的语料，并选择了句子长度，单词长度和句子首字母词POS作为字符来生成文本向量。并通过欧氏距离和病房算法对文本进行聚类。分析表明，句子长度，单词长度和句子首字母词POS可以用作汉语定量文体特征。
所属分类：其它
- 发布日期：2021-03-10
- 文件大小：535kb
- 提供者：weixin_38683721

text2vec：text2vec，中文文本到vetor。（文本向量化表示工具，包括词向量化，句子向量化，句子相似度计算）-源码
text2vec text2vec，中文文本给vetor。（文本向量化表示工具，包括词向量化，句子向量化）特征文本向量表示字词粒度，通过腾讯AI Lab开放式的大规模扩展中文（文件名：light_Tencent_AILab_ChineseEmbedding.bin密码：tawe），获取字词的word2vec矢量表示。句子粒度，通过求句子中所有单词词嵌入的预先计算得到。篇章粒度，可以通过gensim库的doc2vec得到，应用替代，本项目不实现。文本相似度计算基准方法，估计两个句
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：141kb
- 提供者：weixin_42149145

« 12 3 4 5 6 7 8 9 10 ... 33 »