您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 文本挖掘tmSVM开源项目包含Python和Java两种版本带参考文档

  2. 文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档 简介 文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。而文本分类是文本挖掘中一个非常重要的手段与技术。现有的分类技术都已经非常成熟,SVM、KNN、Decision Tree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡
  3. 所属分类:Python

    • 发布日期:2014-02-23
    • 文件大小:3mb
    • 提供者:vcfriend
  1. 基于VC_6_0的说话人识别系统的研究

  2. 说话人识别是语音识别的一种,它是根据说话人所发的语音,确定出说话 人是谁的过程,也就是基于声音这种生物特征作为身份认证依据的识别技术。 为此,需要从各个说话人的发音中找出说话人之间的个性差异,它涉及到说话 人发音器官上的个性差异、发音声道之间的个性差异、发音习惯之间的个性差 异等。 本文主要是对说话人识别技术的两个关键部分进行了研究,下面是本文主 要做的研究工作: 本文设计的说话人识别系统是与文本无关的说话人识别系统。为了较好地 提取语音特征参数,首先要获得有效的语音段,本文采用的是基于短时能
  3. 所属分类:C++

    • 发布日期:2015-01-21
    • 文件大小:1mb
    • 提供者:u010648580
  1. 一种改进的语音信号特征参数提取算法

  2. 提出了一种可用于改善说话人识别效果的基于基音周期的可变窗长语音MFCC参数提取方法。基本原理是将原始的语音分解为当前基音周期整数倍长度以内部分及其以外部分,并保留前者舍去后者,以减小训练语音与测试语音的频谱失真。通过文本无关的说话人确认实验,验证了该方法能有效提高说话人确认的识别率,并能提高短时语音的稳定性。
  3. 所属分类:IT管理

    • 发布日期:2018-05-07
    • 文件大小:210kb
    • 提供者:weixin_42154827
  1. ccv视频识别源码

  2. ccv是一个基于C语言的、带缓存的现代计算机视觉库。 背景介绍 2010年前后,当Lian和我在进行手势识别的演示时,为走出困境,使抽象冗余图像的预处理操作更加干净简洁,我开始考虑不用堆栈。为什么这样做?两年后的ccv给出了答案。 缓存图像预处理 现如今,许多计算机视觉项目包含了很多的预处理层:影像金字塔生成、颜色空间转换等。这些潜在的冗余操作不能够通过定型的API消除。ccv提供了内置的缓存机制,同时保持一个简洁的功能接口,有效的为你做透明缓存。 容易嵌入 尽管为了更好的性能和完整的功能,c
  3. 所属分类:图像处理

    • 发布日期:2018-07-19
    • 文件大小:160mb
    • 提供者:qq_19275909
  1. 一种面向微博文本的命名实体识别方法

  2. 命名实体识别是自然语言处理领域的一项基础性技术。近年来微博等网络社交平台发展迅速,其独特的形式对传统的命名实体识别技术提出了新的挑战。故提出一种基于条件随机场模型的改进方法,针对微博文本短小、语义含糊等特点,引入外部数据源提取主题特征和词向量特征来训练模型,针对微博数据规模大、人工标准化处理代价大的特点,采取一种基于最小置信度的主动学习算法,以较小的人工代价强化模型的训练效果。在新浪微博数据集上的实验证明,该方法与传统的条件随机场方法相比F值提高了4.54%。
  3. 所属分类:其它

    • 发布日期:2020-10-16
    • 文件大小:275kb
    • 提供者:weixin_38637998
  1. 基于特征聚类集成技术的组特征选择方法

  2. 特征选择[1]指从一组特征中挑选出一些最有效的特征以达到降低特征空间维数的目的的过程,是模式识别和机器学习领域中一项必不可少的技术,在数据预处理中发挥重要作用,它广泛应用于文本分类、生物信息学和信息检索等方面。尤其在海量高维数据不断涌现的今天,许多机器学习算法受不相关和冗余特征的影响,而通过选择合适的特征选择算法,可以有效地去除不相关、冗余特征,加速数据挖掘的过程,提高学习算法的泛化性能和运行效率,得到更加简单和容易理解的学习模型[2-3]。
  3. 所属分类:其它

    • 发布日期:2020-10-17
    • 文件大小:523kb
    • 提供者:weixin_38723559
  1. 通过CNN功能和联合贝叶斯识别与文本无关的作者

  2. 提出了一种利用卷积神经网络(CNN)和联合贝叶斯算法进行离线文本无关作者识别的新方法,该方法包括特征提取和作者识别两个阶段。在特征提取阶段,由于大量数据对于训练具有高泛化性的有效CNN模型是必不可少的,而且笔迹的数量在作者识别中受到限制,因此首先开发了一种数据增强技术来为每个人生成数千个笔迹图像作家。然后,设计了一个深层的CNN网络以提取区分特征以表示不同书写风格的属性,并使用生成的手写图像对其进行训练。在作者识别阶段,训练数据集用于训练CNN模型以进行特征提取,并采用联合贝叶斯技术基于提取的C
  3. 所属分类:其它

    • 发布日期:2021-03-21
    • 文件大小:319kb
    • 提供者:weixin_38586186
  1. 基于多特征融合的中文比较句识别算法

  2. 观点承载着文本的重要信息,而比较句是观点评论中一种常见的句式现象。针对中文比较句识别问题,该文提出了一种基于规则与统计相结合的方法并进行实验。该方法先对语料及其分词结果进行规范化处理,再通过基于比较特征词词典与句法结构模板、依存关系相结合的方法进行泛提取。然后设计一种CSR规则提取算法,并利用CRF挖掘实体对象信息及语义角色信息。最后利用SVM分类器,选取不同特征维数,找到使性能达到最优的特征形式完成精提取。
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:319kb
    • 提供者:weixin_38526421
  1. 基于依存关系的旅游景点评论的特征-观点对抽取

  2. 特征—观点对的抽取是观点挖掘中非常重要的研究课题之一。该文首先利用依存语法对句子进行了依存分析,在此基础上研究了旅游评论文本中特征-观点对的抽取。利用词对间的依存关系,构建了获取含有特征和观点词语的组块规则,并设计了候选特征的识别算法和特征—观点对的抽取算法。该文对山西旅游景点评论语料进行了实验,结果表明,特征—观点对的抽取整体的F1值达到了87.10%,验证了方法的有效性。
  3. 所属分类:其它

  1. 用于第一个故事检测的多关系术语方案

  2. 第一故事检测(FSD)的目的是识别以前未报告的新兴事件的第一故事,这对于新闻分析,情报收集和国家安全中的实际应用至关重要。 与信息检索,文本聚类,文本分类和其他基于主题的任务相比,FSD是基于事件的,因此面临着同一主题上的多个事件和事件演变的挑战性问题。 为了解决这些挑战,已经为FSD提出了几种利用时间信息,命名实体和主题建模的方案。 在本文中,我们提出了一个称为LGT的新术语加权方案,该方案共同为每个故事的Local元素,Global元素和Topical关联建模。 然后设计了基于LGT的无监督
  3. 所属分类:其它

  1. 基于文本聚类的中文量化风格特征识别

  2. “新闻广播”和“三个人之间的强强对话”的风格是不同的。 前者在广播,而后者在对话。 本文收集了这两个程序的语料,并选择了句子长度,单词长度和句子首字母词POS作为字符来生成文本向量。 并通过欧氏距离和病房算法对文本进行聚类。 分析表明,句子长度,单词长度和句子首字母词POS可以用作汉语定量文体特征。
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:535kb
    • 提供者:weixin_38683721
  1. 基于跨模态CCA的星载干扰检测方法

  2. 近年来,空间骚扰可能会产生异常现象,甚至破坏网络空间中的非法行为,这可能会误导公众,并给互联网用户和社会带来不良影响。 本文旨在设计一种可有效检测在线购物中的星际干扰的算法,并帮助用户快速识别潜在的在线星际干扰者。 先前的工作使用单一方法的文本或图像图像来检测星空干扰,而在本文中,我们首先提出了一种将文本和图像相结合的跨模态规范相关分析模型(CCCA)。 首先,我们确定航天的几个特征并分析这些特征。 然后,我们使用特征提取算法,图像相似度算法和CCA算法,并提出了一种跨模态方法来检测带有图片的注
  3. 所属分类:其它

    • 发布日期:2021-03-09
    • 文件大小:844kb
    • 提供者:weixin_38711041
  1. 基于协陪义动词的中文隐式实体关系抽取

  2. 实体关系抽取的目标在于探测实体之间的显式关系和隐式关系. 现有研究大多集中在显式实体关系抽取,而忽略了隐式实体关系抽取. 针对旅游和新闻领域文本经常包含许多由协陪义动词引发的隐式实体关系,本文研究了基于协陪义动词的中文隐式实体关系抽取问题. 将机器学习方法与规则相结合,借助于显式实体关系对隐式实体关系进行推理. 首先,利用依存句法分析,设计了协陪义候选句型分类算法以及相应的协陪义成分识别算法;其次,根据协陪义成分和协陪义动词作用范围的特点,设计了三种句内基于协陪义动词的隐式实体关系推理规则;最后
  3. 所属分类:其它

  1. 大量中文文本典型类属关系的识别方法

  2. 传统的基于文本的类属关系自动删除算法仅简单记录关系出现的位置,频次等信息,而忽略重叠的信息,无法有效识别分类类属关系。从而,提出一种面向互联网文本典型类属关系通过提取实体概念的语言学特征和语法语义特征构成实体特征集,基于朴素贝叶斯分类器,计算任意实体属于不同概念的可能性,从而识别典型类属关系。实验结果证明,与基于频率的识别方法比例,该方法能将典型类属关系的识别准确率提高5%以上。
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:928kb
    • 提供者:weixin_38691256
  1. 基于文本特征的文本识别算法

  2. 基于文本特征的文本识别算法
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:358kb
    • 提供者:weixin_38544781
  1. 基于QSA数组计算序列中所有NE重复模式的算法

  2. 序列中重复模式的识别与提取算法在数据挖掘、模式识别、数据压缩、生物信息学等领域中具有广泛的实际应用。提出一种全新的基于QSA数组计算所有带有约束条件的NE重复模式的算法RPT。算法设计中充分考虑了NE重复模式的特征,以建立特征和重复模式检测结果之间的统计联系;算法中的约束条件包括最小周期pmin和最大间距gmax,其可用于筛选符合条件的NE重复模式,并可按照递增序输出所有NE重复模式的出现位置。与已有的基于后缀索引的算法相比,此算法的空间效率得到了提高。在分类属性数据样本集上进行的实验表明,算法
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:939kb
    • 提供者:weixin_38621553
  1. 基于多小波变换的文本图像文种识别

  2. 针对文本图像的纹理表现为文字笔画的方向性和以行为周期的准周期性的特点,采用了基于多小波变换的文本图像文种识别方法,提取多小波变换各子带系数的能量特征,构造特征矢量,并采用LIBSVM进行多文种的分类。通过对10种语言文字的文本图像进行实验,表明该算法在文种识别方面的有效性和对图像质量退化的鲁棒性。
  3. 所属分类:其它

    • 发布日期:2021-01-31
    • 文件大小:893kb
    • 提供者:weixin_38683895
  1. 印刷体英文单词识别与朗读在辅助阅读中的应用

  2. 图像中的印刷体英文单词识别是图像识别的一个重要分支,它可以把图片上不可以编辑的字符识别出来,转化为可以编辑的文本字符进行再利用与朗读,以帮助人们阅读的方便。本文研究的处理过程包括图像预处理、基于网格划分的图像特征提取、图像样本训练、基于最短欧式距离的图像识别方法和文本朗读等。本系统利用最短欧式距离算法实现了一个印刷体英文单词识别朗读系统,经实验单词的整体识别率达到90%以上,基本符合实际应用。
  3. 所属分类:其它

    • 发布日期:2021-01-31
    • 文件大小:739kb
    • 提供者:weixin_38675967
  1. 基于特征的藏文音节识别算法

  2. 为了实现藏文的文语转换(TTS),提出基于字符投影变换特征的藏文音节识别算法。该算法以音节为基元,选择并提取音节中由字符列投影变换组成的特征向量,以此建立音节特征库;通过查表算法对藏文音节进行识别。算法还包括藏文文本的规范化和音节切分两部分内容。通过理论分析和算法测试实验证明:提取的特征向量与藏文音节一一对应,藏文音节识别率达到100%,且特征的提取过程简便易行。该算法已经成功应用于藏文的文语转换系统。
  3. 所属分类:其它

  1. 基于文字特征的增强现实识别注册方法

  2. 针对增强现实识别注册的精度易受纹理影响且缺少以文字为识别目标的问题,提出了一种基于文字特征的识别注册方法。在模板图像处理中,将降采样与2幂次采样相结合构建多尺度金字塔,实现尺度不变性;采用基于快速视网膜特征改进的算法提取文字特征点,实现基于文字特征的增强现实系统。实验结果表明:所提算法能较准确地提取图像文字特征点,减弱了纹理对精度的影响,适用于对文本图像的识别注册。基于此方法实现的增强现实系统在不同尺度角度和目标被部分遮挡的情况下仍可以较准确地进行识别注册。
  3. 所属分类:其它

« 12 »