您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 计算所汉语词法分析系统ICTCLAS

  2. 词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。为此,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结
  3. 所属分类:嵌入式

    • 发布日期:2007-11-25
    • 文件大小:2mb
    • 提供者:yanghuan6215
  1. 基于决策树的汉语未登录词识别

  2. 基于决策树的汉语未登录词识别 基于决策树的汉语未登录词识别
  3. 所属分类:其它

    • 发布日期:2010-02-01
    • 文件大小:461kb
    • 提供者:naughty610
  1. 中英文分词算法KTDictSeg

  2. * KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) * 处理速度: 600KBytes/s
  3. 所属分类:其它

    • 发布日期:2010-02-20
    • 文件大小:1015kb
    • 提供者:naughty610
  1. 中科院分词系统

  2. 基于多层隐马尔科夫模型的汉语词法分析系统(Institute of Computing Technology, Chinese Lexical Analysis System),它包括了中文分词,词性标注和未登录词识别等。
  3. 所属分类:专业指导

    • 发布日期:2007-12-18
    • 文件大小:152kb
    • 提供者:bzbcxwp
  1. 简单的中文自动分词程序

  2. 1. 解压缩后运行freqci.exe即可。 2. 本程序以Visual FoxPro 9.0编写,词表文件必须为DBF格式,词语字段名必须为“词形”。 3. 本程序的分词只用了最简单的词表匹配法,没做任何歧义字段消解和未登录词识别。 4. 本程序所用词表是从拼音加加的词表中整理出来的。
  3. 所属分类:专业指导

    • 发布日期:2010-04-16
    • 文件大小:4mb
    • 提供者:miaochj
  1. 中文自动分词&全文检索@统计工具(GBK版

  2. 本系统具备中文自动分词、全文检索、统计等基本功能,具体介绍如下: 1、中文自动分词 1)能对给定的中文文本进行自动分词、词性一级、词性二级标注; 2)支持大批量文本的自动分词及词性标注处理,可处理各级子文件夹下的文件; 3)能根据待分词及标注文本的类别,加挂用户自定义词典,进一步提高分词和标注的精确度; 4)用户可对系统词典进行扩展,可添加、删除、查看系统词典,可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典; 5)支持人名、地名、机构名等未登录词识别,支持基于GBK字符集的简、繁体
  3. 所属分类:专业指导

    • 发布日期:2010-04-22
    • 文件大小:3mb
    • 提供者:lonewar
  1. KTDictSeg分词系统V1.3.01

  2. * KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) 代码采用 Visual Studio 2005 编译通过,需在.net framework 2.0 下运行
  3. 所属分类:其它

    • 发布日期:2010-04-27
    • 文件大小:2mb
    • 提供者:kang2004wei
  1. 中文分词十年回顾 自动分词系统

  2. 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进 步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定 义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计 学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以 上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于
  3. 所属分类:其它

    • 发布日期:2011-04-10
    • 文件大小:1mb
    • 提供者:lwccb
  1. freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zip

  2. freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码).zip ICTCLAS源码结构 Codes │ ICTCLAS_WIN.cpp Windows界面的程序 │ ICTCLAS_Win.dsp │ ICTCLAS_WIN.dsw │ ICTCLAS_WIN.h │ ICTCLAS_Win.exe 可执行程序 │ ICTCLAS_WinDlg.cpp │ ICTCLAS_WinDlg.h │ resource.h │ StdAfx.cpp │ StdAfx.h │ log.txt
  3. 所属分类:C++

    • 发布日期:2011-05-21
    • 文件大小:2mb
    • 提供者:duizhong
  1. 分词组件V2.3.1源码

  2. 分词组件V2.3.1源码 程序介绍: 盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件,拥有大量用户来自51ASPX。 作者基于之前分词组件的开发经验,结合最新的开发技术重新编写了盘古分词组件。 中文分词功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 中文人名识别 输入: “张三说的确实在理” 分词结果:张三/说/
  3. 所属分类:C#

    • 发布日期:2012-05-23
    • 文件大小:6mb
    • 提供者:ss_geng
  1. 基于层叠隐马模型的汉语词法分析

  2. 提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集 成到一个完整的理论框架中1在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普 通词一样处理1未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识 别出未登录词,并计算出真实的可信度1在切分排歧方面,提出了一种基于N2最短路径的策略,即:在早期阶段召回N 个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未
  3. 所属分类:其它

    • 发布日期:2012-09-23
    • 文件大小:198kb
    • 提供者:qq7489451
  1. 基于位置信息的未登录词识别方法

  2. 基于位置信息的未登录词识别方法
  3. 所属分类:专业指导

    • 发布日期:2012-10-31
    • 文件大小:220kb
    • 提供者:turbocasa
  1. 中英文分词算法

  2. 由KaiToo搜索开发的一款基于字典的简单中英文分词算法 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力
  3. 所属分类:其它

    • 发布日期:2013-01-21
    • 文件大小:1mb
    • 提供者:rootea
  1. 基于统计和规则的未登录词识别方法研究.pdf

  2. 基于统计和规则的未登录词识别方法研究.pdf
  3. 所属分类:专业指导

    • 发布日期:2013-12-17
    • 文件大小:235kb
    • 提供者:xytcbs
  1. 中文分词器

  2. 1.基于 trie 树结构实现高效词图扫描 2.生成所有切词可能的有向无环图 DAG 3.采用动态规划算法计算最佳切词组合 4.基于 HMM 模型,采用 Viterbi (维特比)算法实现未登录词识别
  3. 所属分类:Java

    • 发布日期:2014-10-24
    • 文件大小:4mb
    • 提供者:bany_
  1. Jieba0.35中文分词组件

  2. Jieba是一个中文分词组件,可用于中文句子/词性分割、词性标注、未登录词识别,支持用户词典等功能。该组件的分词精度达到了97%以上。
  3. 所属分类:Python

    • 发布日期:2016-03-23
    • 文件大小:7mb
    • 提供者:sanqima
  1. KTDictSeg 中英文分词组件

  2. KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力主要性能指标:分词准确度:90%以上(有待专家的权威评测)处理速度: 600KBytes/s 版本: V1.0 BataCopyright(c) 2007 http://www.kaitoo.com 作者:肖波授权: 开源GPL公司网站: http://www.kaitoo.com
  3. 所属分类:C

    • 发布日期:2007-05-24
    • 文件大小:1015kb
    • 提供者:xiongfenghust
  1. 盘古分词 工具

  2. 盘古分词 简介: 盘古分词 是由eaglet 开发的一款基于字典的中英文分词组件 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 主要性能指标: 分词准确度:90%以上 处理速度: 300-600KBytes/s Core Duo 1.8GHz 用于测试的句子: 长春市长春节致词 长春市长春药店 IBM的技术和服务都不错 张三在一月份工作会议上说的确实在理 于北京时间5月10日举行运动会 我的和服务必在明天做好
  3. 所属分类:算法与数据结构

    • 发布日期:2018-06-22
    • 文件大小:189kb
    • 提供者:lingxuan413
  1. 简单理解NLP中文分词

  2. 什么是中文分词 中文分词指将一个汉字序列切分成一个个单独的词。 中文分词的难题 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词 消除歧义问题:比如“小吃店关门了” 未登录词识别问题:比如“hold”住 分词方法分类 中文分词主要分为:基于规则分词、基于概率统计分词。 基于规则分词 原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配 正向最大
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:39kb
    • 提供者:weixin_38725260
  1. freeICTCLAS中科院中文分词(拼音中文输入法设计和源代码)

  2. ICTCLAS源码主要模块 │ ICTCLAS_WIN.cpp Windows界面的程序│ log.txt 日志├─Utility 共用函数模块├─Unknown 未登录词识别模块├─Tag HMM标注模块├─Segment 词语切分模块├─Result 结果生成模块├─Data 概率数据文件
  3. 所属分类:其它

« 12 3 »