您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 中英文分词算法

  2. 中英文分词算法。。。找了好久
  3. 所属分类:其它

    • 发布日期:2007-08-06
    • 文件大小:1039360
    • 提供者:dashgo
  1. JE中文分词je-analysis-1.5.1.jar

  2. 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-0 6-23 修
  3. 所属分类:其它

    • 发布日期:2009-04-28
    • 文件大小:891904
    • 提供者:tiancen2001
  1. 支持lucene的词典机械中文分词

  2. 采用反向机械分词算法。 对数字、英文进行特别的处理。 支持中英文数字混合词的处理。 分词速度快。
  3. 所属分类:其它

    • 发布日期:2009-05-14
    • 文件大小:18432
    • 提供者:wolffool
  1. 中英文分词算法KTDictSeg

  2. * KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) * 处理速度: 600KBytes/s
  3. 所属分类:其它

    • 发布日期:2010-02-20
    • 文件大小:1039360
    • 提供者:naughty610
  1. KTDictSeg分词系统V1.3.01

  2. * KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) 代码采用 Visual Studio 2005 编译通过,需在.net framework 2.0 下运行
  3. 所属分类:其它

    • 发布日期:2010-04-27
    • 文件大小:2097152
    • 提供者:kang2004wei
  1. 分词程序 (高效准确),可直接使用

  2. 高效较准确的中英文分词程序(源代码),可直接在VS上使用,并有与其他分析算法的比较分析,好!
  3. 所属分类:其它

    • 发布日期:2010-09-15
    • 文件大小:1048576
    • 提供者:qiang121
  1. ppldic.csv分词词库PHP应用——提取内容关键字

  2. 用RMM分词算法可以实现,调用“ppldic.csv”中英文词库。在分词过程中要过滤掉 标点符号,否则,这些标点符号都将分成一个词,而这些词并不是用户查询搜索的关键内容。
  3. 所属分类:PHP

    • 发布日期:2010-12-20
    • 文件大小:25600
    • 提供者:a738611
  1. je-analyzer-1.5.3lucene中文分词组件

  2. 分词算法:正向最大匹配 + 词尾多重消歧 + 22万精选词典分词效率:每秒30万字(测试环境迅驰1.6,第一次分词需要1-2秒加载词典) 内存消耗:30M 支持分词粒度控制支持Lucene分词接口支持英文、数字、中文混合分词支持中文词典动态维护 支持中英文噪声词过滤 支持人名匹配 支持地名匹配 支持数量词匹配 支持中文数字匹配 支持日期时间匹配 支持电子邮件匹配 支持商品编码匹配
  3. 所属分类:其它

    • 发布日期:2008-04-14
    • 文件大小:892928
    • 提供者:shylanse
  1. 简易中文分词服务器

  2. 中英文混合分词服务器3.0正式发布,绝对稳定高效,分词库扩大到了190多万词汇,算法做了全面修正,稳定性、健壮性、速度都有了质的飞跃!同时提供c、java、C#、delphi、js调用范例 支持大规模并发,线程安全、5万字以内的文章但线程切分1秒内可以切分完毕!
  3. 所属分类:其它

    • 发布日期:2012-03-17
    • 文件大小:6291456
    • 提供者:max09601
  1. 正向最大匹配算法(根据给定的词去匹配)

  2. 基于词典的正向最大匹配中文分词算法,能实现中英文数字混合分词。比如能分出这样的词:bb霜、3室、乐phone、touch4、mp3、T恤 第一次写中文分词程序,欢迎拍砖。
  3. 所属分类:C++

    • 发布日期:2012-05-05
    • 文件大小:384000
    • 提供者:xzwweiyi
  1. ppldic.csv 分词

  2. 用RMM分词算法可以实现,调用“ppldic.csv”中英文词库。在分词过程中要过滤掉 标点符号,否则,这些标点符号都将分成一个词,而这些词并不是用户查询搜索的关键内容。
  3. 所属分类:PHP

    • 发布日期:2012-05-08
    • 文件大小:25600
    • 提供者:rj06204
  1. 中英文分词算法

  2. 由KaiToo搜索开发的一款基于字典的简单中英文分词算法 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力
  3. 所属分类:其它

    • 发布日期:2013-01-21
    • 文件大小:1048576
    • 提供者:rootea
  1. NLP开源项目链接汇总

  2. NLP开源项目链接汇总,中英文的都有,包括分词,词性标注,注重算法介绍
  3. 所属分类:Java

    • 发布日期:2013-07-16
    • 文件大小:20480
    • 提供者:washingtondc
  1. Lucene中文分词组件 JE-Analysis 1.4.0

  2. 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ 内存消耗: 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 ——
  3. 所属分类:其它

    • 发布日期:2006-09-22
    • 文件大小:0
    • 提供者:chenxhcc
  1. Lucene中文分词组件 JE-Analysis 1.5.1

  2. 发布于:http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 200
  3. 所属分类:其它

    • 发布日期:2007-01-22
    • 文件大小:891904
    • 提供者:diystar
  1. 中文分词技术

  2. c#开发的winform项目,网上搜集的资料。基于.net2.0的轻量级分词组件,分词效率和准确性都较高。KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法
  3. 所属分类:C#

    • 发布日期:2015-03-17
    • 文件大小:3145728
    • 提供者:txy395354170
  1. KTDictSeg 中英文分词组件

  2. KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力主要性能指标:分词准确度:90%以上(有待专家的权威评测)处理速度: 600KBytes/s 版本: V1.0 BataCopyright(c) 2007 http://www.kaitoo.com 作者:肖波授权: 开源GPL公司网站: http://www.kaitoo.com
  3. 所属分类:C

    • 发布日期:2007-05-24
    • 文件大小:1039360
    • 提供者:xiongfenghust
  1. KTDictSeg 中英文分词组件 V1.0.01版本

  2. KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力主要性能指标:分词准确度:90%以上(有待专家的权威评测)处理速度: 600KBytes/s版本: V1.0.01 BataCopyright(c) 2007 http://www.kaitoo.com 作者:肖波授权: 开源GPL公司网站: http://www.kaitoo.com
  3. 所属分类:C

    • 发布日期:2007-05-24
    • 文件大小:1038336
    • 提供者:eaglet
  1. 中文分词引擎

  2. 内置25 万优选基本词条,包括行业专业词汇,及新兴网络用语。 多模式复合识别算法,能有效识别中英文特殊语法习惯。 多元歧义自动识别,有效提高分词的准确性。 改进的中文人名(汉族)识别算法。 自动过滤无效字符,支持全半角和通配符等搜索引擎分词习惯。 支持外挂扩展词库,支持扩展敏感词过滤,支持对内存词库直接操作。 词库载入及分词速度较V1 / V2 有极大提高。 使用简单,只需一个DLL 文件,无需任何额外的数据系统支持。
  3. 所属分类:其它

    • 发布日期:2007-07-22
    • 文件大小:1048576
    • 提供者:xianchaoliu
  1. 中文分词及其在基于Lucene的全文检索中的应用

  2.   本文构造出一种适应中英文信息处理的Lucene语言分析器,该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法,该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配,采用基于规则统计技术来进行新词识别,通过对分词中衍生词进行回溯分析来处理分词中歧义,从而达到了高效而准确的分词目的。此外,本文还为该语言分析器构造了一些过滤器,用来对初步分词结果进行过滤、优化。
  3. 所属分类:专业指导

    • 发布日期:2013-07-24
    • 文件大小:951296
    • 提供者:lotusagile
« 12 »