搜索资源 - 中英文分词算法 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 中英文分词算法

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

中英文分词算法
中英文分词算法。。。找了好久
所属分类：其它
- 发布日期：2007-08-06
- 文件大小：1039360
- 提供者：dashgo

JE中文分词je-analysis-1.5.1.jar
1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配增加了Mail地址的匹配实现了词尾消歧算法第二层的过滤整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-0 6-23 修
所属分类：其它
- 发布日期：2009-04-28
- 文件大小：891904
- 提供者：tiancen2001

支持lucene的词典机械中文分词
采用反向机械分词算法。对数字、英文进行特别的处理。支持中英文数字混合词的处理。分词速度快。
所属分类：其它
- 发布日期：2009-05-14
- 文件大小：18432
- 提供者：wolffool

中英文分词算法KTDictSeg
* KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) * 处理速度: 600KBytes/s
所属分类：其它
- 发布日期：2010-02-20
- 文件大小：1039360
- 提供者：naughty610

KTDictSeg分词系统V1.3.01
* KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法 * 主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力 * 主要性能指标: * 分词准确度:90%以上(有待专家的权威评测) 代码采用 Visual Studio 2005 编译通过，需在.net framework 2.0 下运行
所属分类：其它
- 发布日期：2010-04-27
- 文件大小：2097152
- 提供者：kang2004wei

分词程序 (高效准确),可直接使用
高效较准确的中英文分词程序(源代码),可直接在VS上使用,并有与其他分析算法的比较分析,好!
所属分类：其它
- 发布日期：2010-09-15
- 文件大小：1048576
- 提供者：qiang121

ppldic.csv分词词库PHP应用——提取内容关键字
用RMM分词算法可以实现，调用“ppldic.csv”中英文词库。在分词过程中要过滤掉标点符号，否则，这些标点符号都将分成一个词，而这些词并不是用户查询搜索的关键内容。
所属分类：PHP
- 发布日期：2010-12-20
- 文件大小：25600
- 提供者：a738611

je-analyzer-1.5.3lucene中文分词组件
分词算法：正向最大匹配 + 词尾多重消歧 + 22万精选词典分词效率：每秒30万字（测试环境迅驰1.6，第一次分词需要1－2秒加载词典）内存消耗：30M 支持分词粒度控制支持Lucene分词接口支持英文、数字、中文混合分词支持中文词典动态维护支持中英文噪声词过滤支持人名匹配支持地名匹配支持数量词匹配支持中文数字匹配支持日期时间匹配支持电子邮件匹配支持商品编码匹配
所属分类：其它
- 发布日期：2008-04-14
- 文件大小：892928
- 提供者：shylanse

简易中文分词服务器
中英文混合分词服务器3.0正式发布，绝对稳定高效，分词库扩大到了190多万词汇，算法做了全面修正，稳定性、健壮性、速度都有了质的飞跃！同时提供c、java、C#、delphi、js调用范例支持大规模并发，线程安全、5万字以内的文章但线程切分1秒内可以切分完毕！
所属分类：其它
- 发布日期：2012-03-17
- 文件大小：6291456
- 提供者：max09601

正向最大匹配算法（根据给定的词去匹配）
基于词典的正向最大匹配中文分词算法，能实现中英文数字混合分词。比如能分出这样的词：bb霜、3室、乐phone、touch4、mp3、T恤第一次写中文分词程序，欢迎拍砖。
所属分类：C++
- 发布日期：2012-05-05
- 文件大小：384000
- 提供者：xzwweiyi

ppldic.csv 分词
用RMM分词算法可以实现，调用“ppldic.csv”中英文词库。在分词过程中要过滤掉标点符号，否则，这些标点符号都将分成一个词，而这些词并不是用户查询搜索的关键内容。
所属分类：PHP
- 发布日期：2012-05-08
- 文件大小：25600
- 提供者：rj06204

中英文分词算法
由KaiToo搜索开发的一款基于字典的简单中英文分词算法主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力
所属分类：其它
- 发布日期：2013-01-21
- 文件大小：1048576
- 提供者：rootea

ＮＬＰ开源项目链接汇总
ＮＬＰ开源项目链接汇总,中英文的都有，包括分词，词性标注，注重算法介绍
所属分类：Java
- 发布日期：2013-07-16
- 文件大小：20480
- 提供者：washingtondc

Lucene中文分词组件 JE-Analysis 1.4.0
该组件免费安装使用传播，无限制商业应用，但暂不开源，也不提供任何保证分词效率：第一次分词需要1－2秒（读取词典），之后速度基本与Lucene自带分词持平运行环境： Lucene 1.9+ 内存消耗： 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 2006-07-03 修正细粒度分词错误的问题 1.3.1 —— 2006-06-23 修正在某些情况下分词遗漏的问题 1.3 ——
所属分类：其它
- 发布日期：2006-09-22
- 文件大小：0
- 提供者：chenxhcc

Lucene中文分词组件 JE-Analysis 1.5.1
发布于：http://www.jesoft.cn/posts/list/5.page 1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配增加了Mail地址的匹配实现了词尾消歧算法第二层的过滤整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07-23 修正无法多次增加词典的问题 1.3.2 —— 200
所属分类：其它
- 发布日期：2007-01-22
- 文件大小：891904
- 提供者：diystar

中文分词技术
c#开发的winform项目，网上搜集的资料。基于.net2.0的轻量级分词组件,分词效率和准确性都较高。KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法
所属分类：C#
- 发布日期：2015-03-17
- 文件大小：3145728
- 提供者：txy395354170

KTDictSeg 中英文分词组件
KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力主要性能指标:分词准确度:90%以上(有待专家的权威评测)处理速度: 600KBytes/s 版本: V1.0 BataCopyright(c) 2007 http://www.kaitoo.com 作者:肖波授权: 开源GPL公司网站: http://www.kaitoo.com
所属分类：C
- 发布日期：2007-05-24
- 文件大小：1039360
- 提供者：xiongfenghust

KTDictSeg 中英文分词组件 V1.0.01版本
KTDictSeg 简介: KTDictSeg 是由KaiToo搜索开发的一款基于字典的简单中英文分词算法主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力主要性能指标:分词准确度:90%以上(有待专家的权威评测)处理速度: 600KBytes/s版本: V1.0.01 BataCopyright(c) 2007 http://www.kaitoo.com 作者:肖波授权: 开源GPL公司网站: http://www.kaitoo.com
所属分类：C
- 发布日期：2007-05-24
- 文件大小：1038336
- 提供者：eaglet

中文分词引擎
内置25 万优选基本词条，包括行业专业词汇，及新兴网络用语。 多模式复合识别算法，能有效识别中英文特殊语法习惯。 多元歧义自动识别，有效提高分词的准确性。 改进的中文人名(汉族)识别算法。 自动过滤无效字符，支持全半角和通配符等搜索引擎分词习惯。 支持外挂扩展词库，支持扩展敏感词过滤，支持对内存词库直接操作。 词库载入及分词速度较V1 / V2 有极大提高。 使用简单，只需一个DLL 文件，无需任何额外的数据系统支持。
所属分类：其它
- 发布日期：2007-07-22
- 文件大小：1048576
- 提供者：xianchaoliu

中文分词及其在基于Lucene的全文检索中的应用
　　本文构造出一种适应中英文信息处理的Lucene语言分析器，该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法，该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配，采用基于规则统计技术来进行新词识别，通过对分词中衍生词进行回溯分析来处理分词中歧义，从而达到了高效而准确的分词目的。此外，本文还为该语言分析器构造了一些过滤器，用来对初步分词结果进行过滤、优化。
所属分类：专业指导
- 发布日期：2013-07-24
- 文件大小：951296
- 提供者：lotusagile

« 12 »