搜索资源 - 分词器；分词 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 分词器；分词

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

IKAnalyzer 3.0 中文分词器
1.IKAnalyzer3.0介绍 IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer 已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。 1.2IKAnalyzer3.0特性 * 采用了特有的“正向迭代最细粒度切分
所属分类：其它
- 发布日期：2009-07-21
- 文件大小：1mb
- 提供者：linliangyi2006

SVMCLS 文本自动分类器（可编译Release完整版）--李荣陆
之前的最好资源描述如下： svmcls 2.0文本自动分类器支持中文和英文文档，特征选择方式包括全局和按类别选取，概率估算方法支持基于文档（布尔）统计和基于词频统计，支持三种特征加权方式，特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计，文本证据权重，右半信息增益，分类方法包括支持向量机SVM和K近邻KNN，由李荣陆老师于2004年开发完成。网上流传很多版本的svmcls文本分类程序，但几乎全部都是不能编译通过的，有些是缺少xercesc文件夹，有些是缺少xerces-c_2_2_0
所属分类：C
- 发布日期：2010-09-21
- 文件大小：9mb
- 提供者：superyangtze

基于相邻词的中文关键词自动抽取
请先下载CAJ阅读器对于单编文档d自动提取关键词的算法如下所述； 1 使用基于词典的正向最小分词算法对文档进行分词。 2统计出文档d中每个词t在d中的TF，并将每个词在d中的权重Wt.....
所属分类：其它
- 发布日期：2010-11-09
- 文件大小：72kb
- 提供者：qdfch

IKAnalyzer中文分词器V3.2.X使用手册
采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定义针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐)；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高Lucene检索的命中率。
所属分类：Java
- 发布日期：2011-08-03
- 文件大小：489kb
- 提供者：feiyu84

IKAnalyzer中文分词器V2012使用手册
采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定义针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐)；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高Lucene检索的命中率。
所属分类：Java
- 发布日期：2012-03-13
- 文件大小：828kb
- 提供者：mailjava

ICTCLAS分词器
开源分词器，提供文档，类库，可以有效的分词，简单易用
所属分类：C++
- 发布日期：2012-10-23
- 文件大小：8mb
- 提供者：quitepig

Excel表格的35招必学秘技(快速成为高手).doc
Excel表格的35招必学秘技(快速成为高手).doc Excel表格的35招必学秘技,必看！也许你已经在Excel中完成过上百张财务报表，也许你已利用Excel函数实现过上千次的复杂运算，也许你认为Excel也不过如此，甚至了无新意。但我们平日里无数次重复的得心应手的使用方法只不过是Excel全部技巧的百分之一。本专题从Excel中的一些鲜为人知的技巧入手，领略一下关于Excel的别样风情。一、让不同类型数据用不同颜色显示　　在工资表中，如果想让大于等于2000元的工资总额以“红色”显
所属分类：专业指导
- 发布日期：2012-12-15
- 文件大小：179kb
- 提供者：wangyu519

中文分词器nlpir Java32位开发接口
需配合完整开发包使用，NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。全球用户突破20万，先后获得了2010年钱伟长中文信息处理科学技术奖一等奖，2003年国际SIGHAN分词大赛综合第一名，2002年国内973评测综合第一名。
所属分类：Java
- 发布日期：2013-04-15
- 文件大小：770kb
- 提供者：wskings

分词器NLPIR
目前NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。国内国际排名均为第一。项目已经配置好环境，导入Eclipse即可使用，文件内src下的TestUTF8.java可以直接运行，提供了分词接口
所属分类：Java
- 发布日期：2014-01-21
- 文件大小：4mb
- 提供者：reacherxu

最好用的中文分词器 IKAnalyzer
最好用的中文分词器 IKAnalyzer ；独立于lusence，更为强大和好用，谁用谁知道
所属分类：Java
- 发布日期：2014-07-02
- 文件大小：1mb
- 提供者：mlc0202

基于中文的Shuzhen分词器1.1.4提供下载
此版本改进为：分词时采用了完全匹配方式（自命名的），也即将符合字典条目的词全部切分出来，在基于字典的分词中达到了“分无可分”的程度；分词时完全按照标准分词来进行，这样保证了在和一些高亮显示组件如highlighter一起使用时，能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug；配置文件的存放支持相对路径，这样更灵活，更方便应用在一些虚拟机上；字典条目支持导入到内存中，也就是在原有JDBM字典系统的基础上增加内存字典系统，且能方便自定义导入多少条目到内存中，能自定义使用内存还
所属分类：专业指导
- 发布日期：2008-10-22
- 文件大小：814kb
- 提供者：yuanjian0211

oracle和db2常用语法比较
oracl 和db2 常用语法比较： 1、取前N条记录 Oracle：Select * from TableName where rownum <= N; DB2：Select * from TableName fetch first N rows only; 2、取得系统日期 Oracle：Select sysdate from dual; DB2：Select current timestamp from sysibm.sysdummy1; 3、空值转换 Oracle：Select
所属分类：DB2
- 发布日期：2014-08-23
- 文件大小：621kb
- 提供者：zhaoxming

IKAnalyze.jar
IK分词器，又称为lucene中文分词公用组件。包括两个分析器：MIK_CAnalyzer使用最大全切分算法；IK_CAnalyzer使用细粒度全切分算
所属分类：Java
- 发布日期：2014-09-05
- 文件大小：864kb
- 提供者：lovewebeye

solr IKAnalyzer中文分词solr-dataimportscheduler.jar定时器
IKAnalyzer2012FF 中文分词 solr5 solr5.x 支持solr5.x版本，结合定时器，实现中文分词，定时增量刷新，方便全文检索增量实现；
所属分类：Java
- 发布日期：2017-09-06
- 文件大小：1mb
- 提供者：u011614254

solr ik中文分词
包含内容：IKAnalyzer中文分词器V2012使用手册.pdf；机械词汇大全【官方推荐】；深蓝词库转换.exe；中文分词词库打包50万词汇；IKAnalyzer-5.0.jar
所属分类：Java
- 发布日期：2018-05-02
- 文件大小：10mb
- 提供者：hyteddy

C++网络爬虫项目
WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网络爬虫实训项目文档版本： 1.0.0.1 编写单位：达内IT培训集团 C++教学研发部编写人员：闵卫定稿日期： 2015年11月20日星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述互联网产品形形色色，有产品导向的，有营销导向的，也有技术导向的，但是以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技术含量的产品，如果不是唯一，至少也是其中之一。经过十几年的发展
所属分类：C/C++
- 发布日期：2018-07-04
- 文件大小：4mb
- 提供者：qq15690515

lucene中文分词、同义词制作源码
lucene分词器demo，有lucene自带的分词器及其使用方法，也有mmseg分词及其使用、同义词的简单实现；
所属分类：Java
- 发布日期：2018-02-14
- 文件大小：2mb
- 提供者：qq_33999844

pytorch实现task4——机器翻译及相关技术；注意力机制与Seq2seq模型；Transformer
机器翻译机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。其主要的步骤包括数据预处理、分词、建立词典、载入数据集、Encoder-decoder、seq2seq等。注意力机制与Seq2seq模型在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经
所属分类：其它
- 发布日期：2021-01-06
- 文件大小：64kb
- 提供者：weixin_38705723

pytorch_task4机器翻译及相关技术；注意力机制与Seq2seq模型
机器翻译机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。步骤： 1、数据预处理。将数据集清洗、转化为神经网络的输入minbatch 2、分词。字符串—单词组成的列表 3、建立词典。单词组成的列表—单词id组成的列表 4、Encoder-Decoder encoder：输入到隐藏状态 decoder：隐藏状态到输出 Sequence to Sequ
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：180kb
- 提供者：weixin_38728276

【NLP】之结巴分词
1.结巴分词简介结巴分词是当前效果较好的一种中文分词器，支持中文简体、中文繁体分词，同时还支持自定义词库。结巴分词支持三种分词模式：精确模式、全模式和搜索引擎模式。精确模式是试图将句子最精确的进行切分，适合用于文本分析；全模式的原理是把句子中全部可以成词的词语全部扫描出来，它的分词速度快，缺点是无法识别歧义词句；搜索引擎模式是在精确模式的基础上进一步处理的，它对较长的词语再进行分割，将召回率提高，适合于搜索引擎分词。结巴分词自带一个词典，内含20000多条词，及词条出现的次数与词
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：156kb
- 提供者：weixin_38531017

« 12 3 4 »