您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. IKAnalyzer 3.0 中文分词器

  2. 1.IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer 已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.2IKAnalyzer3.0特性 * 采用了特有的“正向迭代最细粒度切分
  3. 所属分类:其它

    • 发布日期:2009-07-21
    • 文件大小:1mb
    • 提供者:linliangyi2006
  1. SVMCLS 文本自动分类器(可编译Release完整版)--李荣陆

  2. 之前的最好资源描述如下: svmcls 2.0文本自动分类器支持中文和英文文档,特征选择方式包括全局和按类别选取,概率估算方法支持基于文档(布尔)统计和基于词频统计,支持三种特征加权方式,特征评估函数包括信息增益、互信息、期望交叉熵、X^2统计,文本证据权重,右半信息增益,分类方法包括支持向量机SVM和K近邻KNN,由李荣陆老师于2004年开发完成。 网上流传很多版本的svmcls文本分类程序,但几乎全部都是不能编译通过的,有些是缺少xercesc文件夹,有些是缺少xerces-c_2_2_0
  3. 所属分类:C

    • 发布日期:2010-09-21
    • 文件大小:9mb
    • 提供者:superyangtze
  1. 基于相邻词的中文关键词自动抽取

  2. 请先下载CAJ阅读器 对于单编文档d自动提取关键词的算法如下所述; 1 使用基于词典的正向最小分词算法对文档进行分词。 2统计出文档d中每个词t在d中的TF,并将每个词在d中的权重Wt.....
  3. 所属分类:其它

    • 发布日期:2010-11-09
    • 文件大小:72kb
    • 提供者:qdfch
  1. IKAnalyzer中文分词器V3.2.X使用手册

  2. 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
  3. 所属分类:Java

    • 发布日期:2011-08-03
    • 文件大小:489kb
    • 提供者:feiyu84
  1. IKAnalyzer中文分词器V2012使用手册

  2. 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
  3. 所属分类:Java

    • 发布日期:2012-03-13
    • 文件大小:828kb
    • 提供者:mailjava
  1. ICTCLAS分词器

  2. 开源分词器,提供文档,类库,可以有效的分词,简单易用
  3. 所属分类:C++

    • 发布日期:2012-10-23
    • 文件大小:8mb
    • 提供者:quitepig
  1. Excel表格的35招必学秘技(快速成为高手).doc

  2. Excel表格的35招必学秘技(快速成为高手).doc Excel表格的35招必学秘技,必看! 也许你已经在Excel中完成过上百张财务报表,也许你已利用Excel函数实现过上千次的复杂运算,也许你认为Excel也不过如此,甚至了无新意。但我们平日里无数次重复的得心应手的使用方法只不过是Excel全部技巧的百分之一。本专题从Excel中的一些鲜为人知的技巧入手,领略一下关于Excel的别样风情。 一、让不同类型数据用不同颜色显示   在工资表中,如果想让大于等于2000元的工资总额以“红色”显
  3. 所属分类:专业指导

    • 发布日期:2012-12-15
    • 文件大小:179kb
    • 提供者:wangyu519
  1. 中文分词器nlpir Java32位开发接口

  2. 需配合完整开发包使用,NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。
  3. 所属分类:Java

    • 发布日期:2013-04-15
    • 文件大小:770kb
    • 提供者:wskings
  1. 分词器NLPIR

  2. 目前NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。国内国际排名均为第一。 项目已经配置好环境,导入Eclipse即可使用,文件内src下的TestUTF8.java可以直接运行,提供了分词接口
  3. 所属分类:Java

    • 发布日期:2014-01-21
    • 文件大小:4mb
    • 提供者:reacherxu
  1. 最好用的中文分词器 IKAnalyzer

  2. 最好用的中文分词器 IKAnalyzer ;独立于lusence,更为强大和好用,谁用谁知道
  3. 所属分类:Java

    • 发布日期:2014-07-02
    • 文件大小:1mb
    • 提供者:mlc0202
  1. 基于中文的Shuzhen分词器1.1.4提供下载

  2. 此版本改进为:分词时采用了完全匹配方式(自命名的),也即将符合字典条目的词全部切分出来,在基于字典的分词中达到了“分无可分”的程度;分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如highlighter一起使用时,能准确无误的将命中进行高亮显示,避免了Google高亮显示的 Bug;配置文件的存放支持相对路径,这样更灵活,更方便应用在一些虚拟机上;字典条目支持导入到内存中,也就是在原有JDBM字典系统的基础上增加内存字典系统,且能方便自定义导入多少条目到内存中,能自定义使用内存还
  3. 所属分类:专业指导

    • 发布日期:2008-10-22
    • 文件大小:814kb
    • 提供者:yuanjian0211
  1. oracle和db2常用语法比较

  2. oracl 和db2 常用语法比较: 1、取前N条记录 Oracle:Select * from TableName where rownum <= N; DB2:Select * from TableName fetch first N rows only; 2、取得系统日期 Oracle:Select sysdate from dual; DB2:Select current timestamp from sysibm.sysdummy1; 3、空值转换 Oracle:Select
  3. 所属分类:DB2

    • 发布日期:2014-08-23
    • 文件大小:621kb
    • 提供者:zhaoxming
  1. IKAnalyze.jar

  2. IK分词器,又称为lucene中文分词公用组件。包括两个分析器:MIK_CAnalyzer使用最大全切分算法;IK_CAnalyzer使用细粒度全切分算
  3. 所属分类:Java

    • 发布日期:2014-09-05
    • 文件大小:864kb
    • 提供者:lovewebeye
  1. solr IKAnalyzer中文分词solr-dataimportscheduler.jar定时器

  2. IKAnalyzer2012FF 中文分词 solr5 solr5.x 支持solr5.x版本,结合定时器,实现中文分词,定时增量刷新,方便全文检索增量实现;
  3. 所属分类:Java

    • 发布日期:2017-09-06
    • 文件大小:1mb
    • 提供者:u011614254
  1. solr ik中文分词

  2. 包含内容:IKAnalyzer中文分词器V2012使用手册.pdf;机械词汇大全【官方推荐】;深蓝词库转换.exe;中文分词词库打包50万词汇;IKAnalyzer-5.0.jar
  3. 所属分类:Java

    • 发布日期:2018-05-02
    • 文件大小:10mb
    • 提供者:hyteddy
  1. C++网络爬虫项目

  2. WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是 以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技 术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展
  3. 所属分类:C/C++

    • 发布日期:2018-07-04
    • 文件大小:4mb
    • 提供者:qq15690515
  1. lucene中文分词、同义词制作源码

  2. lucene分词器demo,有lucene自带的分词器及其使用方法,也有mmseg分词及其使用、同义词的简单实现;
  3. 所属分类:Java

    • 发布日期:2018-02-14
    • 文件大小:2mb
    • 提供者:qq_33999844
  1. pytorch实现task4——机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

  2. 机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 其主要的步骤包括数据预处理、分词、建立词典、载入数据集、Encoder-decoder、seq2seq等。 注意力机制与Seq2seq模型 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:64kb
    • 提供者:weixin_38705723
  1. pytorch_task4机器翻译及相关技术;注意力机制与Seq2seq模型

  2. 机器翻译 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 步骤: 1、数据预处理。将数据集清洗、转化为神经网络的输入minbatch 2、分词。字符串—单词组成的列表 3、建立词典。单词组成的列表—单词id组成的列表 4、Encoder-Decoder encoder:输入到隐藏状态 decoder:隐藏状态到输出 Sequence to Sequ
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:180kb
    • 提供者:weixin_38728276
  1. 【NLP】之 结巴分词

  2. 1.结巴分词简介 结巴分词是当前效果较好的一种中文分词器,支持中文简体、中文繁体分词,同时还支持自定义词库。 结巴分词支持三种分词模式:精确模式、全模式和搜索引擎模式。 精确模式是试图将句子最精确的进行切分,适合用于文本分析; 全模式的原理是把句子中全部可以成词的词语全部扫描出来,它的分词速度快,缺点是无法识别歧义词句; 搜索引擎模式是在精确模式的基础上进一步处理的,它对较长的词语再进行分割,将召回率提高,适合于搜索引擎分词。 结巴分词自带一个词典,内含20000多条词,及词条出现的次数与词
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:156kb
    • 提供者:weixin_38531017
« 12 3 4 »