您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. IKAnalyzer 3.0 中文分词器

  2. 1.IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer 已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.2IKAnalyzer3.0特性 * 采用了特有的“正向迭代最细粒度切分
  3. 所属分类:其它

    • 发布日期:2009-07-21
    • 文件大小:1048576
    • 提供者:linliangyi2006
  1. IKAnalyzer3.1.2GA_AllInOne

  2. IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理能力。 采用了
  3. 所属分类:其它

    • 发布日期:2009-09-15
    • 文件大小:1048576
    • 提供者:johney521
  1. 中文分词处理技术源代码

  2. 专业提供中文分词扩展和中文词库。使中文分词,全文搜索不再是难点,一个函数即完成分词。然后即可把分词后的结果存储,再使用sphinx,Lucene等进行索引搜索了。
  3. 所属分类:其它

    • 发布日期:2010-07-28
    • 文件大小:507904
    • 提供者:y34ml
  1. IKAnalyzer中文分词器V3.2.X使用手册

  2. 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
  3. 所属分类:Java

    • 发布日期:2011-08-03
    • 文件大小:500736
    • 提供者:feiyu84
  1. IKAnalyzer中文分词器V2012使用手册

  2. 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吐血推荐);采用歧义分析算法优化查询关键字的搜索排列组合,能极大的提高Lucene检索的命中率。
  3. 所属分类:Java

    • 发布日期:2012-03-13
    • 文件大小:847872
    • 提供者:mailjava
  1. ICA中文分词软件

  2. 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
  3. 所属分类:其它

    • 发布日期:2014-11-16
    • 文件大小:6291456
    • 提供者:u010608070
  1. IKAnalyzer3.1.6GA完整包

  2. 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
  3. 所属分类:Java

    • 发布日期:2017-08-31
    • 文件大小:1048576
    • 提供者:zhongzhangzhi
  1. IK-Analyzer 分词器所需要的配置文件、扩展词典及停用词词典 完整包下载

  2. IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。 Linux下Solr4.10.4搜索引擎的安装与部署图文详解 : http://blog.csdn.net/Hello_World_QWP/article/details/7
  3. 所属分类:其它

    • 发布日期:2017-12-25
    • 文件大小:1048576
    • 提供者:hello_world_qwp
  1. IK-Analyzer 中文分词器必须依赖的 IKAnalyzer2012FF_u1.jar包 下载

  2. IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
  3. 所属分类:其它

    • 发布日期:2017-12-25
    • 文件大小:1048576
    • 提供者:hello_world_qwp
  1. HBase视频教程下载|基于微博数据应用的HBase实战开发

  2. 当数据量达到TB或PB级的时候,传统关系型数据型已力不从心。在大数据热潮中,推出了NoSQL数据库,这种天生就为分布式存储而设计的技术,尤其以Apache HBase为代表,占领海量数据存储技术的大半壁江山。本教视从实战角度出来,向学员们手把手掌握HBase使用精髓,让学员达到如下目标: 1. 了解分布式存储的原理及架构。 2. 掌握如何使用HBase实现海量数据存储与检索。 3. 掌握HBase在开发中常见的技术大坑与调优技术。 课时1:HBase简介与部署 课时2:HBase架构与索引算法
  3. 所属分类:Hbase

    • 发布日期:2018-01-02
    • 文件大小:2048
    • 提供者:qq_37494422
  1. IKAnalyzer中文分词器 3.2.0 源码包.rar

  2. IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了
  3. 所属分类:其它

    • 发布日期:2019-05-25
    • 文件大小:1048576
    • 提供者:weixin_39840515
  1. IKAnalyzer中文分词器 v3.2 使用手册.rar

  2. IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。 采用了
  3. 所属分类:其它

    • 发布日期:2019-07-09
    • 文件大小:420864
    • 提供者:weixin_39840650
  1. IKAnalyzer-3.2.8.jar

  2.   IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。 IK Analyzer 3.2.8特性 采用了特有的“正吐迭代最细粒度切分算法“,支持细粒度和最大词长两种切分模式;具有83万字/秒(1600KB/S)的高速处理能力。 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符 优化的词典存储,更小的内存占用。支持用户词典扩展定义 针对Lucene全文检索优化的查询分析器IKQueryParser(作者吏血推荐);引入简单搜索表
  3. 所属分类:Java

    • 发布日期:2019-08-07
    • 文件大小:1048576
    • 提供者:wahngzhuzhuzhu
  1. elasticsearch-analysis-ik-6.8.2.zip

  2. IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算 法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提 供了对Lucene的默认优化实现。 采用了特有的“正向迭代最细粒度切分算法“,具有80万字/秒的高速处理能力 采用了多子处理器分析模式
  3. 所属分类:Java

    • 发布日期:2020-01-15
    • 文件大小:4194304
    • 提供者:jksfkdjksdfjkjk
  1. 新闻情感方向判断方法、电子设备及计算机可读存储介质.pdf

  2. 使用深度学习和模型的方法,判断非结构化文本的情绪倾向CN107688651A 权利要求书 2/2页 若从该待预测新闻的标题和正文中没有识别出所述第一文件中的事件关键词,且没有 识别岀与所述第二文件中的事件正则表达式符合的内容,则将所述预定的机器学习算法获 取的该待预测新闻的情感分数作为该待预测新闻的最终评分。 8.如权利要求7所述的新闻情感方向判断方法,其特征在于,所述调整所述预定的机器 学习算法获取的该待狈测新闻的情感分数还包括: 若从该待预测新闻的标题和正文中识别出与所述第二文件中的事件正则
  3. 所属分类:机器学习

    • 发布日期:2019-07-12
    • 文件大小:649216
    • 提供者:lanhao5635865
  1. IK Analyzer 开源中文分词 2012 u6.zip

  2. IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开 始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词 歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 IK Analyz
  3. 所属分类:其它

    • 发布日期:2019-07-06
    • 文件大小:2097152
    • 提供者:weixin_39840650
  1. Transformer-product-categorization:트랜스포머자연어처리반리카테고리분류-源码

  2. 基于变压器的产品分类模型 给定文本中的产品名称,请使用基于变压器的分类模型对其类别进行分类。 内容 数据集 数据集包含超过120万种产品名称及其标签。 类别标签的数量是3,827。 结构 模型结构的概述将在下面说明。 分词器 在此模型中,使用了BPE(字节对编码)令牌化方法。 谷歌提供了非官方指定包 。 BPE根据文本的频率将文本拆分为子词标记。 它列出了指定数字(vocab_size)的词汇表,在这个项目中,我为vocab_size使用了40,000。 [例子] 有关BPE和WPM(
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:119808
    • 提供者:weixin_42098104
  1. sbnltk:Bangla NLP工具箱。 Bangla NER,POStag,Stemmer,单词嵌入,句子嵌入,摘要,预处理器等-源码

  2. SBNLTK Bangla NLP工具箱。 这里实现了不同类型的NLP模型。 演示版本:1.0 安装 PYPI安装 pip3 install sbnltk 从GITHUB手动安装 克隆此项目 安装所有要求 从终端调用setup.py 任务和模型 任务 模型 准确性 数据集 关于 代码DOCS 预处理器 标点,停止单词,除尘单词标准化,其他.. ------ ----- 单词分词器 基本令牌生成器定制令牌生成器 - - 句子标记器 基本令牌生成器定制令牌生成器句子集群 -----
  3. 所属分类:其它

    • 发布日期:2021-03-12
    • 文件大小:41984
    • 提供者:weixin_42138376
  1. toiro:日语标记器的比较工具-源码

  2. 托罗 Toiro是日语标记器的比较工具。 比较令牌生成器的处理速度 比较分词器中分段的词 通过对应用程序任务(例如文本分类)进行基准测试来比较令牌生成器的性能 它还为日语自然语言处理提供有用的功能。 日语文本语料库的数据下载器 这些语料库的预处理器 日语文本的文本分类器(例如,SVM,BERT) 安装 需要Python 3.6以上版本。 您可以使用以下命令安装toiro。 包含在默认安装中。 pip install toiro 将标记器添加到toiro 如果要将标记器添加到toiro,
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:738304
    • 提供者:weixin_42138716
  1. Image2Smiles:给定一个分子的图像,会产生微笑或摩尔表达-源码

  2. Image2Smiles 为了挖掘大量的化学文献,我们需要创建一个处理器,给定的分子会生成SMILES字符串。 我们将此问题视为图像字幕问题。 给定一个Image产生相关的标题。 高水平 注意分词器需要区分大小写。 细节 设置 通过运行以下命令来创建环境 conda env create -f environment.yaml 数据 数据是一堆不同的SMILES分子的集合。 将这些微笑的字符串连接在一起,随机排列,然后从每个字符串中创建图像。 验证和评估集包含100,000个图像和微笑标题。
  3. 所属分类:其它

    • 发布日期:2021-03-27
    • 文件大小:700416
    • 提供者:weixin_42097819
« 12 »