您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 分词和词性标注工具,非常好用

  2. 很好用的工具,可进行分词和词性标注!!!!!!!!!!!!!!!!!
  3. 所属分类:专业指导

    • 发布日期:2009-10-04
    • 文件大小:3145728
    • 提供者:SYC_SC
  1. 分词评测工具(bakeoff08)

  2. bakeoff08评测系统, 可以对中文分词, 命名实体识别, 词性标注 进行评测
  3. 所属分类:其它

    • 发布日期:2009-12-08
    • 文件大小:5242880
    • 提供者:kuidi
  1. lucene2.3.1

  2. 这是一个很好的分词工具。 java版源程序下在
  3. 所属分类:Java

    • 发布日期:2009-12-31
    • 文件大小:5242880
    • 提供者:xiaowus4305
  1. 中文自动分词&全文检索@统计工具(GBK版

  2. 本系统具备中文自动分词、全文检索、统计等基本功能,具体介绍如下: 1、中文自动分词 1)能对给定的中文文本进行自动分词、词性一级、词性二级标注; 2)支持大批量文本的自动分词及词性标注处理,可处理各级子文件夹下的文件; 3)能根据待分词及标注文本的类别,加挂用户自定义词典,进一步提高分词和标注的精确度; 4)用户可对系统词典进行扩展,可添加、删除、查看系统词典,可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典; 5)支持人名、地名、机构名等未登录词识别,支持基于GBK字符集的简、繁体
  3. 所属分类:专业指导

    • 发布日期:2010-04-22
    • 文件大小:3145728
    • 提供者:lonewar
  1. seo优化工具-中文分词工具

  2. seo优化工具-中文分词工具,有利于seo优化,检查seo是否合理。
  3. 所属分类:Java

    • 发布日期:2010-05-16
    • 文件大小:984064
    • 提供者:wangguofei9527
  1. ictclas中文分词系统Java版

  2. 基于中科院的ICTCLAS实现中文分词系统 开发工具是JAVA.经测试,效果很好
  3. 所属分类:Java

    • 发布日期:2011-04-23
    • 文件大小:2097152
    • 提供者:liuliufangfang
  1. IKAnalyzer--Java分词必备工具(源码+bin)

  2. IKAnalyzer--Java分词必备工具(源码+bin),学习分词的或需要用Java分词的可以下来看看,支持Lucene
  3. 所属分类:Java

    • 发布日期:2011-09-16
    • 文件大小:2097152
    • 提供者:yanyushu
  1. segment.zip

  2. 中科院分词工具下载,中科院的分词工具准确率高,在多个方面都能有很好的运用!
  3. 所属分类:Java

    • 发布日期:2011-10-19
    • 文件大小:4096
    • 提供者:longyifeixnjd
  1. 中文自动分词和词性标注

  2. 本资源包括源代码,ppt,技术报告,能够实现中文的自动分词,词性标注。代码是java编写,用eclipse工具实现。是我们自然语言的课程设计。供大家之用
  3. 所属分类:Java

    • 发布日期:2011-12-31
    • 文件大小:7340032
    • 提供者:hexiangnc
  1. IKAnalyzer分词源码

  2. IK Analyzer是一个开源的,基于java诧言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IK Analyzer 3.X则发展为面吐Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
  3. 所属分类:Java

    • 发布日期:2012-04-12
    • 文件大小:1048576
    • 提供者:datouyu1993
  1. 中文分词的自动评价程序

  2. 中文分词的自动评价工具,需要给定分词结果和参考结果。
  3. 所属分类:C++

    • 发布日期:2012-04-17
    • 文件大小:56320
    • 提供者:chadcai
  1. 中文分词工具jar包

  2. 源码是中科院的分词源码,将其引入项目中,进行生成jar包,很方便的引入到另一个项目中,推荐使用啊。
  3. 所属分类:Java

    • 发布日期:2012-08-01
    • 文件大小:1048576
    • 提供者:ll562009122
  1. 支持汉转拼和拼音分词的PHP中文工具类ChineseUtil

  2. 本文给大家推荐的是一款PHP的中文分词工具类,功能包括支持汉字转拼音、拼音分词、简繁互转。非常不错,有需要的小伙伴可以参考下
  3. 所属分类:其它

    • 发布日期:2020-10-18
    • 文件大小:56320
    • 提供者:weixin_38548817
  1. PHP中文分词的简单实现代码分享

  2. 当然, 本文不是要对中文搜索引擎做研究, 而是分享如果用 PHP 做一个站内搜索引擎。 本文是这个系统中的一篇。 我使用的分词工具是中科院计算所的开源版本的 ICTCLAS。 另外还有开源的 Bamboo, 我随后也会对该工具进行调研。 从 ICTCLAS 出发是个不错的选择, 因为其算法传播比较广泛, 有公开的学术文档, 并且编译简单, 库依赖少。 但目前只提供了 C/C++, Java 和 C# 版本的代码, 并没有 PHP 版本的代码。 怎么办呢? 也许可以学习它的 C/C++ 源码和学术
  3. 所属分类:其它

    • 发布日期:2020-12-18
    • 文件大小:54272
    • 提供者:weixin_38550334
  1. python使用jieba实现中文分词去停用词方法示例

  2. 前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式       1 精确模式,试图将句子最精确
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:51200
    • 提供者:weixin_38667581
  1. Python英文文本分词(无空格)模块wordninja的使用实例

  2. 在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢? 今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。 下面简单以实例看一下它的功能: def wordinjaFunc(): ''' https://github.com/yishuihanh
  3. 所属分类:其它

    • 发布日期:2020-12-31
    • 文件大小:51200
    • 提供者:weixin_38587155
  1. OpenNLP:驾驭文本,分词那些事

  2. 字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库,这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词,对于英文分词工具很多,笔者经比较ApacheOpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。维基百科:ApacheOpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包,它支持自然语言处理中一些共有的任务,例如:标记化、句子分割、词性标注、
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:187392
    • 提供者:weixin_38722464
  1. OpenNLP:驾驭文本,分词那些事

  2. 字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库,这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词,对于英文分词工具很多,笔者经比较Apache OpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。维基百科:ApacheOpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包,它支持自然语言处理中一些共有的任务,例如:标记化、句子分割、词性标注
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:187392
    • 提供者:weixin_38703123
  1. 第三章 3、1 文本预处理之分词(Word Segmentation)

  2. 一、大纲总览 1、tough资料:各类文本等的输入。 2、分词。好的分词算法很重要。 3、文本预处理。 4、标准化:单词的时态,单复数。都转换为最原始的。这时还是字符串。 5、特征提取:向量表示,thidf算法,w2w,seq2seq算法等等。 6、模型:向量有了,然后就是根据算法去匹配。 二、分词 可以直接用的分词工具。 1、分词算法之最大匹配 向前最大匹配、向后最大匹配、双向最大匹配(不讲) 向前最大匹配 1、首先输入一个句子,已知后建好的词典库,设置好窗口值(5) 2、窗口从第一个汉字
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:2097152
    • 提供者:weixin_38705873
  1. 使用 Node.js 对文本内容分词和关键词抽取

  2. 在讨论技术前先卖个萌,吃货的世界你不懂~~ 众成翻译的文章有 tag,用户可以基于 tag 来快速筛选感兴趣的文章,文章也可以依照 tag 关联来进行相关推荐。但是现在众成翻译的 tag 是在推荐文章的时候设置的,都是英文的,而且人工设置难免不规范和不完全。虽然发布文章后也可以人工编辑,但是我们也不能指望用户或管理员能够时时刻刻编辑出恰当的 tag,所以我们需要用工具来自动生成 tag。 在现在开源的分词工具里面,jieba是一个功能强大性能优越的分词组件,更幸运地是,它有 node 版本。
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:116736
    • 提供者:weixin_38739101
« 1 2 3 4 5 6 78 9 10 11 12 ... 40 »