搜索资源 - 英文分词工具 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 英文分词工具

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

IKAnalyzer 3.0 中文分词器
1.IKAnalyzer3.0介绍 IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer 已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。 1.2IKAnalyzer3.0特性 * 采用了特有的“正向迭代最细粒度切分
所属分类：其它
- 发布日期：2009-07-21
- 文件大小：1048576
- 提供者：linliangyi2006

英文分词工具
这是一个英文分词工具里面有详细的介绍使用方法
所属分类：Perl
- 发布日期：2012-10-28
- 文件大小：3145728
- 提供者：ss13941126629

ikanalyer2012
最好用的中文分词工具，支持中文，英文，数字混搭
所属分类：其它
- 发布日期：2012-12-04
- 文件大小：2097152
- 提供者：zrh204

pscws23-20081221.tar.bz2【中文分词】
php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为
所属分类：PHP
- 发布日期：2013-09-08
- 文件大小：2097152
- 提供者：yao__shun__yu

文档工具-文档内容检索
工具设计初衷为文件管理目录麻烦，文件多，不方便检索，内容搜索不到等问题。网上关于这方面的工具非常少，而且功能差，微软的内容检索不够好用，对于中文和英文分词不理想。联系作者：yyjavin@163.com 文档工具的特点： 1.首先编辑文档目录 2.给目录批量录入文件 3.文件会本地存储一份 4.检索文件内容 5.更多特性请查看帮助文档操作技巧说明性能方面： 1.工具占用内存低，可以长时间挂机电脑中 2.检索和录入数据快 3.工具无第三方插件和后门，如果杀毒软件提示病毒，建议设置可信任 4
所属分类：其它
- 发布日期：2014-02-26
- 文件大小：2097152
- 提供者：javin2009

结巴分词Python代码
结巴分词，很不错的分词工具，python写的，亲身试用，不管英文还是中文分得很准！
所属分类：Python
- 发布日期：2014-08-26
- 文件大小：6291456
- 提供者：csdn20140826

SEO发词工具
刨丁解羊中文分词器，主要用于对网络蜘蛛或网络爬虫抓取的网页进行分词，支持繁体中文分词、简体中文分词、英文分词，是制作通用搜索引擎和垂直搜索引擎的核心组件。该软件在普通PC机器上测试显示：TXT格式正文分词速度约为3000万字/分钟，网页分词速度约为277.8个网页/秒。该软件采用基础词库（63万词语）+扩展词库（用户可手工添加新词）。DLL及OCX 调用请联系QQ(601069289)。
所属分类：网络基础
- 发布日期：2014-08-28
- 文件大小：57344
- 提供者：hongling2014

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法
word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file
所属分类：Java
- 发布日期：2014-11-05
- 文件大小：10485760
- 提供者：love_hachi

stanford-postagger-2015-04-20
斯坦福大学分词工具英文
所属分类：教育
- 发布日期：2016-05-17
- 文件大小：24117248
- 提供者：u011081315

盘古分词2.3.1.0
盘古分词可以根据词频来解决分词的歧义题目多元分词盘古分词提供多重输入解决分词粒度和分词精度衡量的问题详见eaglet/archive/2008/10/02/.html 中文人名识别输入：“张三说切实其实实在理” 分词了局：张三/说/的/确实/在理/ 输入“李三买了一张三角桌子” 分词结果：李三/买/了/一张/三角/桌子/ 详见eaglet/archive/2009/08/19/.html 强逼一元分词输入“张三说的确实在理” 分词结果：中文。张(0,1)/张三(0,5)/三说的(1,
所属分类：C#
- 发布日期：2017-08-18
- 文件大小：207872
- 提供者：xzhanjing55

IK-Analyzer 分词器所需要的配置文件、扩展词典及停用词词典完整包下载
IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。 Linux下Solr4.10.4搜索引擎的安装与部署图文详解 : http://blog.csdn.net/Hello_World_QWP/article/details/7
所属分类：其它
- 发布日期：2017-12-25
- 文件大小：1048576
- 提供者：hello_world_qwp

IK-Analyzer 中文分词器必须依赖的 IKAnalyzer2012FF_u1.jar包下载
IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的高速处理能力。采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。
所属分类：其它
- 发布日期：2017-12-25
- 文件大小：1048576
- 提供者：hello_world_qwp

中文分词学习版
此为学习版，请勿用于商业用途或扩散。以下描述转至互联网。 ============== 一、CSW中分词组件简介 CSW中文分词组件，是一套可自动将一段文本按常规汉语词组进行拆分，并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分算法，具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要，本组件同时提供词性及词频标注功能，可根据用户要求，对其拆分后的词组进行词性标注或词频标注。互联网信息检索、数据库信息查询、智能聊天机器人、文本校对、自动翻译、自
所属分类：机器学习
- 发布日期：2018-10-11
- 文件大小：1048576
- 提供者：weixin_43387663

IKAnalyzer中文分词器 3.2.0 源码包.rar
IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。 IKAnalyzer3.0特性: 采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。采用了
所属分类：其它
- 发布日期：2019-05-25
- 文件大小：1048576
- 提供者：weixin_39840515

IK Analyzer 开源中文分词 2012 u6.zip
IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 IK Analyz
所属分类：其它
- 发布日期：2019-07-06
- 文件大小：2097152
- 提供者：weixin_39840650

Python英文文本分词(无空格)模块wordninja的使用实例
在NLP中，数据清洗与分词往往是很多工作开始的第一步，大多数工作中只有中文语料数据需要进行分词，现有的分词工具也已经有了很多了，这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理，如果英文数据中没有了空格，那么应该怎么处理呢？今天介绍一个工具就是专门针对上述这种情况进行处理的，这个工具叫做：wordninja，地址在这里。下面简单以实例看一下它的功能: def wordinjaFunc(): ''' https://github.com/yishuihanh
所属分类：其它
- 发布日期：2020-12-31
- 文件大小：51200
- 提供者：weixin_38587155

OpenNLP：驾驭文本，分词那些事
字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库，这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词，对于英文分词工具很多，笔者经比较ApacheOpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。维基百科：ApacheOpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包，它支持自然语言处理中一些共有的任务，例如：标记化、句子分割、词性标注、
所属分类：其它
- 发布日期：2021-02-24
- 文件大小：187392
- 提供者：weixin_38722464

Min_NLP_Practice：使用CNN双向lstm和crf模型并带有char嵌入功能的中英文Cws Pos Ner实体识别工具。基于字向量的CNN池化双向BiLSTM与CRF模型的网络，可能的一体化完成标记，实体识别。主要包括原始文本
CwsPosNerEntityRecognition 中英文Cws Pos Ner实体识别工具，使用CNN双向lstm和crf模型，并带有char嵌入。基于字向量的CNN池化双向BiLSTM与CRF模型的网络，可能一体化的完成中文和英文分词，词性标注，实体识别。主要包括原始文本数据，数据转换，训练脚本，预训练模型，可用于序列标注研究。注意：唯一需要实现的逻辑是将用户数据转化为序列模型。分词准确率约为93％，词性标注准确率约为90％，实体标注（在本样本上）约为85％。提示中文分词，词性标注，
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：54525952
- 提供者：weixin_42135073

OpenNLP：驾驭文本，分词那些事
字符串、字符数组以及其他文本表示的处理库构成大部分文本处理程序的基础。大部分语言都包括基本的处理库，这也是对文本处理或自然语言处理的前期必要工作。典型代表便是分词、词性标注、句子识别等等。本文所介绍的工具主要针对英文分词，对于英文分词工具很多，笔者经比较Apache OpenNLP效率和使用便捷度较好。另外其针对Java开发提供开源的API。维基百科：ApacheOpenNLP库是一个基于机器学习的自然语言文本处理的开发工具包，它支持自然语言处理中一些共有的任务，例如：标记化、句子分割、词性标注
所属分类：其它
- 发布日期：2021-01-27
- 文件大小：187392
- 提供者：weixin_38703123

使用 Node.js 对文本内容分词和关键词抽取
在讨论技术前先卖个萌，吃货的世界你不懂~~ 众成翻译的文章有 tag，用户可以基于 tag 来快速筛选感兴趣的文章，文章也可以依照 tag 关联来进行相关推荐。但是现在众成翻译的 tag 是在推荐文章的时候设置的，都是英文的，而且人工设置难免不规范和不完全。虽然发布文章后也可以人工编辑，但是我们也不能指望用户或管理员能够时时刻刻编辑出恰当的 tag，所以我们需要用工具来自动生成 tag。在现在开源的分词工具里面，jieba是一个功能强大性能优越的分词组件，更幸运地是，它有 node 版本。
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：116736
- 提供者：weixin_38739101

« 12 3 »