搜索资源 - 文本分词词典 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 文本分词词典

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

纯文本词典中文分词分词文本文本词典
文本词典中文分词分词文本纯文本词典中文分词分词文本文本词典信息检索
所属分类：Java
- 发布日期：2009-06-15
- 文件大小：1mb
- 提供者：behappy373

中文分词的切分词典（词性标注,数据库为基础的文本分类检索过滤
用于中文分词的切分词典,还有词性标注,以这个词典数据库为基础建立文本分类,文本检索或文本过滤可以节省很多时间.很全,强烈推荐
所属分类：专业指导
- 发布日期：2009-09-21
- 文件大小：213kb
- 提供者：manuxiao

中文自动分词&全文检索@统计工具(GBK版
本系统具备中文自动分词、全文检索、统计等基本功能，具体介绍如下： 1、中文自动分词 1）能对给定的中文文本进行自动分词、词性一级、词性二级标注； 2）支持大批量文本的自动分词及词性标注处理，可处理各级子文件夹下的文件； 3）能根据待分词及标注文本的类别，加挂用户自定义词典，进一步提高分词和标注的精确度； 4）用户可对系统词典进行扩展，可添加、删除、查看系统词典，可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典； 5）支持人名、地名、机构名等未登录词识别，支持基于GBK字符集的简、繁体
所属分类：专业指导
- 发布日期：2010-04-22
- 文件大小：3mb
- 提供者：lonewar

灵柩软件可用于汉语分词处理
LJParser文本搜索与挖掘开发平台的十大功能： 1. 全文精准检索支持文本、数字、日期、字符串等各种数据类型，多字段的高效搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现：从文件集合中挖掘出内涵的新词语列表，可以用于用户专业词典的编撰；还可以进一步编辑标注，导入分词词典中，从而提高分词系统的准确度，并适应新的语言变化。 3. 分词标注：对原始语料进行分词
所属分类：Web开发
- 发布日期：2010-11-05
- 文件大小：672kb
- 提供者：zhangguoqiang52

中文分词十年回顾自动分词系统
过去的十年间，尤其是2003年国际中文分词评测活动Bakeoff开展以来，中文自动分词技术有了可喜的进步。其主要表现为：(1)通过“分词规范+词表+分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；(2)实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；(3)在Bakeoff数据上的评估结果表明，未登录词造成的分词精度失落至少比分词歧义大5倍以上；(4)实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于
所属分类：其它
- 发布日期：2011-04-10
- 文件大小：1mb
- 提供者：lwccb

ICTCLAS2009版中文分词系统
中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。我们先后精心打造五年，内核升级7次，目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词，调节分词的效果。提高了用户词典使用的灵活性。分词粒度可调可以
所属分类：C++
- 发布日期：2012-01-02
- 文件大小：9mb
- 提供者：yahawami

中科院分词器ICTCLAS
中科院语义分词 ICTCLAS 中科院官方于2009年2月19日发布了中科院中文分词器ICTCLAS2009版，转引官方介绍说明，新版本的中文分词系统在原有的基础上主要完善的有： 1、用户词典接口扩展用户可以动态增加、删除用户词典中的词，调节分词的效果。提高了用户词典使用的灵活性。 2、分词粒度可调可以控制分词结果的粒度。共享版本提供两种分词粒度，标准粒度和粗粒度，满足不同用户的需求。 3、词性标注功能加强多种标注级的选择，系统可供选择的标注级有：计算所一级标注级，计算所二级标注集，北大
所属分类：Web开发
- 发布日期：2012-03-08
- 文件大小：2mb
- 提供者：abing79

汉语文本自动分词算法
最牛的分词算法，可直接应用：分析了中文分词词典的机制，提出了一种改进的整词分词字典结构，并针对机械分词算法的特点，将其与概率算法相结合，探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明，该算法具有较高的分词效率和准确率，对于消去歧义词也有较好的性能。
所属分类：其它
- 发布日期：2012-03-30
- 文件大小：287kb
- 提供者：zmzbs123

python前向逆向最大匹配分词
基于词典的前向逆向最大匹配分词，词典自己生成，用utf8文本文件存储即可
所属分类：Python
- 发布日期：2012-07-04
- 文件大小：2kb
- 提供者：netspy2000

信息检索中knn分类器
代码包括两部分：第一部分：控制台程序，实现了包括从下载网页到构建vsm的knn分类的整个预处理过程。设计到下载网页、提取网页文本、将文本分词（用到计算所分词系统）、构建词典及vsm。第二部分：knn分类器。
所属分类：C++
- 发布日期：2012-09-11
- 文件大小：17mb
- 提供者：handongyexue

中文分词用统计词频词典，一词一行
中文分词用统计词频词典，一词一行，txt文本保存
所属分类：其它
- 发布日期：2013-03-27
- 文件大小：2mb
- 提供者：cseedwyt

pscws23-20081221.tar.bz2【中文分词】
php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为
所属分类：PHP
- 发布日期：2013-09-08
- 文件大小：2mb
- 提供者：yao__shun__yu

各种分词技术的源代码（超全）
包含文件（为本人网上souji）最大概率分词法.rar 小叮咚分词.rar 文本分词词典.rar xerdoc分词.rar ICTCLAS.rar CSharp分词.rar
所属分类：专业指导
- 发布日期：2008-10-01
- 文件大小：19mb
- 提供者：oyzdz1988

JAVA版本，每秒约10万汉字，基于词典的中文纯文本分词程序
java版本基于词典匹配，速度为每秒约10万个汉字，本人测试。同时生成倒排索引，倒排索引包含了对于分词的相关信息，如词频。若有Bug可与我联系。
所属分类：Java
- 发布日期：2013-12-20
- 文件大小：122kb
- 提供者：zhukova

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法
word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file
所属分类：Java
- 发布日期：2014-11-05
- 文件大小：10mb
- 提供者：love_hachi

结巴分词jar包
jieba “结巴”中文分词：做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以
所属分类：Java
- 发布日期：2017-05-15
- 文件大小：2mb
- 提供者：subson

文本分词词典分词搜索引擎
最近在学搜索引擎。希望对大家有用。看一下吧。我还传了另外的分词方法。
所属分类：专业指导
- 发布日期：2008-12-18
- 文件大小：213kb
- 提供者：wsnzou

VC++ C# 多种分词方法
含有多个分词算法。毕业设计的时候获得的，希望对大家在汉字处理中能用的到。 ICTCLAS算法，中科院，对名字识别能力很强。VC开发。 CSharp分词，向前匹配加向后最大匹配，C#开发，容易扩展。小叮咚分词，由后向前最大匹配，C＃开发。 xerdoc分词，基于ICTCLAS的Java版本分词。文本分词词典，分词的词典，可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope for all t
所属分类：C++
- 发布日期：2008-12-28
- 文件大小：19mb
- 提供者：abc1990fly

ICTCLAS2009版中文分词系统
中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。我们先后精心打造五年，内核升级7次，目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词，调节分词的效果。提高了用户词典使用的灵活性。分词粒度可调可以
所属分类：嵌入式
- 发布日期：2009-02-23
- 文件大小：9mb
- 提供者：zhangshibin8500

python实现机械分词之逆向最大匹配算法代码示例
逆向最大匹配方法有正即有负，正向最大匹配算法大家可以参阅//www.jb51.net/article/127404.htm 逆向最大匹配分词是中文分词基本算法之一，因为是机械切分，所以它也有分词速度快的优点，且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上，从被处理文档的末端开始匹配扫描，每次取最末端的i个字符（分词所确定的阈值i）作为匹配字段，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。而且选择的阈值越大，分词越慢，但准确性越好。逆
所属分类：其它
- 发布日期：2020-12-24
- 文件大小：155kb
- 提供者：weixin_38713996

« 12 3 4 5 6 »