您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 纯文本词典 中文分词 分词文本 文本词典

  2. 文本词典 中文分词 分词文本 纯文本词典 中文分词 分词文本 文本词典 信息检索
  3. 所属分类:Java

    • 发布日期:2009-06-15
    • 文件大小:1mb
    • 提供者:behappy373
  1. 中文分词的切分词典(词性标注,数据库为基础的文本分类检索过滤

  2. 用于中文分词的切分词典,还有词性标注,以这个词典数据库为基础建立文本分类,文本检索或文本过滤可以节省很多时间.很全,强烈推荐
  3. 所属分类:专业指导

    • 发布日期:2009-09-21
    • 文件大小:213kb
    • 提供者:manuxiao
  1. 中文自动分词&全文检索@统计工具(GBK版

  2. 本系统具备中文自动分词、全文检索、统计等基本功能,具体介绍如下: 1、中文自动分词 1)能对给定的中文文本进行自动分词、词性一级、词性二级标注; 2)支持大批量文本的自动分词及词性标注处理,可处理各级子文件夹下的文件; 3)能根据待分词及标注文本的类别,加挂用户自定义词典,进一步提高分词和标注的精确度; 4)用户可对系统词典进行扩展,可添加、删除、查看系统词典,可将系统词典输出为TXT文本编辑后再转换为系统用的电子词典; 5)支持人名、地名、机构名等未登录词识别,支持基于GBK字符集的简、繁体
  3. 所属分类:专业指导

    • 发布日期:2010-04-22
    • 文件大小:3mb
    • 提供者:lonewar
  1. 灵柩软件 可用于汉语分词处理

  2. LJParser文本搜索与挖掘开发平台的十大功能: 1. 全文精准检索 支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词
  3. 所属分类:Web开发

    • 发布日期:2010-11-05
    • 文件大小:672kb
    • 提供者:zhangguoqiang52
  1. 中文分词十年回顾 自动分词系统

  2. 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进 步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定 义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计 学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以 上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于
  3. 所属分类:其它

    • 发布日期:2011-04-10
    • 文件大小:1mb
    • 提供者:lwccb
  1. ICTCLAS2009版中文分词系统

  2. 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展 用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。 分词粒度可调 可以
  3. 所属分类:C++

    • 发布日期:2012-01-02
    • 文件大小:9mb
    • 提供者:yahawami
  1. 中科院分词器ICTCLAS

  2. 中科院语义分词 ICTCLAS 中科院官方于2009年2月19日发布了中科院中文分词器ICTCLAS2009版,转引官方介绍说明,新版本的中文分词系统在原有的基础上主要完善的有: 1、用户词典接口扩展 用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。 2、分词粒度可调 可以控制分词结果的粒度。共享版本提供两种分词粒度,标准粒度和粗粒度,满足不同用户的需求。 3、词性标注功能加强 多种标注级的选择,系统可供选择的标注级有:计算所一级标注级,计算所二级标注集,北大
  3. 所属分类:Web开发

    • 发布日期:2012-03-08
    • 文件大小:2mb
    • 提供者:abing79
  1. 汉语文本自动分词算法

  2. 最牛的分词算法,可直接应用 :分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结 合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确 率,对于消去歧义词也有较好的性能。
  3. 所属分类:其它

    • 发布日期:2012-03-30
    • 文件大小:287kb
    • 提供者:zmzbs123
  1. python前向逆向最大匹配分词

  2. 基于词典的前向逆向最大匹配分词,词典自己生成,用utf8文本文件存储即可
  3. 所属分类:Python

    • 发布日期:2012-07-04
    • 文件大小:2kb
    • 提供者:netspy2000
  1. 信息检索中knn分类器

  2. 代码包括两部分: 第一部分:控制台程序,实现了包括从下载网页到构建vsm的knn分类的整个预处理过程。设计到下载网页、提取网页文本、将文本分词(用到计算所分词系统)、构建词典及vsm。 第二部分:knn分类器。
  3. 所属分类:C++

    • 发布日期:2012-09-11
    • 文件大小:17mb
    • 提供者:handongyexue
  1. 中文分词用统计词频词典,一词一行

  2. 中文分词用统计词频词典,一词一行,txt文本保存
  3. 所属分类:其它

    • 发布日期:2013-03-27
    • 文件大小:2mb
    • 提供者:cseedwyt
  1. pscws23-20081221.tar.bz2【中文分词】

  2. php中文分词 ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写,它是 SCWS 项目的前身。 现 SCWS 已作为
  3. 所属分类:PHP

    • 发布日期:2013-09-08
    • 文件大小:2mb
    • 提供者:yao__shun__yu
  1. 各种分词技术的源代码(超全)

  2. 包含文件(为本人网上souji) 最大概率分词法.rar 小叮咚分词.rar 文本分词词典.rar xerdoc分词.rar ICTCLAS.rar CSharp分词.rar
  3. 所属分类:专业指导

    • 发布日期:2008-10-01
    • 文件大小:19mb
    • 提供者:oyzdz1988
  1. JAVA版本,每秒约10万汉字,基于词典的中文纯文本分词程序

  2. java版本基于词典匹配,速度为每秒约10万个汉字,本人测试。同时生成倒排索引,倒排索引包含了对于分词的相关信息,如词频。若有Bug可与我联系。
  3. 所属分类:Java

    • 发布日期:2013-12-20
    • 文件大小:122kb
    • 提供者:zhukova
  1. 中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

  2. word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。 分词使用方法: 1、快速体验 运行项目根目录下的脚本demo-word.bat可以快速体验分词效果 用法: command [text] [input] [output] 命令command的可选值为:demo、text、file
  3. 所属分类:Java

    • 发布日期:2014-11-05
    • 文件大小:10mb
    • 提供者:love_hachi
  1. 结巴分词jar包

  2. jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模 式,把句子中所有的可以
  3. 所属分类:Java

    • 发布日期:2017-05-15
    • 文件大小:2mb
    • 提供者:subson
  1. 文本分词词典 分词 搜索引擎

  2. 最近在学搜索引擎。希望对大家有用。 看一下吧。 我还传了另外的分词方法。
  3. 所属分类:专业指导

    • 发布日期:2008-12-18
    • 文件大小:213kb
    • 提供者:wsnzou
  1. VC++ C# 多种分词方法

  2. 含有多个分词算法。毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 xerdoc分词,基于ICTCLAS的Java版本分词。 文本分词词典,分词的词典,可以提供分词数据源。-containing more than Segmentation. Graduation was the time of hope for all t
  3. 所属分类:C++

    • 发布日期:2008-12-28
    • 文件大小:19mb
    • 提供者:abc1990fly
  1. ICTCLAS2009版中文分词系统

  2. 中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展 用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。 分词粒度可调 可以
  3. 所属分类:嵌入式

  1. python实现机械分词之逆向最大匹配算法代码示例

  2. 逆向最大匹配方法 有正即有负,正向最大匹配算法大家可以参阅//www.jb51.net/article/127404.htm 逆向最大匹配分词是中文分词基本算法之一,因为是机械切分,所以它也有分词速度快的优点,且逆向最大匹配分词比起正向最大匹配分词更符合人们的语言习惯。逆向最大匹配分词需要在已有词典的基础上,从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(分词所确定的阈值i)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。而且选择的阈值越大,分词越慢,但准确性越好。 逆
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:155kb
    • 提供者:weixin_38713996
« 12 3 4 5 6 »