您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. sogo实验室中文字库

  2. sogo实验室中文字库,可用于中文搜索切词使用
  3. 所属分类:其它

    • 发布日期:2010-01-15
    • 文件大小:2097152
    • 提供者:bjsuo
  1. 编程自动提取TAG 编程自动提取关键词

  2. 什么是中文分词?   众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我是 一个 学生。   目前主流的中文分词算法有:    1、 基于字符串匹配的分词
  3. 所属分类:其它

    • 发布日期:2010-02-09
    • 文件大小:677888
    • 提供者:njswbd
  1. 中文分词算法介绍、分类详解

  2. 该文档详细介绍了中文分词的原理及相应的技术。文档讲解了最大匹配法(Forward Maximum Matching method, FMM法)、正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到左的方向)、最少切分(使每一句中切出的词数最小)。
  3. 所属分类:其它

    • 发布日期:2010-04-25
    • 文件大小:110592
    • 提供者:yangyangye
  1. SCWS简体中文分词辞典txt格式

  2. 这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正
  3. 所属分类:专业指导

    • 发布日期:2008-03-15
    • 文件大小:5242880
    • 提供者:oldfox126
  1. SCWS繁体中文分词辞典txt格式

  2. 这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写(简易中文分词系统)。它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正
  3. 所属分类:专业指导

    • 发布日期:2008-03-15
    • 文件大小:2097152
    • 提供者:oldfox126
  1. 庖丁解牛中文分词

  2. 设计优美-使用庖丁隐喻,容易理解代码设计 效率极高-极高效率的字典查找算法;尽量避免无谓试探查找 算法简练-简单易理解的算法,但效率却是非常高效的 轻松支持最大/最小切词 字典灵活- 字典文件个数不限; 名称不限,只要符合以dic作为扩展名的均视为字典 目录层级不限(所以可以任意加减字典目录以及目录下的字典) 字典格式简单:不需要特别排序,人工可编辑
  3. 所属分类:Java

    • 发布日期:2012-10-16
    • 文件大小:5242880
    • 提供者:tjnuywg
  1. 中英文停用词表.rar

  2. 自然语言处理中经常要进行切词,停用词处理是进行自然语言处理的首要步骤。
  3. 所属分类:专业指导

    • 发布日期:2008-10-23
    • 文件大小:3072
    • 提供者:cloud1234
  1. scws23-php

  2. ===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写,它是 SCWS 项目的前身。 现 SCWS 已作为 FTPHP 项目
  3. 所属分类:PHP

    • 发布日期:2015-03-24
    • 文件大小:3145728
    • 提供者:u014581691
  1. C#最长匹配算法切词程序(信息检索)

  2. 使用最长匹配法来切割句子中的词语, 其中词语包括关键词、停用词,存储在assess数据库中, 基于单词,切割句子中的词语。 c# windows程序
  3. 所属分类:C#

    • 发布日期:2009-04-10
    • 文件大小:391168
    • 提供者:liuhao61416
  1. C#中文分词组件源码ChineseSegmentV1.0.3.0

  2. 中文分词是中文搜索引擎提高相关度非常关键的部分。用C#实现的中文分词组件,可以进行中文切词、词频统计、分词排名级别;支持XML词库、文本词库和二进制词库;可以往词库添加新词,过滤重复词,词库重新排序。
  3. 所属分类:C#

    • 发布日期:2009-04-21
    • 文件大小:2097152
    • 提供者:u013080801
  1. flask jieba切词 api + swaggerui

  2. 使用flask框架的完整python api. 关于jieba分词的使用。并且使用swagger ui良好的展示api文档。
  3. 所属分类:机器学习

    • 发布日期:2018-06-19
    • 文件大小:5120
    • 提供者:enter89
  1. 截屏识词工具

  2. 一款可以在电脑上截屏并识别图片中文字的工具,并将内容复制到剪切板。本人一枚英语菜鸟的程序猿,一般用来配合谷歌翻译使用,能够快速翻译一些不能复制开发帮助文档等。
  3. 所属分类:Windows Server

    • 发布日期:2018-10-13
    • 文件大小:605184
    • 提供者:jingjing_n
  1. 结巴分词(支持词性标注)

  2. 结巴分词早期版本。 * 结巴分词(java版) jieba-analysis 首先感谢jieba分词原作者[[https://github.com/fxsjy][fxsjy]],没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。 结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户群。 结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for
  3. 所属分类:深度学习

    • 发布日期:2018-12-17
    • 文件大小:3145728
    • 提供者:qq_34859668
  1. IK切词jar包

  2. IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化
  3. 所属分类:spark

    • 发布日期:2019-03-24
    • 文件大小:4194304
    • 提供者:lionisleo
  1. 2200中文版停用词 .txt

  2. 里面有2200+个中文停用词,可用于词云图的制作,去除无意义的干扰词汇。可以自行添加去除。 版权声明:资源下载只能自己学习使用,切勿用于商业用途,违者必究。
  3. 所属分类:其它

    • 发布日期:2020-04-05
    • 文件大小:26624
    • 提供者:weixin_46111814
  1. 900英文版停用词.txt

  2. 里面有900+个英文停用词,可用于词云图的制作,去除无意义的干扰词汇。 版权声明:资源下载只能自己学习使用,切勿用于商业用途,违者必究。
  3. 所属分类:其它

    • 发布日期:2020-04-05
    • 文件大小:8192
    • 提供者:weixin_46111814
  1. 凌云好用剪切板 v15.9

  2. 凌云好用剪切板可以保存剪切板历史文本(最大十万条记录),新增加全面支持Unicode多语言特殊字符,支持带格式的word、htm文本,完美支持文本与图片,独有特色功能有连续粘贴,数据能连续粘贴并且每次自动下移一条 ,还能自动定位到下一表格位,适合粘贴大量数据,成就史上最快速的填表软件,还有连续复制功能,能快速复制大量的连续表格数据,固定条目相当于收藏夹,该功能广受欢迎!支持快捷键alt+1~9,其他功能还有 导入EXCEL表格和快速调出窗口,还可以快速填序列号,上网填表格,自动抓取网页文本,快速
  3. 所属分类:其它

    • 发布日期:2019-11-01
    • 文件大小:2097152
    • 提供者:weixin_38744435
  1. 《中文jieba分词》总结

  2. 针对jieba分词作业做一个总结,方便以后查看。 中文分词 分词,即切词,在NLP文本预处理中经常使用一些方法来对文本进行分词,从而使文本从“字序列”升级到“词序列”。 为什么要进行分词?在中文中,一个个汉字有其自身的含义,但是组成词语时,其含义可能会发生很大的变化,使得之后进行文本处理任务时不能很好的理解句子的含义。(比如“和”,“平”,“和平”,三者的含义有很大的不同。)另外,从字序列升级成词序列,可以使模型能够得到更高级的特征。 分词算法有很多,比如正向最大匹配算法,逆向最大匹配算法,双向
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:61440
    • 提供者:weixin_38591291
  1. ElasticSearch–IK中文分词器的配置

  2. elasticsearch本身自带的中文分词,就是单纯把中文一个字一个字的分开,根本没有词汇的概念。但是实际应用中,用户都是以词汇为条件,进行查询匹配的,如果能够把文章以词汇为单位切分开,那么与用户的查询条件能够更贴切的匹配上,查询速度也更加快速。 分词器下载网址:https://github.com/medcl/elasticsearch-analysis-ik 1.安装 下载好的zip包,请解压后放到 /usr/share/elasticsearch/plugins/ik 然后重启es 2
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:58368
    • 提供者:weixin_38502722
  1. saladict-desktop::sparkles::sparkles:桌面划词与翻译工具,聚合了N多词典,功能强大,支持Windows,Mac和Linux-源码

  2. 沙拉桌面 基于 ,聚合了N多词典的桌面翻译与划词工具,功能强大,支持Windows,Mac和Linux。 预览 功能 支持的大部分功能 多词典切换 多种划词方式 历史记录 红心保存生词 剪切板监听(复制翻译) 等等... 部分截图 左击托盘图标 右击托盘图标 设置页 下一步 光学字符识别 自定义分词(驼峰分解) 变量命名 ... 安装 去下载最新版本,或者下面的指定系统版本。 苹果 .dmg 窗口 .exe Linux 'Debian / Ubuntu'使用.deb 开发 # install
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:6291456
    • 提供者:weixin_42126274
« 1 2 34 5 6 7 8 9 10 »