搜索资源 - 切词 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 切词

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

sogo实验室中文字库
sogo实验室中文字库，可用于中文搜索切词使用
所属分类：其它
- 发布日期：2010-01-15
- 文件大小：2097152
- 提供者：bjsuo

编程自动提取TAG 编程自动提取关键词
什么是中文分词？　　众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我是一个学生。　　目前主流的中文分词算法有：　　 1、基于字符串匹配的分词
所属分类：其它
- 发布日期：2010-02-09
- 文件大小：677888
- 提供者：njswbd

中文分词算法介绍、分类详解
该文档详细介绍了中文分词的原理及相应的技术。文档讲解了最大匹配法（Forward Maximum Matching method, FMM法）、正向最大匹配法（由左到右的方向）、逆向最大匹配法（由右到左的方向）、最少切分（使每一句中切出的词数最小）。
所属分类：其它
- 发布日期：2010-04-25
- 文件大小：110592
- 提供者：yangyangye

SCWS简体中文分词辞典txt格式
这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写（简易中文分词系统）。它是一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正
所属分类：专业指导
- 发布日期：2008-03-15
- 文件大小：5242880
- 提供者：oldfox126

SCWS繁体中文分词辞典txt格式
这是我在研究中文分词时找到的一个辞典。感谢hightman的基础工作。==============================================SCWS-1.x.x 自述文件 (Written by hightman)HomePage: http://www.hightman.cn...[SCWS 简介]SCWS 是 Simple Chinese Words Segmentation 的缩写（简易中文分词系统）。它是一套基于词频词典的机械中文分词引擎，它能将一整段的汉字基本正
所属分类：专业指导
- 发布日期：2008-03-15
- 文件大小：2097152
- 提供者：oldfox126

庖丁解牛中文分词
设计优美-使用庖丁隐喻，容易理解代码设计效率极高-极高效率的字典查找算法；尽量避免无谓试探查找算法简练-简单易理解的算法，但效率却是非常高效的轻松支持最大/最小切词字典灵活- 字典文件个数不限；名称不限，只要符合以dic作为扩展名的均视为字典目录层级不限(所以可以任意加减字典目录以及目录下的字典) 字典格式简单：不需要特别排序，人工可编辑
所属分类：Java
- 发布日期：2012-10-16
- 文件大小：5242880
- 提供者：tjnuywg

中英文停用词表.rar
自然语言处理中经常要进行切词，停用词处理是进行自然语言处理的首要步骤。
所属分类：专业指导
- 发布日期：2008-10-23
- 文件大小：3072
- 提供者：cloud1234

scws23-php
===== PSCWS23 - 说明文档 ===== $Id: readme.txt,v 1.3 2008/12/21 04:37:59 hightman Exp $ [ 关于 PSCWS23 ] PSCWS23 是由 hightman 于 2006 年开发的纯 PHP 代码实现的简易中文分词系统第二和第三版的简称。 PSCWS 是英文 PHP Simple Chinese Words Segmentation 的头字母缩写，它是 SCWS 项目的前身。现 SCWS 已作为 FTPHP 项目
所属分类：PHP
- 发布日期：2015-03-24
- 文件大小：3145728
- 提供者：u014581691

C#最长匹配算法切词程序(信息检索)
使用最长匹配法来切割句子中的词语，其中词语包括关键词、停用词，存储在assess数据库中，基于单词，切割句子中的词语。 c# windows程序
所属分类：C#
- 发布日期：2009-04-10
- 文件大小：391168
- 提供者：liuhao61416

C#中文分词组件源码ChineseSegmentV1.0.3.0
中文分词是中文搜索引擎提高相关度非常关键的部分。用C#实现的中文分词组件,可以进行中文切词、词频统计、分词排名级别；支持XML词库、文本词库和二进制词库；可以往词库添加新词，过滤重复词，词库重新排序。
所属分类：C#
- 发布日期：2009-04-21
- 文件大小：2097152
- 提供者：u013080801

flask jieba切词 api + swaggerui
使用flask框架的完整python api. 关于jieba分词的使用。并且使用swagger ui良好的展示api文档。
所属分类：机器学习
- 发布日期：2018-06-19
- 文件大小：5120
- 提供者：enter89

截屏识词工具
一款可以在电脑上截屏并识别图片中文字的工具，并将内容复制到剪切板。本人一枚英语菜鸟的程序猿，一般用来配合谷歌翻译使用，能够快速翻译一些不能复制开发帮助文档等。
所属分类：Windows Server
- 发布日期：2018-10-13
- 文件大小：605184
- 提供者：jingjing_n

结巴分词（支持词性标注）
结巴分词早期版本。 * 结巴分词(java版) jieba-analysis 首先感谢jieba分词原作者[[https://github.com/fxsjy][fxsjy]]，没有他的无私贡献，我们也不会结识到结巴分词，更不会有现在的java版本。结巴分词的原始版本为python编写，目前该项目在github上的关注量为170，打星727次（最新的数据以原仓库为准），Fork238次，可以说已经有一定的用户群。结巴分词(java版)只保留的原项目针对搜索引擎分词的功能(cut_for
所属分类：深度学习
- 发布日期：2018-12-17
- 文件大小：3145728
- 提供者：qq_34859668

IK切词jar包
IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化
所属分类：spark
- 发布日期：2019-03-24
- 文件大小：4194304
- 提供者：lionisleo

2200中文版停用词 .txt
里面有2200+个中文停用词，可用于词云图的制作，去除无意义的干扰词汇。可以自行添加去除。版权声明：资源下载只能自己学习使用，切勿用于商业用途，违者必究。
所属分类：其它
- 发布日期：2020-04-05
- 文件大小：26624
- 提供者：weixin_46111814

900英文版停用词.txt
里面有900+个英文停用词，可用于词云图的制作，去除无意义的干扰词汇。版权声明：资源下载只能自己学习使用，切勿用于商业用途，违者必究。
所属分类：其它
- 发布日期：2020-04-05
- 文件大小：8192
- 提供者：weixin_46111814

凌云好用剪切板 v15.9
凌云好用剪切板可以保存剪切板历史文本（最大十万条记录），新增加全面支持Unicode多语言特殊字符，支持带格式的word、htm文本，完美支持文本与图片，独有特色功能有连续粘贴，数据能连续粘贴并且每次自动下移一条，还能自动定位到下一表格位，适合粘贴大量数据，成就史上最快速的填表软件，还有连续复制功能，能快速复制大量的连续表格数据，固定条目相当于收藏夹，该功能广受欢迎！支持快捷键alt+1~9，其他功能还有导入EXCEL表格和快速调出窗口，还可以快速填序列号，上网填表格，自动抓取网页文本，快速
所属分类：其它
- 发布日期：2019-11-01
- 文件大小：2097152
- 提供者：weixin_38744435

《中文jieba分词》总结
针对jieba分词作业做一个总结，方便以后查看。中文分词分词，即切词，在NLP文本预处理中经常使用一些方法来对文本进行分词，从而使文本从“字序列”升级到“词序列”。为什么要进行分词？在中文中，一个个汉字有其自身的含义，但是组成词语时，其含义可能会发生很大的变化，使得之后进行文本处理任务时不能很好的理解句子的含义。（比如“和”，“平”，“和平”，三者的含义有很大的不同。）另外，从字序列升级成词序列，可以使模型能够得到更高级的特征。分词算法有很多，比如正向最大匹配算法，逆向最大匹配算法，双向
所属分类：其它
- 发布日期：2020-12-22
- 文件大小：61440
- 提供者：weixin_38591291

ElasticSearch–IK中文分词器的配置
elasticsearch本身自带的中文分词，就是单纯把中文一个字一个字的分开，根本没有词汇的概念。但是实际应用中，用户都是以词汇为条件，进行查询匹配的，如果能够把文章以词汇为单位切分开，那么与用户的查询条件能够更贴切的匹配上，查询速度也更加快速。分词器下载网址：https://github.com/medcl/elasticsearch-analysis-ik 1.安装下载好的zip包，请解压后放到 /usr/share/elasticsearch/plugins/ik 然后重启es 2
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：58368
- 提供者：weixin_38502722

saladict-desktop：:sparkles::sparkles:桌面划词与翻译工具，聚合了N多词典，功能强大，支持Windows，Mac和Linux-源码
沙拉桌面基于，聚合了N多词典的桌面翻译与划词工具，功能强大，支持Windows，Mac和Linux。预览功能支持的大部分功能多词典切换多种划词方式历史记录红心保存生词剪切板监听（复制翻译）等等... 部分截图左击托盘图标右击托盘图标设置页下一步光学字符识别自定义分词（驼峰分解）变量命名 ... 安装去下载最新版本，或者下面的指定系统版本。苹果 .dmg 窗口 .exe Linux 'Debian / Ubuntu'使用.deb 开发 # install
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：6291456
- 提供者：weixin_42126274

« 1 2 34 5 6 7 8 9 10 »