搜索资源 - 精确分词 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 精确分词

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

盘古分词最新版本（2.3.1.0）
资源为最新的盘古分词器，目前本人用过的比较好用的免费分词器。动态输入词库，动态添加停用词，使用后能达到百度的效果，包括分词高亮控件
所属分类：专业指导
- 发布日期：2010-12-07
- 文件大小：1mb
- 提供者：dongdongleng

中文分词词库
使用中文分词的基准库方便采用机械分词差分词库和搜索引擎使用还使用在广告精确定投、推进引擎上
所属分类：其它
- 发布日期：2012-05-30
- 文件大小：927kb
- 提供者：kamilzhang

中文地名分词+地名词典创建工具
学习了部分分词原理和方法，做了相应的改进： 1、创建了两种词典树，做了性能上的比较 2、改进数字词组的分词方法，加入语法的判断 3、提供地名词典创建工具。将地名全名词典分词获得分词后的地名词典，减少词条数目，增加查找速度。程序用一个中等省会城市测试，模糊查询和精确查询效果都不错。 4、加入地名输入提示的工具。代码采用C#,为学习成果，尚有很多不完善地方，欢迎交流。词典数据来源于网络！
所属分类：C#
- 发布日期：2008-09-05
- 文件大小：977kb
- 提供者：killo007

ik中文分词包
ik中文分词包，95%的精确，包含30万词典
所属分类：Java
- 发布日期：2015-04-09
- 文件大小：1mb
- 提供者：chentoney

结巴分词jar包
jieba “结巴”中文分词：做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以
所属分类：Java
- 发布日期：2017-05-15
- 文件大小：2mb
- 提供者：subson

solr7 的 ik分词器
solr7 的 ik分词器 ik-analyzer-solr7.x ，全文检索体验升级，更精确
所属分类：其它
- 发布日期：2017-12-01
- 文件大小：3mb
- 提供者：yang398835

jieba_分词
支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授权协议
所属分类：机器学习
- 发布日期：2018-10-09
- 文件大小：11mb
- 提供者：abc_xian

Python中文分词库Yaha.zip
"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能：精确模式，将句子切成最合理的词。全模式，所有的可能词都被切成词，不消除歧义。搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。备选路径，可生成最好的多条切词路径，可在此
所属分类：其它
- 发布日期：2019-07-16
- 文件大小：6mb
- 提供者：weixin_39841856

solr IK分词_sougou.dic
在solr使用 IKAnalyzer 分词时，自带的字典比较熟，不适合精确拆分。可以使用sougou分词，还是比较好用的。
所属分类：互联网
- 发布日期：2020-04-27
- 文件大小：4mb
- 提供者：weixin_42874398

分词工具终极版（词根组合）.xlsm
百度SEM分词工具终极版，里面包含精确分组表、模糊筛选表、分组后数据、最终展现等词根分组组合功能，能处理上万条关键词，将最终关键词数据导入百度推广计划中。
所属分类：其它
- 发布日期：2020-03-11
- 文件大小：86mb
- 提供者：pan235467

Python jieba结巴分词原理及用法解析
1、简要说明结巴分词支持三种分词模式，支持繁体字，支持自定义词典 2、三种分词模式全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义精简模式：把句子最精确的分开，不会添加多余单词，看起来就像是把句子分割一下搜索引擎模式：在精简模式下，对长词再度切分 # -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京*广场跳舞' a = jieba.lcut(s
所属分类：其它
- 发布日期：2020-12-16
- 文件大小：82kb
- 提供者：weixin_38617196

python中文分词,使用结巴分词对python进行分词(实例讲解)
在采集美女站时，需要对关键词进行分词，最终采用的是python的结巴分词方法。中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点： 1.基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 3.对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法安装（Linux环境）下载工具包，解压后进入目录下，运行：python set
所属分类：其它
- 发布日期：2020-12-24
- 文件大小：70kb
- 提供者：weixin_38565631

python使用jieba实现中文分词去停用词方法示例
前言 jieba 基于Python的中文分词工具，安装使用非常方便，直接pip即可，2/3都可以，功能强悍，十分推荐。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词模块jieba，它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8 支持三种分词模式 1 精确模式，试图将句子最精确
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：50kb
- 提供者：weixin_38667581

浅谈python jieba分词模块的基本用法
jieba（结巴）是一个强大的分词库，完美支持中文分词，本文对其基本用法做一个简要总结。特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 MIT 授权协议安装jieba pip install jieba 简单用法结巴分词分为三
所属分类：其它
- 发布日期：2020-12-23
- 文件大小：95kb
- 提供者：weixin_38713057

Ksearch:thinkphp分词全文检索全文搜素，利用PullWord分词接口。-源码
搜索 thinkphp分词全文检索全文搜素，利用PullWord分词接口。对齐TNTSearch数据库思路。精确匹配结果。简单调用建议分页查询，每篇长文章，几千句话不是闹着玩的。安装htmlpurifier $作曲家需要ezyang / htmlpurifier <?php namespace app\search\controller; use think\Controller; use think\Request; use think\Db; use Ksearch\Ksea
所属分类：其它
- 发布日期：2021-03-23
- 文件大小：7kb
- 提供者：weixin_42181545

nlp_windows_exe_ui:python3.6-制作一个包含NLP基本功能系统（Windows exe）自然语言处理系统。系统功能：分词，词性标注，关键词提取，文本分类-源码
nlp_windows_exe_ui 介绍 python3.6-制作一个包含NLP基本功能系统（Windows exe）自然语言处理系统。系统功能：分词，词性标注，关键字提取，文本分类；由于要打包成exe的关系，我将原本的项目的多一个文件的集成到一个python文件（合并文件）里，只保留了使用该系统所需要的函数，方便打包，通俗地讲就是，生成生成词向量过程，装袋过程，模型训练过程的，以及一些中间步骤的程序代码，这些有些涉及很多库的，这些打包进去。但是整个项目里的东西是完整的（包括数据）运行这个系
所属分类：其它
- 发布日期：2021-03-15
- 文件大小：20mb
- 提供者：weixin_42129113

lac：百度NLP：分词，词性标注，命名实体识别，词首-源码
工具介绍 LAC全称中文的词法分析，是百度自然语言处理部研发的一种联合的词法分析工具，实现中文分词，词性标注，专名识别等功能。该工具具有以下特点和优势：效果好：通过深度学习模型联合学习分词，词性标注，专名识别任务，单词索引，整体效果F1值超过0.91，词性标注F1值超过0.94，专名识别F1值超过0.85，效果领先。效率高：精简模型参数，结合Paddle预测库的性能优化，CPU单线程性能达800QPS，效率领先。可定制：实现简单可控的干预机制，精确匹配用户字典对模型进行干预。调用便捷：支
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：4mb
- 提供者：weixin_42150341

gse：进行高效的文本分割和NLP；支持英语，中文，日语等。语言高级分词-源码
se 进行有效的文本分割；支持英语，中文，日语等。用双数组特里（Double-Array Trie）实现，算法是基于词频加动态编程的最短路径，以及DAG和HMM算法的词分割。支持通用，搜索引擎，完整模式，精确模式和HMM模式的多种分词模式，支持用户词典，POS标记，运行。支持HMM剪切文本使用Viterbi算法。文本分割速度9.2MB / s， 26.8MB / s。 HMM文本分割单线程3.2MB / s。（2core 4threads Macbook Pro）。捆绑：
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：12mb
- 提供者：weixin_42133753

jieba-php：“结巴”中文分词：做最好PHP。PHP中文分词，中文断词组件。“ Jieba”（中文为“ to stutter”）中文文本分割：构建为最佳PHP中文单词分割模块-源码
“结巴”中文分词：做最好PHP中文分词，中文断词组件，当前翻译版本为jieba-0.33版本，未来再慢慢往上升级，效能也需要再改善，请有兴趣的开发者一起加入开发！若想使用Python版本请前往现在已经可以支持繁体中文！只要将字典切换为big模式即可！ “ Jieba”（中文为“ to stutter”）中文文本分割：内置为最好PHP中文单词分割模块。向下滚动以获取英文文档。线上展示网站网址： : 网站原始码： : 特征支持三种分词模式： 1）最小精确模式，试图将句子最精确地
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：20mb
- 提供者：weixin_42137028

【NLP】之结巴分词
1.结巴分词简介结巴分词是当前效果较好的一种中文分词器，支持中文简体、中文繁体分词，同时还支持自定义词库。结巴分词支持三种分词模式：精确模式、全模式和搜索引擎模式。精确模式是试图将句子最精确的进行切分，适合用于文本分析；全模式的原理是把句子中全部可以成词的词语全部扫描出来，它的分词速度快，缺点是无法识别歧义词句；搜索引擎模式是在精确模式的基础上进一步处理的，它对较长的词语再进行分割，将召回率提高，适合于搜索引擎分词。结巴分词自带一个词典，内含20000多条词，及词条出现的次数与词
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：156kb
- 提供者：weixin_38531017

« 12 3 4 5 »