您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 盘古分词最新版本(2.3.1.0)

  2. 资源为最新的盘古分词器,目前本人用过的比较好用的免费分词器。动态输入词库,动态添加停用词,使用后能达到百度的效果,包括分词高亮控件
  3. 所属分类:专业指导

    • 发布日期:2010-12-07
    • 文件大小:1mb
    • 提供者:dongdongleng
  1. 中文分词词库

  2. 使用中文分词的基准库 方便采用机械分词差分词库和搜索引擎使用 还使用在广告精确定投、推进引擎上
  3. 所属分类:其它

    • 发布日期:2012-05-30
    • 文件大小:927kb
    • 提供者:kamilzhang
  1. 中文地名分词+地名词典创建工具

  2. 学习了部分分词原理和方法,做了相应的改进: 1、创建了两种词典树,做了性能上的比较 2、改进数字词组的分词方法,加入语法的判断 3、提供地名词典创建工具。将地名全名词典分词获得分词后的地名词典,减少词条数目,增加查找速度。程序用一个中等省会城市测试,模糊查询和精确查询效果都不错。 4、加入地名输入提示的工具。 代码采用C#,为学习成果,尚有很多不完善地方,欢迎交流。 词典数据来源于网络!
  3. 所属分类:C#

    • 发布日期:2008-09-05
    • 文件大小:977kb
    • 提供者:killo007
  1. ik中文分词包

  2. ik中文分词包,95%的精确,包含30万词典
  3. 所属分类:Java

    • 发布日期:2015-04-09
    • 文件大小:1mb
    • 提供者:chentoney
  1. 结巴分词jar包

  2. jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English documentation. 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模 式,把句子中所有的可以
  3. 所属分类:Java

    • 发布日期:2017-05-15
    • 文件大小:2mb
    • 提供者:subson
  1. solr7 的 ik分词器

  2. solr7 的 ik分词器 ik-analyzer-solr7.x ,全文检索体验升级,更精确
  3. 所属分类:其它

    • 发布日期:2017-12-01
    • 文件大小:3mb
    • 提供者:yang398835
  1. jieba_分词

  2. 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授权协议
  3. 所属分类:机器学习

    • 发布日期:2018-10-09
    • 文件大小:11mb
    • 提供者:abc_xian
  1. Python中文分词库Yaha.zip

  2. "哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词,不消除歧义。 搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。 备选路径,可生成最好的多条切词路径,可在此
  3. 所属分类:其它

  1. solr IK分词_sougou.dic

  2. 在solr使用 IKAnalyzer 分词时,自带的字典比较熟,不适合精确拆分。可以使用sougou分词,还是比较好用的。
  3. 所属分类:互联网

  1. 分词工具终极版(词根组合).xlsm

  2. 百度SEM分词工具终极版,里面包含精确分组表、模糊筛选表、分组后数据、最终展现等词根分组组合功能,能处理上万条关键词,将最终关键词数据导入百度推广计划中。
  3. 所属分类:其它

    • 发布日期:2020-03-11
    • 文件大小:86mb
    • 提供者:pan235467
  1. Python jieba结巴分词原理及用法解析

  2. 1、简要说明 结巴分词支持三种分词模式,支持繁体字,支持自定义词典 2、三种分词模式 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义 精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下 搜索引擎模式:在精简模式下,对长词再度切分 # -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京*广场跳舞' a = jieba.lcut(s
  3. 所属分类:其它

    • 发布日期:2020-12-16
    • 文件大小:82kb
    • 提供者:weixin_38617196
  1. python中文分词,使用结巴分词对python进行分词(实例讲解)

  2. 在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 安装(Linux环境) 下载工具包,解压后进入目录下,运行:python set
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:70kb
    • 提供者:weixin_38565631
  1. python使用jieba实现中文分词去停用词方法示例

  2. 前言 jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,十分推荐。 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。 分词模块jieba,它是python比较好用的分词模块。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8 支持三种分词模式       1 精确模式,试图将句子最精确
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:50kb
    • 提供者:weixin_38667581
  1. 浅谈python jieba分词模块的基本用法

  2. jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结。 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 安装jieba pip install jieba 简单用法 结巴分词分为三
  3. 所属分类:其它

    • 发布日期:2020-12-23
    • 文件大小:95kb
    • 提供者:weixin_38713057
  1. Ksearch:thinkphp分词全文检索全文搜素,利用PullWord分词接口。-源码

  2. 搜索 thinkphp分词全文检索全文搜素,利用PullWord分词接口。对齐TNTSearch数据库思路。精确匹配结果。 简单调用建议分页查询,每篇长文章,几千句话不是闹着玩的。 安装htmlpurifier $作曲家需要ezyang / htmlpurifier <?php namespace app\search\controller; use think\Controller; use think\Request; use think\Db; use Ksearch\Ksea
  3. 所属分类:其它

  1. nlp_windows_exe_ui:python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键词提取,文本分类-源码

  2. nlp_windows_exe_ui 介绍 python3.6-制作一个包含NLP基本功能系统(Windows exe)自然语言处理系统。系统功能:分词,词性标注,关键字提取,文本分类;由于要打包成exe的关系,我将原本的项目的多一个文件的集成到一个python文件(合并文件)里,只保留了使用该系统所需要的函数,方便打包,通俗地讲就是,生成生成词向量过程,装袋过程,模型训练过程的,以及一些中间步骤的程序代码,这些有些涉及很多库的,这些打包进去。但是整个项目里的东西是完整的(包括数据) 运行这个系
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:20mb
    • 提供者:weixin_42129113
  1. lac:百度NLP:分词,词性标注,命名实体识别,词首-源码

  2. 工具介绍 LAC全称中文的词法分析,是百度自然语言处理部研发的一种联合的词法分析工具,实现中文分词,词性标注,专名识别等功能。该工具具有以下特点和优势: 效果好:通过深度学习模型联合学习分词,词性标注,专名识别任务,单词索引,整体效果F1值超过0.91,词性标注F1值超过0.94,专名识别F1值超过0.85,效果领先。 效率高:精简模型参数,结合Paddle预测库的性能优化,CPU单线程性能达800QPS,效率领先。 可定制:实现简单可控的干预机制,精确匹配用户字典对模型进行干预。 调用便捷:支
  3. 所属分类:其它

  1. gse:进行高效的文本分割和NLP; 支持英语,中文,日语等。 语言高级分词-源码

  2. se 进行有效的文本分割; 支持英语,中文,日语等。 用双数组特里(Double-Array Trie)实现, 算法是基于词频加动态编程的最短路径,以及DAG和HMM算法的词分割。 支持通用,搜索引擎,完整模式,精确模式和HMM模式的多种分词模式,支持用户词典,POS标记,运行。 支持HMM剪切文本使用Viterbi算法。 文本分割速度9.2MB / s, 26.8MB / s。 HMM文本分割单线程3.2MB / s。 (2core 4threads Macbook Pro)。 捆绑:
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:12mb
    • 提供者:weixin_42133753
  1. jieba-php:“结巴”中文分词:做最好PHP。PHP中文分词,中文断词组件。“ Jieba”(中文为“ to stutter”)中文文本分割:构建为最佳PHP中文单词分割模块-源码

  2. “结巴”中文分词:做最好PHP中文分词,中文断词组件,当前翻译版本为jieba-0.33版本,未来再慢慢往上升级,效能也需要再改善,请有兴趣的开发者一起加入开发!若想使用Python版本请前往 现在已经可以支持繁体中文!只要将字典切换为big模式即可! “ Jieba”(中文为“ to stutter”)中文文本分割:内置为最好PHP中文单词分割模块。 向下滚动以获取英文文档。 线上展示 网站网址: : 网站原始码: : 特征 支持三种分词模式: 1)最小精确模式,试图将句子最精确地
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:20mb
    • 提供者:weixin_42137028
  1. 【NLP】之 结巴分词

  2. 1.结巴分词简介 结巴分词是当前效果较好的一种中文分词器,支持中文简体、中文繁体分词,同时还支持自定义词库。 结巴分词支持三种分词模式:精确模式、全模式和搜索引擎模式。 精确模式是试图将句子最精确的进行切分,适合用于文本分析; 全模式的原理是把句子中全部可以成词的词语全部扫描出来,它的分词速度快,缺点是无法识别歧义词句; 搜索引擎模式是在精确模式的基础上进一步处理的,它对较长的词语再进行分割,将召回率提高,适合于搜索引擎分词。 结巴分词自带一个词典,内含20000多条词,及词条出现的次数与词
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:156kb
    • 提供者:weixin_38531017
« 12 3 4 5 »