搜索资源 - 最大概率分词 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 最大概率分词

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

最大概率分词法
最大概率分词法,这种分词算法能够较好的解决汉语分词中的歧义问题,但分词效率比最大匹配分词算法要低
所属分类：其它
- 发布日期：2007-08-03
- 文件大小：88064
- 提供者：pm1784

perl实现中文分词-双向扫描法找出歧义段-n元语法概率模型消歧
perl实现中文分词先双向扫描法找出歧义段再n元语法概率模型消歧 1998年人民日报语料下F1值达94%
所属分类：Perl
- 发布日期：2009-05-27
- 文件大小：7168
- 提供者：heycinderella

各种分词技术的源代码（超全）
1 本程序说明了用最大概率法进行分词处理的一般过程 2 用户可以修改config.ini文件中的值 3 用于测试的三个文件中： test1是小学语文课本语料 test2是按句分行的语料 test3是包含歧义串的语料
所属分类：专业指导
- 发布日期：2009-11-01
- 文件大小：19922944
- 提供者：tianzhu131

最大概率分词法
最大概率分词法源码 C++
所属分类：C++
- 发布日期：2008-04-10
- 文件大小：83968
- 提供者：s777n

自己动手写搜索引擎(罗刚著).doc
自己动手写搜索引擎 1 第1章了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境（10分钟） 5 2.1.2 编写代码（15分钟） 6 2.1.3 发布运行（5分钟） 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
所属分类：其它
- 发布日期：2011-04-18
- 文件大小：6291456
- 提供者：qq736655941

最大熵模型总结
最大熵模型分词方法，这个是我自己总结的最大熵模型。如果换成条件概率，就是随机场了
所属分类：专业指导
- 发布日期：2011-12-07
- 文件大小：2097152
- 提供者：ainihong001

北大NLP课件-中文分词
北大詹卫东课件，详解中文分词的算法及发展状况。
所属分类：专业指导
- 发布日期：2012-04-11
- 文件大小：419840
- 提供者：leonardo861216

自己动手写搜索引擎(罗刚)
自己动手写搜索引擎 1 第1章了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境（10分钟） 5 2.1.2 编写代码（15分钟） 6 2.1.3 发布运行（5分钟） 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
所属分类：Java
- 发布日期：2012-04-25
- 文件大小：3145728
- 提供者：jayghost

各种分词技术的源代码（超全）
包含文件（为本人网上souji）最大概率分词法.rar 小叮咚分词.rar 文本分词词典.rar xerdoc分词.rar ICTCLAS.rar CSharp分词.rar
所属分类：专业指导
- 发布日期：2008-10-01
- 文件大小：19922944
- 提供者：oyzdz1988

中文最大概率分词器
中文最大概率分词器，北邮自然语言处理期末考试，包含相关文档，ppt
所属分类：C/C++
- 发布日期：2014-09-02
- 文件大小：22020096
- 提供者：zakheav

VFP分词程序，功能不多，采用最大正向匹配法
嘿嘿，可完成功能：１．单文件和批处理分词（分词采用最原始的最大词匹配法）２．统计词频３．统计成词概率
所属分类：专业指导
- 发布日期：2007-04-30
- 文件大小：471040
- 提供者：Felomeng

NLP分词算法，源码
最大概率分词算法，带详细源码基于最大概率的汉语切分目标：采用最大概率法进行汉语切分。其中：n-gram用bigram，平滑方法至少用Laplace平滑。输入：接收一个文本，文本名称为：corpus_for_test.txt 输出：切分结果文本，其中：切分表示：用一个字节的空格“ ”分隔，如：我们在学习。每个标点符号都单算一个切分单元。输出文件名为：学号.txt
所属分类：C/C++
- 发布日期：2017-11-12
- 文件大小：225280
- 提供者：mays_changzhi

最大概率分词法搜索引擎分词
分词啦。最近在尝试做搜索引擎。传给大家看一下了。希望有用。
所属分类：专业指导
- 发布日期：2008-12-18
- 文件大小：83968
- 提供者：wsnzou

jiebaForLuceneNet-master
jieba.NET与Lucene.Net的集成支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义。具体来说，分词过程不会借助于词频查找最大概率路径，亦不会使用HMM；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
所属分类：C#
- 发布日期：2018-09-20
- 文件大小：21504
- 提供者：qq_43248978

Python中文分词库Yaha.zip
"哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能：精确模式，将句子切成最合理的词。全模式，所有的可能词都被切成词，不消除歧义。搜索引擎模式，在精确的基础上再次驿长词进行切分，提高召回率，适合搜索引擎创建索引。备选路径，可生成最好的多条切词路径，可在此
所属分类：其它
- 发布日期：2019-07-16
- 文件大小：6291456
- 提供者：weixin_39841856

jieba.NET-master.zip
分词 jieba.NET版本（C#实现） * 支持三种分词模式： - 精确模式，试图将句子最精确地切开，适合文本分析； - 全模式，把句子中所有的可以成词的词语都扫描出来, **速度非常快，但是不能解决歧义。具体来说，分词过程不会借助于词频查找最大概率路径，亦不会使用HMM； - 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。 * 支持繁体分词 * 支持添加自定义词典和自定义词 * MIT 授权协议
所属分类：C#
- 发布日期：2020-01-07
- 文件大小：11534336
- 提供者：chengbi0653

python中文分词,使用结巴分词对python进行分词(实例讲解)
在采集美女站时，需要对关键词进行分词，最终采用的是python的结巴分词方法。中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点： 1.基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 3.对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法安装（Linux环境）下载工具包，解压后进入目录下，运行：python set
所属分类：其它
- 发布日期：2020-12-24
- 文件大小：71680
- 提供者：weixin_38565631

简单理解NLP中文分词
什么是中文分词中文分词指将一个汉字序列切分成一个个单独的词。中文分词的难题分词规则（粒度）问题：不同应用对粒度的要求不一样，比如“百度搜索”可以是一个词也可以是两个词消除歧义问题：比如“小吃店关门了” 未登录词识别问题：比如“hold”住分词方法分类中文分词主要分为：基于规则分词、基于概率统计分词。基于规则分词原理：按照一定策略将待分析的汉字串与词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。按照扫描方向的不同分为：正向匹配 & 逆向匹配 & 双向匹配正向最大
所属分类：其它
- 发布日期：2021-01-06
- 文件大小：39936
- 提供者：weixin_38725260

麻将：开源中文分词工具包，中文分词Web API，Lucene中文分词，中英文混合分词-源码
麻将中文分词简介麻将一直是广受欢迎的传统娱乐活动，字牌的组合千变万化。汉字的组合也是变化多端，麻将这个项目希望能从汉字组合中发现汉语的秘密，为自然语言处理提供好的中文分词工具。麻将是基于Scala的语言实现的中文分词软件包。这个项目的核心是最大概率分词，整个项目专为搜索引擎，文本信息抽取和自然语言处理设计，参考我来实现。性能优异，速度快。整个分词包易于使用，测试覆盖率高。在线展示：链接，您可以自己测试它的功能。有任何问题，可以发邮件至：。分词歧义解决方案分词的方法有很多，现
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：14680064
- 提供者：weixin_42097533

Jiayan：甲言，专注于古代汉语（古汉语古文文言文文言）处理的NLP工具包，支持文言词库合成，分词，词性标注，断句和标点。Jiayan是为古典汉语设计的工具包，支持词典构建。，标记，POS标记，句子分段和标点符号-源码
甲言Jiayan 简介甲言，取“Oracle言”之意，是一种专注于古汉语处理的NLP工具包。目前通用的汉语NLP工具均以现代汉语为核心语料，对古代汉语的处理效果很差（详见）。本项目的初衷，便是辅助古汉语信息处理，帮助有志于挖掘古文化矿藏的古汉语学者，爱好者等更好的地分析和利用文言资料，从“文化遗产”中创造出“文化新产”。当前版本支持，，，和五项功能，更多功能正在开发中。功能利用无监督的双，以及左右进行文言词库自动生成。利用无监督，无词典的和进行古汉语自动分词。利用词库合成功能产生的文言
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：222208
- 提供者：weixin_42137022

« 12 »