您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 最大概率分词法

  2. 最大概率分词法,这种分词算法能够较好的解决汉语分词中的歧义问题,但分词效率比最大匹配分词算法要低
  3. 所属分类:其它

    • 发布日期:2007-08-03
    • 文件大小:88064
    • 提供者:pm1784
  1. perl实现中文分词-双向扫描法找出歧义段-n元语法概率模型消歧

  2. perl实现中文分词 先双向扫描法找出歧义段 再n元语法概率模型消歧 1998年人民日报语料下F1值达94%
  3. 所属分类:Perl

    • 发布日期:2009-05-27
    • 文件大小:7168
    • 提供者:heycinderella
  1. 各种分词技术的源代码(超全)

  2. 1 本程序说明了用最大概率法进行分词处理的一般过程 2 用户可以修改config.ini文件中的值 3 用于测试的三个文件中: test1是小学语文课本语料 test2是按句分行的语料 test3是包含歧义串的语料
  3. 所属分类:专业指导

    • 发布日期:2009-11-01
    • 文件大小:19922944
    • 提供者:tianzhu131
  1. 最大概率分词法

  2. 最大概率分词法 源码 C++
  3. 所属分类:C++

    • 发布日期:2008-04-10
    • 文件大小:83968
    • 提供者:s777n
  1. 自己动手写搜索引擎(罗刚著).doc

  2. 自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
  3. 所属分类:其它

    • 发布日期:2011-04-18
    • 文件大小:6291456
    • 提供者:qq736655941
  1. 最大熵模型总结

  2. 最大熵模型 分词方法 ,这个是我自己总结的最大熵模型。如果换成条件概率,就是随机场了
  3. 所属分类:专业指导

    • 发布日期:2011-12-07
    • 文件大小:2097152
    • 提供者:ainihong001
  1. 北大NLP课件-中文分词

  2. 北大詹卫东课件,详解中文分词的算法及发展状况。
  3. 所属分类:专业指导

    • 发布日期:2012-04-11
    • 文件大小:419840
    • 提供者:leonardo861216
  1. 自己动手写搜索引擎(罗刚)

  2. 自己动手写搜索引擎 1 第1章 了解搜索引擎 1 1.1 Google神话 1 1.2 体验搜索引擎 1 1.3 你也可以做搜索引擎 4 1.4 本章小结 4 第2章 遍历搜索引擎技术 5 2.1 30分钟实现的搜索引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2 搜索引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nut
  3. 所属分类:Java

    • 发布日期:2012-04-25
    • 文件大小:3145728
    • 提供者:jayghost
  1. 各种分词技术的源代码(超全)

  2. 包含文件(为本人网上souji) 最大概率分词法.rar 小叮咚分词.rar 文本分词词典.rar xerdoc分词.rar ICTCLAS.rar CSharp分词.rar
  3. 所属分类:专业指导

    • 发布日期:2008-10-01
    • 文件大小:19922944
    • 提供者:oyzdz1988
  1. 中文最大概率分词器

  2. 中文最大概率分词器,北邮自然语言处理期末考试,包含相关文档,ppt
  3. 所属分类:C/C++

    • 发布日期:2014-09-02
    • 文件大小:22020096
    • 提供者:zakheav
  1. VFP分词程序,功能不多,采用最大正向匹配法

  2. 嘿嘿,可完成功能:1.单文件和批处理分词(分词采用最原始的最大词匹配法)2.统计词频3.统计成词概率
  3. 所属分类:专业指导

    • 发布日期:2007-04-30
    • 文件大小:471040
    • 提供者:Felomeng
  1. NLP分词算法,源码

  2. 最大概率分词算法,带详细源码 基于最大概率的汉语切分 目标:采用最大概率法进行汉语切分。 其中:n-gram用bigram,平滑方法至少用Laplace平滑。 输入:接收一个文本,文本名称为:corpus_for_test.txt 输出:切分结果文本, 其中:切分表示:用一个字节的空格“ ”分隔,如:我们 在 学习 。 每个标点符号都单算一个切分单元。 输出文件名为:学号.txt
  3. 所属分类:C/C++

    • 发布日期:2017-11-12
    • 文件大小:225280
    • 提供者:mays_changzhi
  1. 最大概率分词法 搜索引擎 分词

  2. 分词啦。最近在尝试做搜索引擎。 传给大家看一下了。希望有用。
  3. 所属分类:专业指导

    • 发布日期:2008-12-18
    • 文件大小:83968
    • 提供者:wsnzou
  1. jiebaForLuceneNet-master

  2. jieba.NET与Lucene.Net的集成 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义。具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  3. 所属分类:C#

    • 发布日期:2018-09-20
    • 文件大小:21504
    • 提供者:qq_43248978
  1. Python中文分词库Yaha.zip

  2. "哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词,不消除歧义。 搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。 备选路径,可生成最好的多条切词路径,可在此
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:6291456
    • 提供者:weixin_39841856
  1. jieba.NET-master.zip

  2. 分词 jieba.NET版本(C#实现) * 支持三种分词模式: - 精确模式,试图将句子最精确地切开,适合文本分析; - 全模式,把句子中所有的可以成词的词语都扫描出来, **速度非常快,但是不能解决歧义。 具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM; - 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 * 支持繁体分词 * 支持添加自定义词典和自定义词 * MIT 授权协议
  3. 所属分类:C#

    • 发布日期:2020-01-07
    • 文件大小:11534336
    • 提供者:chengbi0653
  1. python中文分词,使用结巴分词对python进行分词(实例讲解)

  2. 在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法。 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 3.对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 安装(Linux环境) 下载工具包,解压后进入目录下,运行:python set
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:71680
    • 提供者:weixin_38565631
  1. 简单理解NLP中文分词

  2. 什么是中文分词 中文分词指将一个汉字序列切分成一个个单独的词。 中文分词的难题 分词规则(粒度)问题:不同应用对粒度的要求不一样,比如“百度搜索”可以是一个词也可以是两个词 消除歧义问题:比如“小吃店关门了” 未登录词识别问题:比如“hold”住 分词方法分类 中文分词主要分为:基于规则分词、基于概率统计分词。 基于规则分词 原理:按照一定策略将待分析的汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同分为:正向匹配 & 逆向匹配 & 双向匹配 正向最大
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:39936
    • 提供者:weixin_38725260
  1. 麻将:开源中文分词工具包,中文分词Web API,Lucene中文分词,中英文混合分词-源码

  2. 麻将中文分词 简介 麻将一直是广受欢迎的传统娱乐活动,字牌的组合千变万化。汉字的组合也是变化多端,麻将这个项目希望能从汉字组合中发现汉语的秘密,为自然语言处理提供好的中文分词工具。 麻将是基于Scala的语言实现的中文分词软件包。这个项目的核心是最大概率分词,整个项目专为搜索引擎,文本信息抽取和自然语言处理设计,参考我来实现。性能优异,速度快。整个分词包易于使用,测试覆盖率高。 在线展示 :链接 ,您可以自己测试它的功能。有任何问题,可以发邮件至: 。 分词歧义解决方案 分词的方法有很多,现
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:14680064
    • 提供者:weixin_42097533
  1. Jiayan:甲言,专注于古代汉语(古汉语古文文言文文言)处理的NLP工具包,支持文言词库合成,分词,词性标注,断句和标点。Jiayan是为古典汉语设计的工具包,支持词典构建。 ,标记,POS标记,句子分段和标点符号-源码

  2. 甲言Jiayan 简介 甲言,取“Oracle言”之意,是一种专注于古汉语处理的NLP工具包。目前通用的汉语NLP工具均以现代汉语为核心语料,对古代汉语的处理效果很差(详见)。本项目的初衷,便是辅助古汉语信息处理,帮助有志于挖掘古文化矿藏的古汉语学者,爱好者等更好的地分析和利用文言资料,从“文化遗产”中创造出“文化新产”。当前版本支持,,,和五项功能,更多功能正在开发中。 功能 利用无监督的双,以及左右进行文言词库自动生成。 利用无监督,无词典的和进行古汉语自动分词。 利用词库合成功能产生的文言
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:222208
    • 提供者:weixin_42137022
« 12 »