您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. n-gram的perl语言实现

  2. 用perl语言,通过n-gram算法,实现自然语言处理中的汉语切分问题
  3. 所属分类:Perl

    • 发布日期:2010-06-15
    • 文件大小:2mb
    • 提供者:linganbupt
  1. 灵柩软件 可用于汉语分词处理

  2. LJParser文本搜索与挖掘开发平台的十大功能: 1. 全文精准检索 支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词
  3. 所属分类:Web开发

    • 发布日期:2010-11-05
    • 文件大小:672kb
    • 提供者:zhangguoqiang52
  1. 自然语言处理汉语自动切分技术

  2. alk;fjoaejf;liwajeog
  3. 所属分类:专业指导

    • 发布日期:2010-12-07
    • 文件大小:6kb
    • 提供者:linlinxing
  1. 汉语自动分词综述

  2. 本文首先阐述了汉语自动分词研究的现实性和可能性,接着围绕该研究中的三个基本问题(切分歧义消解、未登录词处理和语言资源建设)展开了重点讨论,并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些意见。
  3. 所属分类:专业指导

    • 发布日期:2011-12-01
    • 文件大小:309kb
    • 提供者:katrina1rani
  1. 汉语自动分词研究评述

  2. 本文首先阐述了汉语自动分词研究的现实性和可能性,接着围绕该研究中的三个基本问题(切分歧义消解、未登录词处理和语言资源建设)展开了重点讨论,并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些个人意见
  3. 所属分类:其它

    • 发布日期:2011-12-11
    • 文件大小:309kb
    • 提供者:cobrahan
  1. 中文分词切分技术研究

  2. 本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配 算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短路径算法求解有向图。通过Nutch实验验证,该算法较Nutch原始搜索系统提高了其汉语切分的准确性以及切分速度,同时部分解决了交集型歧义切分问题。
  3. 所属分类:网络基础

    • 发布日期:2012-04-17
    • 文件大小:179kb
    • 提供者:wsde002
  1. 基于层叠隐马模型的汉语词法分析

  2. 提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集 成到一个完整的理论框架中1在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普 通词一样处理1未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识 别出未登录词,并计算出真实的可信度1在切分排歧方面,提出了一种基于N2最短路径的策略,即:在早期阶段召回N 个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未
  3. 所属分类:其它

    • 发布日期:2012-09-23
    • 文件大小:198kb
    • 提供者:qq7489451
  1. 信息处理用现代汉语词类标记规范

  2. 本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。 适用于汉语信息处理,也可供现代汉语教学与研究参考。
  3. 所属分类:其它

    • 发布日期:2014-03-03
    • 文件大小:463kb
    • 提供者:u013888274
  1. C# 分隔WAV文件,将一段汉语语音分割成为单字

  2. 语音识别技术的第一步是将连续的声音切片,这个代码用了最简单粗暴的方法,根据音量的大小,简单切分,前提是要知道这段语音中包含了多少个字。可以支撑不同采样率,不同位数,不同声道的各种WAV格式。
  3. 所属分类:C#

    • 发布日期:2017-08-05
    • 文件大小:95kb
    • 提供者:darou1000
  1. NLP分词算法,源码

  2. 最大概率分词算法,带详细源码 基于最大概率的汉语切分 目标:采用最大概率法进行汉语切分。 其中:n-gram用bigram,平滑方法至少用Laplace平滑。 输入:接收一个文本,文本名称为:corpus_for_test.txt 输出:切分结果文本, 其中:切分表示:用一个字节的空格“ ”分隔,如:我们 在 学习 。 每个标点符号都单算一个切分单元。 输出文件名为:学号.txt
  3. 所属分类:C/C++

    • 发布日期:2017-11-12
    • 文件大小:220kb
    • 提供者:mays_changzhi
  1. JcJc人工智能 错别字检测系统介绍PPT.pdf

  2. 基于 280 亿字汉语语料的分析基础 采用 NLP 自然语言语法分析和深度学习相结合的方法 使用汉语切分、汉语依存关系分析技术等中文智能技术 查错准确率和校对效率已经达到一个崭新的高度
  3. 所属分类:电子政务

    • 发布日期:2017-12-29
    • 文件大小:136kb
    • 提供者:accesine960
  1. 基于MP最大概率的Ngram汉语切分(北邮计算机语言学基础)

  2. 基于MP最大概率的Ngram汉语切分(北邮计算机语言学基础) 有简洁的说明文档和python源代码
  3. 所属分类:算法与数据结构

    • 发布日期:2018-01-11
    • 文件大小:654kb
    • 提供者:weixin_40289622
  1. 汉语语料库加工规范

  2. 《现代汉语语料库加工规范——词语切分与词性标注》词性标记
  3. 所属分类:搜索引擎

    • 发布日期:2018-01-12
    • 文件大小:167kb
    • 提供者:johnson219
  1. HanLP:汉语语言处理-源码

  2. HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善,性能高效,架构清晰,语料时新,可自定义的特点。 HanLP提供下列功能: 中文分词 HMM-两字组(速度与精度最佳平衡;一百兆内存) 最短路分词,N-最短路分词 由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务) 感知机分词,CRF分词 词典分词(侧重速度,每秒数千万字符;省内存) 极速词典分词 所有分词器都支持: 索引全切分模式 用户自定
  3. 所属分类:机器学习

    • 发布日期:2019-03-07
    • 文件大小:94mb
    • 提供者:iskugs
  1. klsstt_Java分词器word.1.3.1.jar

  2. 这是一个支持java的分词库,word分词库,实现语法分析和语料库统计相结合的方法,具备汉语切分技术、汉语语法分析技术、汉语依存关系分析技术。通过分词、词性标注等语义分析算法,再基于各类词库(包括专业词库、错误词库等),实现对客户提交的文献中的普通中文词汇、英文拼写、标点、数字、科技计量、重句、异形词、领导人姓名职务、领导人排序、政治性问题、目录、标题和图例公式序号等各种类型的错误。
  3. 所属分类:机器学习

    • 发布日期:2020-03-20
    • 文件大小:24mb
    • 提供者:klsstt
  1. 现代汉语语料库加工规范(pku)

  2. 北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语
  3. 所属分类:专业指导

    • 发布日期:2010-10-20
    • 文件大小:295kb
    • 提供者:yjsmzq
  1. Python 最大概率法进行汉语切分的方法

  2. 今天小编就为大家分享一篇Python 最大概率法进行汉语切分的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
  3. 所属分类:其它

    • 发布日期:2020-09-19
    • 文件大小:69kb
    • 提供者:weixin_38629939
  1. Python 最大概率法进行汉语切分的方法

  2. 要求: 1 采用基于语言模型的最大概率法进行汉语切分。 2 切分算法中的语言模型可以采用n-gram语言模型,要求n >1,并至少采用一种平滑方法; 代码: 废话不说,代码是最好的语言 import re import math MAX_SPLITLEN = 4#最大切分长度 corpus_lib = ''#corpus:语料 def init_corpus_lib(path): # 初始化语料库 global corpus_lib with open(path, 'r', enco
  3. 所属分类:其它

    • 发布日期:2020-12-25
    • 文件大小:73kb
    • 提供者:weixin_38599712
  1. 基于多元判别分析的汉语句群自动划分方法

  2. 针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,提出一种汉语句群自动划分方法。该方法以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(MDA)方法设计了一组评价函数J,从而实现汉语句群的自动划分。实验结果表明,引入切分片段长度因素和篇章衔接词因素可以改善句群划分性能,并且利用Skip-Gram Model比传统的向量空间模型(VSM)有更好的效果,其正确分割率Pμ达到85.37%、错误分割率Window Diff
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:317kb
    • 提供者:weixin_38656676
  1. 汉语篇章主位推进模式自动识别方法

  2. 为了实现篇章连贯性自动分析,针对语篇连贯应该具备“各句的主位和述位必须相互联系”这一条件,.研究了汉语篇章主位推进模式自动识别方法。该方法使用 LTP 语言科技平台进行句法分析进而进行主位切分,.使用词语相似度计算方法对主位、述位进行模式匹配。实验表明该方法能在一定程度上自动分析出句子间的主.位推进模式,进而促进汉语篇章连贯性研究。
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:589kb
    • 提供者:weixin_38656741
« 12 »