您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. perl实现中文分词-双向扫描法找出歧义段-n元语法概率模型消歧

  2. perl实现中文分词 先双向扫描法找出歧义段 再n元语法概率模型消歧 1998年人民日报语料下F1值达94%
  3. 所属分类:Perl

    • 发布日期:2009-05-27
    • 文件大小:7168
    • 提供者:heycinderella
  1. 《英语语法大全(完全版)》

  2. 第十六单元 句子概论  Ⅰ.句子的 5 类成分 1301   1 .基本成分 1302   2 .附属成分 1303  Ⅱ.名子中词语特点的 3 种表达方式 1308   1 .解析   2 .分析 3 .图解  Ⅲ.图解规则   1 . 4 个基本成分的图解办法 1309   2 .附属成分的图解办法 1310   3 .成语、助动词、动名词等的图解办法 1311 第十七单元 主语的 12 种类型(附图解) 1313  Ⅰ.名词(或代词) 1314  Ⅱ.名词成语 1315  Ⅲ.代词 13
  3. 所属分类:C

    • 发布日期:2010-10-24
    • 文件大小:2097152
    • 提供者:li1020249567
  1. n元语法及数据平滑

  2. n-gram和数据平滑,语言建模,最大似然估计,数据稀疏问题,Zipf 定律,平滑技术等等的介绍。
  3. 所属分类:专业指导

    • 发布日期:2011-12-01
    • 文件大小:586752
    • 提供者:katrina1rani
  1. 统计自然语言处理基础

  2. 第一部分 基础知识 第1章 绪论 1.1 理性主义者和经验主义者的方法 1.2 科学内容 1.3 语言中的歧义问题是自然语言难以处理的原因 1.4 第一手资料 1.5 深入阅读 1.6 习题 第2章 数学基础 2.1 概率论基础 2.2 信息论基础 2.3 深入阅读 2.4 习题 第3章 语言学基础 3.1 词性和词法 3.2 短语结枸 3.3 语义和语用 3.4 其他研究领域 3.5 深入阅读 3.6 习题 .第4章 基于语料库的工作 4.1 基础知识 4.2 文本 4.3 数据标注 4.
  3. 所属分类:专业指导

    • 发布日期:2012-07-26
    • 文件大小:26214400
    • 提供者:a06062125
  1. 基于N元语言模型的文本分类方法

  2. 基于N元语言模型的文本分类方法.pdf 汉语n元模型统计软件.ppt 基于N元语法的汉语自动分词系统研究.pdf 一种基于N元语法分布的语言模型自适应方法.pdf 语言模型的基本概念.doc N元语言模型的解码算法.doc N元语言模型的训练方法.doc 自动文本分类.pdf
  3. 所属分类:Java

    • 发布日期:2013-07-15
    • 文件大小:1048576
    • 提供者:qq415171148
  1. 统计自然语言处理基础 中文版

  2. 第一部分 基础知识 第1章 绪论 1.1 理性主义者和经验主义者的方法 1.2 科学内容 1.3 语言中的歧义问题是自然语言难以处理的原因 1.4 第一手资料 1.5 深入阅读 1.6 习题 第2章 数学基础 2.1 概率论基础 2.2 信息论基础 2.3 深入阅读 2.4 习题 第3章 语言学基础 3.1 词性和词法 3.2 短语结枸 3.3 语义和语用 3.4 其他研究领域 3.5 深入阅读 3.6 习题 .第4章 基于语料库的工作 4.1 基础知识 4.2 文本 4.3 数据标注 4.
  3. 所属分类:其它

    • 发布日期:2014-02-13
    • 文件大小:26214400
    • 提供者:aaa939291641
  1. 统计自然语言处理基础

  2. 第一部分 基础知识 第1章 绪论 1.1 理性主义者和经验主义者的方法 1.2 科学内容 1.3 语言中的歧义问题是自然语言难以处理的原因 1.4 第一手资料 1.5 深入阅读 1.6 习题 第2章 数学基础 2.1 概率论基础 2.2 信息论基础 2.3 深入阅读 2.4 习题 第3章 语言学基础 3.1 词性和词法 3.2 短语结枸 3.3 语义和语用 3.4 其他研究领域 3.5 深入阅读 3.6 习题 .第4章 基于语料库的工作 4.1 基础知识 4.2 文本 4.3 数据标注 4.
  3. 所属分类:专业指导

    • 发布日期:2019-04-09
    • 文件大小:26214400
    • 提供者:lsling
  1. 语言模型与数据集.md

  2. 语言模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 T 的词的序列 w1,w2,…,wT ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P(w1,w2,…,wT). 本节我们介绍基于统计的语言模型,主要是 n 元语法( n -gram)。在后续内容中,我们将会介绍基于神经网络的语言模型。
  3. 所属分类:深度学习

    • 发布日期:2020-02-17
    • 文件大小:5120
    • 提供者:qq_40441895
  1. 统计自然语言处理

  2. 统计自然语言处理是一本很好的书籍,是一本很基础的书籍目录 序二 第2版前宣 第1版前言 第1章绪论 11基本概念 1.1.1语言学与语音学 2自然语言处理 11.3关于“理解”的标准 1,2自然语言处理研究的内容和面临的困难 1,2,1自然语言处理研宄的内容 1,22自然语言处理涉及的几个层次 1.2.3自然语言处理面临的困难 13自然语言处理的基本方法及其发展 13,1自然语言处理的基本方汏 3,2自然语言处理的发展 14自然语言处理的研究现状 本书的内容安挂 第2章顸备知识 2,1概率论基本
  3. 所属分类:Python

    • 发布日期:2019-03-04
    • 文件大小:25165824
    • 提供者:weixin_34749051
  1. 基于n_gram及依存分析的中文自动查错方法.pdf

  2. 自动校对是自然语言处理领域中一个有着广阔应用前景的研究方向。本文使用字的三元模型对文本进行局部的分析与错误查找,同时将依存文法分析应用于自动校对中,由于依存文法对句子进行全局分析,指出了句子中词与词之间的依存关系,所以能够有效的查找出文本中的远距离搭配错误,补充了n元语法的不足。结合对文本的散串分析,本文提出了一个较为理想的中文自动查错方法。
  3. 所属分类:机器学习

    • 发布日期:2020-08-17
    • 文件大小:455680
    • 提供者:qq_23345283
  1. python文本数据相似度的度量

  2. 编辑距离 编辑距离,又称为Levenshtein距离,是用于计算一个字符串转换为另一个字符串时,插入、删除和替换的次数。例如,将’dad’转换为’bad’需要一次替换操作,编辑距离为1。 nltk.metrics.distance.edit_distance函数实现了编辑距离。 from nltk.metrics.distance import edit_distance str1 = 'bad' str2 = 'dad' print(edit_distance(str1, str2)) N
  3. 所属分类:其它

    • 发布日期:2020-12-24
    • 文件大小:46080
    • 提供者:weixin_38633475
  1. 从c++到python自学篇列表/元组/字典及练习题

  2. 前言 通过学习python,会发现python的语法真的很强大,如果用c++的思维写python会变的很复杂,在python中有很多方法可以直接使用,不必再去写好几行代码去实现,这就是python的智能之处吧。 这篇帖子呢 列表 python中的列表和c++的数组很像,同样是存储多个数据。 和c++的不同之处,c++必须是规定类型,如int a[10];在python中可以保存n个数据,并且每个数据类型可以不一样。 1.列表的定义 names=["小红",小李] int a[10] 等价于na
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:88064
    • 提供者:weixin_38559646
  1. nlp入门基础之语言模型

  2. nlp入门基础之语言模型 文章目录nlp入门基础之语言模型1. 简介2. n元语法 1. 简介 一段自然语言文本可以看做是一个离散时间序列s=ω1,ω2,⋯ ,ωTs=\omega_1,\omega_2,\cdots,\omega_Ts=ω1​,ω2​,⋯,ωT​,而一个语言模型的作用是构建这个时间序列的概率分布P(s)P(s)P(s)。概率计算公式可以表示为: KaTeX parse error: No such environment: align* at position 8: \beg
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:44032
    • 提供者:weixin_38696090
  1. Datawhale_打卡2

  2. 4 文本预处理与语言模型 4.1 文本预处理 主要包括读入文本、分词、建立字典将每个词映射到一个唯一的索引(index)和将文本从词的序列转换为索引的序列,方便输入模型 4.2 语言模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TTT的词的序列w1,w2,…,wTw_1, w_2, \ldots, w_Tw1​,w2​,…,wT​,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P(w1,w2,…,wT). P(w_1, w_2, \ldots, w_T). P(w
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:67584
    • 提供者:weixin_38663837
  1. NLP课程

  2. NLP课程文本预处理语言模型n元语法时序数据的采样循环神经网络从零开始实现循环神经网络 文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 以下代码是读取文章的demo import collections import re def read_time_machine(): with open
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:103424
    • 提供者:weixin_38657115
  1. KeyBERT:使用BERT进行最少的关键字提取-源码

  2. 基伯特 KeyBERT是一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。 相应的媒体帖子可以在 找到。 目录 2.1。2.2。2.3。2.4。2.5。 1.关于项目 尽管已经有很多方法可用于关键字生成(例如 , ,TF-IDF等),但我想创建一种非常基本但功能强大的方法来提取关键字和关键字。这就是KeyBERT进来的地方!它使用BERT嵌入和简单的余弦相似性来查找文档中与文档本身最相似的子短语。 首先,使用BERT提取文档嵌入,以获得文档级表示。
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:78848
    • 提供者:weixin_42133861
  1. mongoid_fulltext:Mongoid ODM的基于n-gram的全文本搜索实现-源码

  2. 蒙古文全文搜索 使用针对Mongoid ODM的n元语法匹配进行全文搜索。 MongoDB在v2.4中引入了全文本搜索功能,因此,该gem非常适合于您想要的东西少于成熟的索引服务的情况。 mongoid_fulltext gem可让您在相对较短的字符串中进行模糊字符串搜索,这非常适合根据Rails模型的显示名称填充自动完成框,但不适用于为成千上万HTML文档建立索引。 安装 此gem的0.6.1或更高版本需要Ruby 1.9.3或更高版本,并且可以与Mongoid 3、4、5和6一起使用。对
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:36864
    • 提供者:weixin_42097819
  1. 自然语言处理纳米度:Udacity自然语言处理纳米度-源码

  2. 自然语言处理纳米度 Udacity自然语言处理工程师与Amazon Alexa和IBM Watson共同创建 项目: 项目1: 使用多种技术(包括表格查找,n元语法和隐马尔可夫模型)来标记句子中的语音部分,并比较它们的性能。 专案2: 管道接受英语文本作为输入,并返回法语翻译。 专案3: 该模型将原始音频转换为特征表示,然后将其转换为转录文本。
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:475136
    • 提供者:weixin_42122988
  1. MarkovMerge:用于在多个文本源上训练基于n元语法的Markov模型的程序-源码

  2. 马尔可夫合并 贡献者 是Connor Boyle对TwitterBot的个人作品的重新适应。 TwitterBot是与队友Ayoub Belemlih和Andrew Cui合作开发的Macalester大学COMP 221课程的一个项目。 MarkovMerge完全由Connor的原始Python代码组成,除了数据源,包括2016年左右Ayoub抓取的推文以及从Gutenberg项目下载并重新格式化的几本书。 (可在上找到MarkovMerge的源代码) 关于 是将不同的文本训练数据集组合在
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:2097152
    • 提供者:weixin_42139871
  1. 利用网页噪声和N元语法的网络钓鱼网页检测算法

  2. 利用网页噪声和N元语法的网络钓鱼网页检测算法
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:337920
    • 提供者:weixin_38664989
« 12 3 4 5 »