您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Ngram Statistics Package (Text-NSP)

  2. The Ngram Statistics Package (NSP) is a suite of programs that aids in analyzing Ngrams in text files. NSP consists of two core programs: Program count.pl takes flat text files as input and generates a list of all the Ngrams that occur in those file
  3. 所属分类:其它

    • 发布日期:2009-11-29
    • 文件大小:977920
    • 提供者:yunjiali
  1. mahout 0.5版本

  2. 新添功能:基于高性能的Colt library的 math、collections模块采用FP-bonsai pruning而实现更快的频 繁模式增长(Frequent Pattern Growtt)算法并行计算Dirichlet 聚 类算法(基于模型的聚类算法)并行计算基于共现算法的推荐引擎结合基于LLR的ngram生成算法并行处理文本文档 到向量的转换并行Lanczos SVD(奇异 值分解)计算提供运行算法、工具以及范例的脚本程序。
  3. 所属分类:Java

    • 发布日期:2011-08-23
    • 文件大小:4194304
    • 提供者:wwn2012
  1. Speech and Language Processing

  2. An introduction to natural language processing
  3. 所属分类:互联网

    • 发布日期:2011-10-03
    • 文件大小:15728640
    • 提供者:terrortang
  1. Ngram分词程序

  2. 该程序调用IKAnalyzer3.2.3.jar提供的接口实现了对汉字词的简单分词,目前尚不支持对带有标点符号的段落的解析。
  3. 所属分类:Java

    • 发布日期:2011-11-27
    • 文件大小:6144
    • 提供者:djskl
  1. 字符串距离

  2. 开发计算两个字符串间的编辑距离,LCS距离和N-gram距离的函数。 (1)编辑距离 字符串a和b的编辑距离ED(i,j)表示把字符串a转换成b所需要的最少操作次数,这些操作可以是:插入一个字符,删除一个字符,替换一个字符。 (2)LCS相似度 字符串a和b的LCS(Longest Common Subsequence)相似度是a和b间的最大相同子串的长度。显然LCS(i,j)越大,a,b越相似。 (3)N-gram相似度 设Ngram(a) 是字符串a中长度为N的子串的集合。两个字符串a,b
  3. 所属分类:C/C++

    • 发布日期:2012-03-04
    • 文件大小:24576
    • 提供者:yqahx
  1. SRILM的ngram训练相关的类图及流程图

  2. 本人阅读SRILM源代码的笔记,使用starUML及其逆向工程工具绘制。 主要针对SRILM的训练,即ngram-count。 内含5个jpg文件: 1.类图--与ngram-count相关的主要类的静态图; 2.ngram-count--从语料训练出模型的主要流程; 3.lmstats.countfile--ngram-count的子流程,用于构建词汇表和统计ngram的频度 4.ngram.estimate--ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条
  3. 所属分类:专业指导

    • 发布日期:2012-09-02
    • 文件大小:3145728
    • 提供者:yqzhao
  1. SRILM源代码分析笔记

  2. SRILM源代码阅读笔记。 主要针对SRILM的ngram的训练,即ngram-count。 7个文件: 1.类图.jpg:与ngram-count相关的主要类的静态图(使用了starUML的逆向工程工具); 2.ngram-count.jpg:从语料训练出模型的主要流程; 3.lmstats.countfile.jpg:ngram-count的子流程,用于构建词汇表和统计ngram的频度; 4.ngram.estimate.jpg:ngram-count的子流程,在词汇表和ngram频度的基
  3. 所属分类:专业指导

    • 发布日期:2012-09-04
    • 文件大小:4194304
    • 提供者:yqzhao
  1. 基于MP最大概率的Ngram汉语切分(北邮计算机语言学基础)

  2. 基于MP最大概率的Ngram汉语切分(北邮计算机语言学基础) 有简洁的说明文档和python源代码
  3. 所属分类:算法与数据结构

    • 发布日期:2018-01-11
    • 文件大小:669696
    • 提供者:weixin_40289622
  1. ngram 算法 尝试

  2. ngram 尝试算法 希望下载的人能继续编写下去。可以互相讨论
  3. 所属分类:搜索引擎

    • 发布日期:2018-11-11
    • 文件大小:5120
    • 提供者:fairy989
  1. SRILM与ngram-count相关的主要类的类图

  2. SRILM与ngram-count相关的主要类的类图 使用starUML及其逆向工程工具绘制
  3. 所属分类:教育

    • 发布日期:2012-09-02
    • 文件大小:1048576
    • 提供者:yqzhao
  1. [文本语义相似] 基于ngram-tf-idf的余弦距离

  2. 文本相似在问答系统中有很重要的应用,如基于知识的问答系统(Knowledge-based QA),基于文档的问答系统(Documen-based QA),以及基于FAQ的问答系统(Community-QA)等。像 对于问题的内容,需要进行相似度匹配,从而选择出与问题最接近,同时最合理的答案。本节介绍 基于ngram-tf-idf的余弦距离计算相似度。 本节将介绍两种实现:基于sklearn  和 基于gensim 基于sklearn的方式如下: import os import re impo
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:30720
    • 提供者:weixin_38751014
  1. VarDial2020:脚本和数据来自“ Ceolin,A.&Zhang,H.(2020)。使用过滤后的字符ngram区分标准的罗马尼亚和摩尔达维亚推文。在第七届NLP相似语言,变种和方言研讨会论文集,265- 272。”-源码

  2. VarDial2020 该文件夹包含Team Phlyers在VarDial 2020上为RDI共享任务开发的资料,并在以下内容中进行了说明: Ceolin,A.&Zhang,H.(2020年)。使用过滤字符ngram区分标准罗马尼亚和摩尔达维亚推文。在关于类似语言,变种和方言的NLP第七次研讨会论文集中,265-272。 该存储库中包含的代码已获得MIT许可。对于从其他来源获取的材料,请参考资源库中包含的链接。 这是文件列表。 数据:此文件夹包含共享任务的训练数据,这些数据在Butnaru和
  3. 所属分类:其它

    • 发布日期:2021-03-21
    • 文件大小:116391936
    • 提供者:weixin_42129005
  1. ngraminator:一个非常小的ngram生成器-源码

  2. 谈判者 一个用于Node.js和浏览器的非常小的ngram生成器。查看。 引发 Node.js ngraminator = require ( 'ngraminator' ) // ngraminator(wordArray, ngramLenghtArray) available 脚本标签 // ngraminator(wordArray, ngramLenghtArray) available 用法 const str = "mary had a little lamb it's
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:66560
    • 提供者:weixin_42165583
  1. ngram-源码

  2. ngram
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:4194304
    • 提供者:weixin_42127020
  1. 分词学习(3),基于ngram语言模型的n元分词-附件资源

  2. 分词学习(3),基于ngram语言模型的n元分词-附件资源
  3. 所属分类:互联网

  1. 分词学习(3),基于ngram语言模型的n元分词-附件资源

  2. 分词学习(3),基于ngram语言模型的n元分词-附件资源
  3. 所属分类:互联网

  1. ngrams:根据共享ngram的数量从词汇表中选择单词-源码

  2. 该存储库实现计算n-gram并使用它们匹配单词。 函数计算给定两个单词的所有唯一n-gram(最多给定的最大n),并对两个提供的单词中存在多少个唯一n-gram进行计数。 应用程序文件位于文件夹“ src”中。 除了C ++标准库以外,该应用程序没有外部依赖项。 该应用程序由以下文件组成:ngrams.cpp ngrams.hpp main.cpp 使用以下语法在命令行上运行该应用程序。 program_name --vocabulary vocabulary.txt --words wo
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:9216
    • 提供者:weixin_42166105
  1. ngram-tracing:这是https:doi.org10.1093llcfqy042的作者身份研究中使用的ngram跟踪方法的一部分-源码

  2. N-Gram追踪 使用的作者身份归因方法是新颖的,因为它适用于非常短的文本。 由于原始实现是在perl中实现的,因此无法在任何地方使用,因此我想我将在python中重新实现它,并可能对其进行泊坞化,以便其他任何人都可以使用它来分析自己的数据集。 ...这是一项正在进行的工作。
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:5242880
    • 提供者:weixin_42166261
  1. expgram:expgram:具有简洁存储的ngram工具包-源码

  2. expgram expgram是一个ngram工具包,可以有效处理大型ngram数据: 用于简洁表示ngram数据的简洁数据结构 。 在提到的ngram压缩方法中,出于计算效率的原因,我们不执行逐块压缩(或每8k字节zlib)。 语言模型由提出的MapReduce使用pthread和/或MPI估计。 对于基于机器翻译的基于图表的解码,可以更好地估计剩余成本,从而估计低阶ngram语言模型参数 。 由和有效的前缀/后缀ngram上下文计算激发的类似转换器的界面。 请注意,此工具箱主要是
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:390144
    • 提供者:weixin_42115513
  1. ngram:快速n-Gram标记化-源码

  2. ngram:快速n-Gram标记化
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:189440
    • 提供者:weixin_42157567
« 12 3 4 »