您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. nlp_course:YSDA自然语言处理课程-源码

  2. YSDA自然语言处理课程 这是2020年版本。 有关上一年的课程资料,请转到 每周的讲座和研讨会资料位于./week*文件夹中,有关资料和说明,请参阅README.md YSDA作业的最后期限将在Anytask中列出()。 任何技术问题,想法,课程材料中的错误,贡献想法-添加 安装库和故障排除:。 教学大纲 词嵌入 讲座:单词嵌入。 分布语义。 基于计数的(神经前)方法。 Word2Vec:学习向量。 GloVe:先数一数然后学习。 评价:内在性与外在性。 分析和可解释性。 研讨会:玩单词
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:392167424
    • 提供者:weixin_42105816
  1. NMT-源码

  2. 神经机器翻译 在这里,我们建立了一个神经机器翻译(NMT)模型,将人类可读的日期(“ 2009年6月25日”)转换为机器可读的日期(“ 2009-06-25”)。 它是通过使用注意力模型完成的,该模型是最复杂的序列间模型之一。 此处使用的模型可用于将一种语言翻译成另一种语言,例如从英语翻译成印地语。 但是,语言翻译需要大量的数据集,通常需要花费数天时间在GPU上进行训练。
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:9216
    • 提供者:weixin_42115513
  1. keras-transformer:变压器的Keras实现-源码

  2. 变压器 该项目实施“注意就是您所需要的”论文。 我们提供了详细的指南,以了解变压器的概念和所需的Keras功能/技巧(请参阅Guide.md和Walkthrough.md)。 我们希望该软件和文档将使社区能够以更健壮和更快的方式创建和自动化自定义Keras图层/模型/解决方案。 我们还分享了可以通过DSL设置的机器翻译演示。 我们将不胜感激:) 如果可以训练任何大型模型并共享结果,那就太好了。 由于计算资源有限,目前无法测试。 尽管我们在开发过程中进行了正式和非正式的测试; 我们将不
  3. 所属分类:其它

    • 发布日期:2021-02-16
    • 文件大小:81920
    • 提供者:weixin_42122340
  1. 课程自然语言处理专业化-源码

  2. 课程自然语言处理专业化 这是我针对上述课程的作业的答案。 如果您确实受困并且没有人可以帮助您,请使用它作为参考。 最好自己尝试并学习,而不是从别人那里复制。 首先查找“讨论论坛”或“ Slack”,然后尝试。 课程1-具有分类和向量空间的自然语言处理 第一周-使用Logistic回归进行情感分析 第二周-朴素贝叶斯的情感分析 第三周-向量空间模型 第4周-机器翻译和文档搜索 课程2-使用概率模型的自然语言处理 第一周-自动更正
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:101376
    • 提供者:weixin_42133899
  1. expgram:expgram:具有简洁存储的ngram工具包-源码

  2. expgram expgram是一个ngram工具包,可以有效处理大型ngram数据: 用于简洁表示ngram数据的简洁数据结构 。 在提到的ngram压缩方法中,出于计算效率的原因,我们不执行逐块压缩(或每8k字节zlib)。 语言模型由提出的MapReduce使用pthread和/或MPI估计。 对于基于机器翻译的基于图表的解码,可以更好地估计剩余成本,从而估计低阶ngram语言模型参数 。 由和有效的前缀/后缀ngram上下文计算激发的类似转换器的界面。 请注意,此工具箱主要是
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:390144
    • 提供者:weixin_42115513
  1. DeepLearning-Project4:语言翻译-源码

  2. 深度学习项目4 语言翻译 语言翻译在这个项目中,您将窥视神经网络机器翻译的领域。 您将在英语和法语句子的数据集上训练序列到序列模型,该模型可以将新句子从英语翻译为法语。 获取数据由于将英语的全部语言翻译成法语会花费很多时间,因此我们为您提供了英语语料库的一小部分。
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:5242880
    • 提供者:weixin_42105816
  1. YouthIcon:让我们将印度放在NLP地图上-源码

  2. 青年图标 我们的目标是将印度纳入NLP地图。 我们必须为资源贫乏的印度语言建立NMT(神经机器翻译)模型。 我们还将为印第安人建立一个生动的NLP项目集合,供印第安人使用。 我们以为模型。 顾名思义,YouthIcon将是NLP针对印度语言进行的一项研究工作,该语言资源低,开源,连续,广泛,分布式和在线。 YouthIcon将包含用于为印度语言建立开放基准NLP结果的数据,代码,结果和研究。 YouthIcon-MT将包含机器运输模型。 作为机器翻译(MT),自然语言处理(NLP)的应用领域
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:57671680
    • 提供者:weixin_42121412
  1. 变压器-源码

  2. 使用Pytorch的机器翻译的简约变压器实现 客户群 预处理: bpe_cli :了解BPE模型 vocab_cli :建立词汇 网络: create_cli :创建网络 learn_cli :运行学习 translate_cli :运行推理 使用-h选项运行客户端,以获取可用选项的详细说明。 用法示例: 在下文中,我们将$TRAIN , $VALID和$TEST变量包含各自的train / valid / test文件的后缀,其中$SS和$TT变量指示源语言和目标语言方面的文件扩展名。
  3. 所属分类:其它

    • 发布日期:2021-02-10
    • 文件大小:31744
    • 提供者:weixin_42134144
  1. Design of a Tibetan Word Segmentation System

  2. 语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础.随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题.自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析.本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分决算法和还原算法.系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:252928
    • 提供者:weixin_38599545
  1. 构建和剖析中英三元组可比语料库

  2. 由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到应用系统的性能。为了克服平行语料库固有的缺陷,本文提出了构建和剖析中英三元组可比语料库的技术研究。这项研究采用可比语料库和语言自动剖析技术,使用统计和规则相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库中的本族英语和中式英语进行统计分析。在此基础上,利用n-元词串、关键词簇等自动抽取技术挖掘基于本族语言模型的双
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:425984
    • 提供者:weixin_38601878
  1. 三元组可比语料库自动剖析技术研究与应用

  2. 国内外基于语料库的翻译研究主要集中在翻译共性、翻译规范、译者风格和翻译培训等涉及翻译理论和翻译实践方面的研究;提出的基于三元组可比语料库的自动语言剖析技术扩大了该研究领域的内涵,使其包括面向自然语言处理的应用研究。从工程可实现性考虑,创新性地提出了建造三元组可比语料库,利用n-元词串、关键词簇和语义多词表达等自动抽取技术,通过对比中式英语表达,发掘英语本族语言模型,实现改进和发展机器翻译、跨语言信息检索等自然语言处理应用的目标。
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:1048576
    • 提供者:weixin_38674627
  1. 基于依存关系的中文名词性谓词语义角色标注研究

  2. 语义角色标注是自然语言处理的一个重要研究内容,性能对机器翻译等研究有重大影响。实现了一个基于依存关系的中文名词性谓词语义角色标注平台,并对名词性谓词进行识别,使用最大熵分类模型在Chinese NomBank的转换语料上进行系统实验,对各种词法特征、结构特征及其组合进行了测试,标准语料上F1值达到78.09,基于自动句法树的语料上的F1值达到67.42。
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:657408
    • 提供者:weixin_38591615
  1. byteNet-tensorflow:用于字符级语言建模的ByteNet-源码

  2. byteNet张量流 这是DeepMind的论文《字节网模型的张量流实现。 从摘要 ByteNet解码器在字符级语言建模方面达到了最先进的性能,并且优于以前通过递归神经网络获得的最佳结果。 ByteNet还在原始字符级机器翻译上实现了性能,该性能接近于在二次时间内运行的最佳神经翻译模型。 ByteNet学习的隐式结构反映了序列之间的预期比对。 ByteNet编解码器模型: 图像源-论文中的 该模型逐层将散乱的1d卷积应用于顺序数据,以再次获得源编码。 解码器然后对目标序列(由编码器输出调节
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:1048576
    • 提供者:weixin_42127783
  1. OpenSeq2Seq:使用语音识别,Text2Speech和NLP进行有效实验的工具包-源码

  2. OpenSeq2Seq:用于序列到序列模型的分布式和混合精度训练的工具包 OpenSeq2Seq的主要目标是使研究人员能够最有效地探索各种序列到序列模型。 通过完全支持分布式和混合精度培训来实现效率。 OpenSeq2Seq使用TensorFlow构建,并为训练用于神经机器翻译,自动语音识别,语音合成和语言建模的编码器-解码器模型提供了所有必要的构建块。 文档和安装说明 产品特点 型号: 神经机器翻译 自动语音识别 语音合成 语言建模 NLP任务(情感分析) 数据并行分布式培训 多GPU
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:49283072
    • 提供者:weixin_42139871
  1. 垃圾邮件处理者::incoming_envelope:垃圾邮件检测器-源码

  2. :incoming_envelope: 垃圾邮件发送者 :postbox: 垃圾邮件检测器 概要 文本挖掘是一个广阔的领域,随着生成的大量文本数据而越来越受欢迎。 使用机器学习模型已经完成了一些应用程序的自动化,例如情感分析,文档分类,主题分类,文本摘要和机器翻译。 垃圾邮件过滤是文档分类任务的一个示例,该任务涉及将电子邮件分类为垃圾邮件或非垃圾邮件(又名火腿)。 在这个项目中,我将以使用Python和可公开获得的邮件语料库的教程的形式,介绍如何实现这种系统的不同步骤。 输出将是一个AP
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:44040192
    • 提供者:weixin_42119866
  1. deep_learning_NLP:用于NLP的深度学习架构的Keras,PyTorch和NumPy实现-源码

  2. :red_heart: 适用于NLP的深度学习架构 该存储库包含一些针对NLP的深度学习架构的Keras,PyTorch和NumPy实现。 有关NLP深度学习的快速理论介绍,我建议您阅读我的。 PyTorch中的神经机器翻译(NMT) 经典seq2seq模型“基于注意力的神经机器翻译的有效方法” ( )的紧凑,功能齐全且备受好评的PyTorch实现,并支持该方法第3.1小节中介绍的三种全球注意力机制论文:(1)点,(2)常规和(3)concat,以及堆叠与非堆叠RNN编码器和解码器,以及双
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:56623104
    • 提供者:weixin_42175776
  1. TensorFlow汇总-源码

  2. Tensorflow Seq2seq文本汇总 该分支在tensorflow r1.1中使用新的tf.contrib.seq2seq API。 对于r1.0用户,请检查 这是使用双向GRU编码器和GRU解码器的序列到序列模型的实现。 该项目旨在帮助人们立即开始进行抽象短文本摘要化。 希望它也可以在机器翻译任务上工作。 数据集 请检查 。 预训练模型 用法 设定环境 使用GPU 如果您想训练模型并拥有Nvidia GPU(例如GTX 1080,GTX Titan等),请设置CUDA环境并安装te
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:864256
    • 提供者:weixin_42164685
  1. Neuromonkey:基于TensorFlow的NLP中序列学习的开源工具-源码

  2. 神经猴 使用TensorFlow进行神经序列学习 Neural Monkey软件包为顺序神经网络模型提供了更高级别的抽象,在自然语言处理(NLP)中最为突出。 它基于构建。 它可用于NLP中顺序模型的快速原型制作,例如可用于神经机器翻译或句子分类。 更高级别的API汇集了标准构建块(RNN编码器和解码器,多层感知器)的集合以及添加直接在TensorFlow中实现的新构建块的简单方法。 用法 neuralmonkey-train neuralmonkey-run neuralmonk
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:10485760
    • 提供者:weixin_42122432
  1. attn2d:普遍注意:2D卷积网络用于序列到序列的预测-源码

  2. 这是Fairseq(-py)的一个分支,具有以下模型的实现: 普遍注意-二维卷积神经网络用于序列到序列的预测 NMT通过二维卷积模型对源序列和目标序列进行联合编码。 Pervasive Attention还提供了广泛的解码网格,我们可以利用该网格有效地训练wait-k模型。 请参阅。 同步机器翻译的高效Wait-k模型 具有单向编码器并联合训练多个wait-k路径的Transformer Wait-k模型(Ma等,2019)。 请参阅。 Fairseq要求和安装 版本> = 1.4.
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:1048576
    • 提供者:weixin_42097189
  1. spark-nlp:最先进的自然语言处理-源码

  2. Spark NLP:最先进的自然语言处理 Spark NLP是建立在Apache Spark ML之上的自然语言处理库。 它为机器学习管道提供了简单,高性能和准确的NLP注释,这些注释在分布式环境中易于扩展。 Spark NLP带有1100多种预训练的管道和模型,支持192多种语言。 它支持可在集群中无缝使用的最新转换器,例如BERT , XLNet , ELMO , ALBERT和Universal Sentence编码器。 它还提供令牌化,分词,词性标记,命名实体识别,依赖性分析,拼写检查
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:143654912
    • 提供者:weixin_42104906
« 1 2 ... 8 9 10 11 12 1314 15 »