您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 《动手学深度学习Pytorch版》Task4-机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer

  2. 机器翻译及相关技术 Task2中的循环神经网络部分,有实现预测歌词的功能。在那个任务中,训练数据的输入输出长度是固定的,而在机器翻译中,输出的长度是不固定的,所以不能直接用RNN来处理这种任务。 Encoder-Decoder框架是常用于机器翻译,对话系统这类场景的框架。 需要注意的是,在训练过程中Decoder的输入是真实的label,而预测时,输入是上一个ceil的预测值 机器翻译解码 通常用beam search。beam search是一种贪心算法,不是全局最优解。 注意力机制 在“
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:342kb
    • 提供者:weixin_38653602
  1. 动手学深度学习-task2

  2. 一、深度学习中的一些常见问题及解决方案 (1)欠拟合 欠拟合即模型无法得到较低的训练误差,导致欠拟合的主要原因是模型复杂度不够,特征维度过少,导致拟合的函数无法满足训练集,误差较大。 (2)过拟合 过拟合即模型的训练误差远小于它在测试数据集上的误差,导致过拟合的主要原因是模型复杂度过高,特征维度过多,导致拟合的函数完美的经过训练集,但是对新数据的预测结果则较差。 (3)解决方案 1、应对欠拟合问题,即增加其特征维度,优化模型,提升复杂度即可。 2、应对过拟合问题,有两种常见的解决方案:权重衰减和
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:67kb
    • 提供者:weixin_38677260
  1. [深度学习]动手学深度学习笔记-5

  2. Task2——梯度消失、梯度爆炸 5.1 梯度消失与梯度爆炸的概念 深度神经网络训练的时候,采用的是反向传播方式,该方式使用链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深。 那么如果连乘的因子大部分小于1,最后乘积的结果可能趋于0,也就是梯度消失,后面的网络层的参数不发生变化. 那么如果连乘的因子大部分大于1,最后乘积可能趋于无穷,这就是梯度爆炸。 5.2 梯度消失与梯度爆炸的后果 梯度消失会导致我们的神经网络中前面层的网络权重无法得到更新,也就停止了学习。 梯度爆炸会使得学
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:613kb
    • 提供者:weixin_38516658
  1. [深度学习]动手学深度学习笔记-4

  2. Task2——过拟合、欠拟合及其解决方案 4.1 欠拟合与过拟合的概念 欠拟合:模型拟合不够,在训练集(training set)上表现效果差,没有充分的利用数据,预测的准确度低。 过拟合:模型过度拟合,在训练集(training set)上表现好,但是在测试集上效果差,也就是说在已知的数据集合中非常好,但是在添加一些新的数据进来训练效果就会差很多,造成这样的原因是考虑影响因素太多,超出自变量的维度过于多了。 在表征线性回归模型的下面三张图中,左图使用一条直线来做预测模型,很明显无论如何调整起
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:411kb
    • 提供者:weixin_38611254
  1. 14天动手学深度学习-Task2

  2. 一、梯度消失、梯度爆炸以及Kaggle房价预测 随机初始化模型参数 在神经网络中,通常需要随机初始化模型参数。下面我们来解释这样做的原因。 如果将每个隐藏单元的参数都初始化为相等的值,那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值,并传递至输出层。**在反向传播中,每个隐藏单元的参数梯度值相等。因此,这些参数在使用基于梯度的优化算法迭代后值依然相等。**之后的迭代也是如此。在这种情况下,无论隐藏单元有多少,隐藏层本质上只有1个隐藏单元在发挥作用。因此,正如在前面的实验中所做的那样,我
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:296kb
    • 提供者:weixin_38697659