您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 稀疏矩阵与矢量的乘法

  2. 优化GPU的CSR稀疏矩阵与矢量的乘法加速提高加速比
  3. 所属分类:其它

    • 发布日期:2010-03-18
    • 文件大小:89kb
    • 提供者:wangzhuowei
  1. GPU(Graphics processing unit)编程手册

  2. 介绍了GPU编程的优化方法、技巧从而提高其性能
  3. 所属分类:其它

    • 发布日期:2010-10-14
    • 文件大小:3mb
    • 提供者:hobgoblin131
  1. Nvidia优化图形流水线

  2. 图形学优化的好资料,深入熟悉渲染流畅和Direct3D
  3. 所属分类:网络游戏

    • 发布日期:2011-08-11
    • 文件大小:835kb
    • 提供者:Fehostin
  1. arm mali gpu

  2. arm mali gpu 开发文档参考,主要讲解mali gpu 优化问题
  3. 所属分类:Android

    • 发布日期:2011-10-15
    • 文件大小:686kb
    • 提供者:meyangyihua111
  1. GPU精粹2:高性能图形芯片和通用计算编程技...part1.rar

  2. 本书目录 第Ⅰ部分 几何复杂性 第1章 实现照片级真实感的虚拟 植物 5 1.1 场景管理 6 1.1.1 种植栅格 6 1.1.2 种植策略 6 1.1.3 实时优化 7 1.2 草层 7 1.2.1 通过溶解模拟Alpha透明 9 1.2.2 变化 10 1.2.3 光照 11 1.2.4 风 12 1.3 地面杂物层 12 1.4 树和灌木层 13 1.5 阴影 14 1.6 后处理 15 1.6.1 天空圆顶辉散 16 1.6.2 全场景辉光 16 1.7 本章小结 17 参考文献 1
  3. 所属分类:硬件开发

    • 发布日期:2012-02-07
    • 文件大小:59mb
    • 提供者:on__no
  1. 用GPU增强可视化分类

  2. 对于处理大量的数字图像和视频来说,可视化分类是重要的,因为文本元数据是不完备或是不方便利用的。对于图像和视频的可视化分类来说,bag-of-words模型已经变成了最有力量的方法。尽管拥有高的精确度,但这个模型严重的缺点是大的计算量。在新的CPU和GPU构架中增加计算能力是由于提高了他们的并行水平,利用这种并行成为处理bag-of-words大的计算量的一种重要方法。当基于bag-of-words优化一个系统时,目的是为了使图像处理过程花费的时间最小。
  3. 所属分类:专业指导

    • 发布日期:2012-02-21
    • 文件大小:639kb
    • 提供者:nls123321
  1. 基于GPU的现代并行优化算法.pdf )

  2. 最新论文,关于GPU的现代并行化算法,里面对图想处理中适合并行加速的方面进行了总结。
  3. 所属分类:C

    • 发布日期:2012-03-16
    • 文件大小:886kb
    • 提供者:hyccnu
  1. CPU GPU协同并行计算

  2. CPU GPU协同并行计算 ;异构混合,协同并行计算,GPU计算,性能优化
  3. 所属分类:C

    • 发布日期:2012-11-03
    • 文件大小:655kb
    • 提供者:maojng
  1. flash性能测试优化示例

  2. flash性能测试优化示例...有两个主要因素可以决定Flash的性能:CPU或GPU[解释:图形处理器(Graphics Processing Unit) ]的使用和内存的使用。这些因素不是互相独立的。一些优化方法也许在这个方面可以提升性能,但是会对另一个方面有副作用。 比如,为了降低CPU或GPU的加载而增加内存的使用。
  3. 所属分类:Actionscript

    • 发布日期:2012-11-19
    • 文件大小:8mb
    • 提供者:lijiaqing167
  1. CPU+GPU 异构编程常见关键技术

  2. GPU编程虽然能利用数以百计的核心来加速,但是一些编程技术的忽视会导致程序性能极差,加速比很低. 如访存方式,线程组织形式,内核函数的切换等等,这些都是要考虑的在程序设计过程中.
  3. 所属分类:其它

    • 发布日期:2012-12-01
    • 文件大小:93kb
    • 提供者:wuhanyinhua
  1. GPU高性能运算之CUDA

  2. 《GPU高性能运算之CUDA》精选典型实用例程,详解CUDA使用细节,重视理论结合实际,介绍并行程序设计方法,深入分析硬件架构,揭示模型与底层映射关系,精心总结优化经验,解析高性能编程技巧。
  3. 所属分类:C/C++

    • 发布日期:2012-12-03
    • 文件大小:14mb
    • 提供者:hiuyue
  1. CPU-GPU系统中基于剖分的全局性能优化方法.pdf

  2. 针对将应用移植到CPU-GPU异构并行系统上时优化策略各自分散、没有一个全局的指导思想的问题,提出了一种基于剖分的全局性能优化方法。该方法由优化策略库、剖分工具库和策略配置模块组成.优化策略库将应用移植到异构并行系统上的性能优化过程划分为访存级、内核加速级和数据划分级3级优化;针对3级优化剖分工具库提供了3级剖分机制,通过运行时的剖分技术获取剖分信息;策略配置模块根据所获取的信息指导用户在每级优化中选择合适的优化策略.实验证明,基于剖分的全局性能优化方法可以明确地指导将应用移植到CPU—GPU
  3. 所属分类:硬件开发

    • 发布日期:2013-06-08
    • 文件大小:974kb
    • 提供者:xiaoxio006
  1. 基于GPU的并行支持向量机的设计与实现

  2. 1.在综述了当前高性能计算领域热门技术的基础上,选择GPU作为并行支持向量 机的实现工具。在GPU编程方法方面,选择了OpenCL作为具体的代码实现技术,并搭 建了GPU计算的实验平台和基于VisualStudio2010的OpenCL的开发环境。 2.介绍了支持向量机理论的基本原理及其数学模型,引出了SMO训练算法并对其 进行了详细的说明。研究了LibSVM的使用方法,并在之前搭建的两个平台上做了实验 仿真,以用来作为参照基准。 3.根据SVM训练和预测算法中的并行点,提出了用于多类分类器的
  3. 所属分类:专业指导

    • 发布日期:2013-06-08
    • 文件大小:2mb
    • 提供者:xiaoxio006
  1. 面向CPU-GPU异构并行系统的编程模型与编译优化关键技术研究

  2. 随着超大规模集成电路技术的不断进步,单芯片上集成了越来越多的晶体管, 目前已达到10亿的量级。然而,受到CMOS工艺特征尺寸的限制,芯片的主频 在达到4GHz之后继续提升的空间有限,多核并行逐渐成为提升处理器计算性能, 同时也是充分利用丰富的片上资源的主要技术途径。4-8核的通用CPU目前已 成为市场主流,而一些专用的处理器如流处理器则包含数十到数百个处理核心。 本文选取目前非常流行也极具发展潜力的一种商用流处理器体系结构——GPU (Graphics Processing Unit)展开相关
  3. 所属分类:专业指导

    • 发布日期:2013-06-08
    • 文件大小:2mb
    • 提供者:xiaoxio006
  1. 面向OpenCL模型的GPU性能优化

  2. U的高性价比吸引了越来越多的通用计算.为充分发挥异构处理平台下GPU的通用计算能力,提出面向OpenCL模型的性能优化方法.该方法建立源程序的多面体表示,分别对GPU的全局存储器和快速存储器进行优化与分配;通过检测存储访问模式发掘可向量化的存储访问实例,利用数据空间变换对存储访问模式进行转换,进而使用向量数据类型提高片外存储器的带宽利用率;通过检测程序中的数据重用,根据数据的访问属性和OpenCL存储模型的特性实现快速存储器的有效分配与优化,提高了片上存储器的使用效率.采用文中方法对6个测试程
  3. 所属分类:专业指导

    • 发布日期:2013-06-08
    • 文件大小:1mb
    • 提供者:xiaoxio006
  1. 面向程序访存特征的存储优化技术研究

  2. 性能的提高一直是计算机研究人员孜孜不倦追求的目标。随着大规模集成电 路的发展,处理器的计算能力飞速提高。计算机性能提高的瓶颈由计算转变为存 储。存储性能是程序访存特征和特定的存储结构共同作用的结果。程序访存特征 的研究一直伴随着处理器的发展,为存储结构提供发展方向。 针对Cache结构不区分程序数据和主存物理实现一维连续的特征,本文选取 具有典型访存特征的应用程序,通过分析访存特征给出合理的存储优化方案: 1) 在共享Cache存储体系结构中,利用Simics+GEMS体系结构模拟器,分析 基
  3. 所属分类:专业指导

    • 发布日期:2013-06-08
    • 文件大小:2mb
    • 提供者:xiaoxio006
  1. Shader优化

  2. 非常实用的GPU指令优化参考资料
  3. 所属分类:其它

  1. 针对子集和问题的并行两列表算法的GPU实现

  2. 子集和问题是众所周知的非确定性多项式时间完成(NP-complete) 决策问题。 本文提出了一种新颖且有效的并行两列表算法的实现使用Compute Unified Device Architecture解决图形处理单元(GPU)上的问题的方法(CUDA)。 该算法由生成阶段,修剪阶段和搜索阶段组成。 它是在GPU上有效地实现算法的三个阶段并不容易。 取得更好成绩的方法性能,CPU和GPU之间合理的任务分配,有效的GPU内存管理, 并讨论了CPU-GPU通信成本的最小化。 算法的生成阶段采用典型
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:874kb
    • 提供者:weixin_38713061
  1. *机器翻译团队:将TVM引入TensorFlow中以优化GPU上的神经机器翻译

  2. 本文于阿里云,神经机器翻译(NMT)是自动翻译的端到端方法,这个方法具有克服传统短语翻译系统缺点的潜力。神经机器翻译(NMT)是自动翻译的端到端方法,这个方法具有克服传统短语翻译系统缺点的潜力。最近,*集团正在为全球电子商务部署NMT服务。目前,我们正在利用Transformer[1]作为我们NMT系统的主要骨干,因为它对于经典的基于RNN/LSTM模型的高效离线训练具有较高的准确度,因此它成为了系统的核心。尽管Transformer对于离线训练阶段很友好,因为它在时间跨度上打破了依赖性,
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:515kb
    • 提供者:weixin_38697063
  1. *机器翻译团队:将TVM引入TensorFlow中以优化GPU上的神经机器翻译

  2. 本文于阿里云,神经机器翻译(NMT)是自动翻译的端到端方法,这个方法具有克服传统短语翻译系统缺点的潜力。神经机器翻译(NMT)是自动翻译的端到端方法,这个方法具有克服传统短语翻译系统缺点的潜力。最近,*集团正在为全球电子商务部署NMT服务。目前,我们正在利用Transformer[1]作为我们NMT系统的主要骨干,因为它对于经典的基于RNN/LSTM模型的高效离线训练具有较高的准确度,因此它成为了系统的核心。尽管Transformer对于离线训练阶段很友好,因为它在时间跨度上打破了依赖性,
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:515kb
    • 提供者:weixin_38661650
« 12 3 4 5 6 7 8 9 10 ... 28 »