您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Spark计算过程分析

  2. Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。MapReduce是Hadoop和Spark的计算模型,其特点是Map和Reduce过程高度可并行化;过程间耦合度低,单个过程的失败后可以重新计算,而不会导致整体失败;最重要的是数据处理中的计算逻辑可以很好的转换为M
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:258048
    • 提供者:weixin_38708361
  1. Mesos架构与去哪儿的统一框架实践

  2. 在官方文档中,Mesos定义成一个分布式系统内核。它使用和Linux内核相同的设计原则,只是设计在不同的抽象层级上。它运行在一个机房的所有服务器上并且通过API的形式给应用(比如Hadoop,Spark,Kafka,ElasticSearch)提供资源管理、计划任务等功能。Mesos是一个在2009年由BenjaminHindman等人联合发起的伯克利大学研究项目。随后引入Twitter,如今已经完美运行在Twitter,Airbnb等环境。Mesos的架构图如下。在图中,Master主要负责s
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:442368
    • 提供者:weixin_38545332
  1. Spark知识体系完整解读

  2. Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成,并且所提供的API深度借鉴Scala函数式的编程思想,提供与Scala
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:441344
    • 提供者:weixin_38519387
  1. SparkStreaming实时计算框架介绍

  2. 随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。SparkStreaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍SparkStreaming实时计算框架的原理与特点、适用场景。Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapRedu
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:266240
    • 提供者:weixin_38516380
  1. Spark入门实战系列--9.Spark图计算GraphX介绍及实例

  2. SparkGraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。SparkGraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把图拆分成很多的子图,然后分别对这些子图进行计
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:671744
    • 提供者:weixin_38735987
  1. 基于Spark的蚁群优化算法

  2. 组合优化问题求解的困难程度会随着问题规模的增大而呈指数型增长,即所谓的“组合爆炸”现象。而随着大数据时代的来临,组合优化问题规模越来越大,使得该问题愈加突出。因此,为应对大数据时代中组合优化问题的求解,基于云计算框架Spark,借助其基于内存、分布式的特定,提出一种并行蚁群优化算法。其思路是通过将蚂蚁构造为弹性分布式数据集,由此给出相应的一系列转换算子,实现了蚂蚁构造解过程的并行化。通过在旅行商问题求解的仿真实验结果说明了所提出的并行算法的可行性;并在同等实验环境下对比基于
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:594944
    • 提供者:weixin_38620099
  1. Weiflow——微博机器学习框架

  2. 本文从开发效率(易用性)、可扩展性、执行效率三个方面,介绍了微博机器学习框架Weiflow在微博的应用和最佳实践。在上期《基于Spark的大规模机器学习在微博的应用》一文中我们提到,在机器学习流中,模型训练只是其中耗时最短的一环。如果把机器学习流比作烹饪,那么模型训练就是最后翻炒的过程;烹饪的大部分时间实际上都花在了食材、佐料的挑选,洗菜、择菜,食材再加工(切丁、切块、过油、预热)等步骤。在微博的机器学习流中,原始样本生成、数据处理、特征工程、训练样本生成、模型后期的测试、评估等步骤所需要投入的
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:393216
    • 提供者:weixin_38744902
  1. Spark与Hadoop的结合

  2. 本文来自于csdn,本文介绍了Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。Spark可以直接对HDFS进行数据的读写,同样支持SparkonYARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:276480
    • 提供者:weixin_38502814
  1. 大数据系列之并行计算引擎Spark介绍

  2. 本文来自于博客园,ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:1048576
    • 提供者:weixin_38690079
  1. Spark基本架构及原理

  2. ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:842752
    • 提供者:weixin_38712416
  1. 大数据框架学习:从Hadoop到Spark

  2. Hadoop软件库是一个利用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理的框架。特点:部署成本低、扩展方便、编程模型简单。Hadoop实现了在行业标准的服务器上进行可靠、可缩放的分布式计算,让你能够以较低的预算跟踪数PB以上的数据,而不必需要超级计算机和其他昂贵的专门硬件。Hadoop还能够从单台服务器扩展到数千台计算机,检测和处理应用程序层上的故障,从而提高可靠性。1、HadoopCommon:ThecommonutilitiesthatsupporttheotherHadoop
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:603136
    • 提供者:weixin_38687807
  1. Ray-面向增强学习场景的分布式计算框架

  2. 本文来自于csdn,介绍了一种新的分布式计算框架Ray,文中详细说明了它的设计思路和现状等,希望对大家的学习能有帮助。如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:Ray是RISELab实验室(前身也就是开发Spark/Mesos等的AMPLab实验室)针对机器学习领域开发的一种新的分布式计算框架。按照官方的定义:“Rayisaflexible,high-perform
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:545792
    • 提供者:weixin_38743084
  1. 基于分配适应度的Spark渐进填充分区映射算法

  2. 分析 Spark 的作业执行机制,建立了执行效率模型和 Shuffle 过程模型,给出了分配适应度(AFD, allocation fitness degree)的定义,提出了算法的优化目标。根据模型的相关定义求解,设计了渐进填充分区映射算法(PFPM, progressive filling partitioning and mapping algorithm),通过扩展式分区和渐进填充映射,建立适应 Reducer 计算能力的数据分配方案,有效缩减 Shuffle 过程的同步延时,提高集群计
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:1048576
    • 提供者:weixin_38650516
  1. DDF:分布式数据框架:在任何数据引擎上,对于科学家和工程师而言,生产率=力量x简单性-源码

  2. DDF 分布式数据框架:生产力=强大的力量×简单的大数据科学家和工程师 DDF-分布式DataFrame DDF旨在通过融合R Data Science,RDBMS / SQL和Big Data分布式处理的最佳思想,使大数据变得简单而强大。 它公开了高级抽象,如RDBMS表,SQL查询,数据清理和转换,机器学习算法,甚至是协作和身份验证等,同时隐藏了并行分布式处理和数据处理的所有复杂性。 DDF是一种通用抽象,可以在多个执行和数据引擎上实现。 我们正在Apache Spark上提供本机实
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:2097152
    • 提供者:weixin_42101720
  1. Spark下遥感大数据特征提取的加速策略

  2. 提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用 Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Spark处理遥感大数据的速度较单机模式下的处理遥感大数据提升了约2倍,基于 Hadoop分布式文件系统(HDFS)处理模式较Spark-standalone处理模式处理速度提升了约1.2倍,基 于 Spark下 的 HDFS存 储 模 式 下,栅 格
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:484352
    • 提供者:weixin_38595528
  1. 一文详解Spark基本架构原理

  2. 本文来自于简书,ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。文章主要通过八个方面全面介绍了spark的架构原理,更多内容请看全文。ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:804864
    • 提供者:weixin_38673812
  1. 机器学习实践:如何将Spark与Python结合

  2. ApacheSpark是处理和使用大数据最广泛的框架之一,Python是数据分析、机器学习等领域最广泛使用的编程语言之一。如果想要获得更棒的机器学习能力,为什么不将Spark和Python一起使用呢?在国外,ApacheSpark开发人员的平均年薪为110,000美元。毫无疑问,Spark在这个行业中被广泛使用。由于其丰富的库集,Python也被大多数数据科学家和分析专家使用。二者集成也并没有那么困难,Spark用Scala语言开发,这种语言与Java非常相似。它将程序代码编译为用于Spark大
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:194560
    • 提供者:weixin_38537684
  1. Spark之旅:大数据产品的一种测试方法与实现

  2. spark作为现在主流的分布式计算框架,已经融入到了很多的产品中作为ETL的解决方案。而我们如果想要去测试这样的产品就要对分布式计算的原理有个清晰的认知并且也要熟悉分布式计算框架的使用来针对各种ETL场景设计不同的测试数据。而一般来说我们需要从以下两个角度来进行测试。ETL能兼容各种不同的数据(不同的数据规模,数据分布和数据类型)ETL处理数据的正确性ETL是按一定规则针对数据进行清洗,抽取,转换等一系列操作的简写。那么一般来说他要能够处理很多种不同的数据类型。我们在生产上遇见的bug有很大一部
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:279552
    • 提供者:weixin_38621638
  1. Spark入门实战系列(上)-实时流计算SparkStreaming原理介绍

  2. SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis以及TCPsockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。在“OneStackrulethemall”的基础上,还可以使用Spark的其他子框架,如集群学习、
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:539648
    • 提供者:weixin_38565818
  1. 高性能分布式执行框架——Ray

  2. Ray是UCBerkeleyRISELab新推出的高性能分布式执行框架,它使用了和传统分布式计算系统不一样的架构和对分布式计算的抽象方式,具有比Spark更优异的计算性能。Ray目前还处于实验室阶段,最新版本为0.2.2版本。虽然Ray自称是面向AI应用的分布式计算框架,但是它的架构具有通用的分布式计算抽象。本文对Ray进行简单的介绍,帮助大家更快地了解Ray是什么,如有描述不当的地方,欢迎不吝指正。首先来看一下最简单的Ray程序是如何编写的。在Ray里,通过Python注解ray.remote
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:625664
    • 提供者:weixin_38592502
« 1 2 ... 4 5 6 7 8 910 11 12 13 14 ... 27 »