您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 夏俊鸾:Spark——高速大数据分析平台

  2. 夏俊鸾在QCon2013的演讲Slide《Spark High Speed Big Data Analysis Framework》,主要介绍了Spark的应用场景和目前在大数据处理语言生态环境的位置。
  3. 所属分类:讲义

    • 发布日期:2014-05-29
    • 文件大小:2mb
    • 提供者:u010702509
  1. spark-streaming

  2. Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案
  3. 所属分类:其它

    • 发布日期:2014-10-31
    • 文件大小:2mb
    • 提供者:p_x1984
  1. 利用Impala+Kudu构建准实时分析应用

  2. Kudu是Cloudera开源的新型列式存储系统,Apache Hadoop生态圈的顶级项目之一,解决了传统Lamda架构处理Hadoop上快速变化数据的存储和处理技术过于复杂的问题,同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark、Flume和Kafka等组件集成,大大降低了对快速变化的数据进行准实时分析的架构设计和实现的门槛。本演讲主要对Kudu的动机、背景,以及架构进行简单介绍,并通过实际的应用场景介绍Impala+Kudu的组合实现通过SQL技术对快速变化的数据
  3. 所属分类:讲义

    • 发布日期:2017-05-16
    • 文件大小:4mb
    • 提供者:erjin_ren
  1. 深入理解Spark 核心思想与源码分析

  2. 深入理解Spark 核心思想与源码分析 ,耿嘉安完整版,大数据spark开发必备,你值得拥有。清晰完整版 《深入理解SPARK:核心思想与源码分析》结合大量图和示例,对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与解读。, 《深入理解SPARK:核心思想与源码分析》一书对Spark1.2.0版本的源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。*集团专家鼎力推荐、*资深Java开发和大数据专家撰写。, 本书分为
  3. 所属分类:spark

    • 发布日期:2018-05-22
    • 文件大小:38mb
    • 提供者:jyh2005
  1. Spark大数据处理

  2. 本书是国内首本系统讲解 Spark 编程实战的书籍,涵盖 Spark 技术的方方面面。 1)对 Spark 的架构、运行机制、系统环境搭建、测试和调优进行深入讲解,以期让读者 知其所以然。讲述 Spark 最核心的技术内容,以激发读者的联想,进而衍化至繁。 2)实战部分不但给出编程示例,还给出可拓展的应用场景。 3)剖析 BDAS 生态系统的主要组件的原理和应用,让读者充分了解 Spark 生态系统。 本书的理论和实战安排得当,突破传统讲解方式,使读者读而不厌。 本书中一些讲解实操部署和示例的
  3. 所属分类:spark

    • 发布日期:2018-01-18
    • 文件大小:3mb
    • 提供者:qq_28743951
  1. 深入理解Spark 核心思想与源码分析

  2. 在深入了解一个系统的原理、实现细节之前,应当先准备好它的源码编译环境、运行环境。如果能在实际环境安装和运行Spark,显然能够提升读者对于Spark的一些感受,对系统能有个大体的印象,有经验的技术人员甚至能够猜出一些Spark采用的编程模型、部署模式等。当你通过一些途径知道了系统的原理之后,难道不会问问自己?这是怎么做到的。如果只是游走于系统使用、原理了解的层面,是永远不可能真正理解整个系统的。很多IDE本身带有调试的功能,每当你阅读源码,陷入重围时,调试能让我们更加理解运行期的系统。如果没有
  3. 所属分类:spark

    • 发布日期:2018-10-06
    • 文件大小:41mb
    • 提供者:kuigoutang2400
  1. 深入理解Spark 核心思想与源码分析

  2. 本书对Spark源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。*集团专家鼎力推荐,*资深Java开发和大数据专家撰写。本书对Spark的核心模块、部署和协作模块的实现原理与使用技巧进行了深入的剖析与解读。   本书分为三篇:   准备篇(第1~2章),介绍了Spark的环境搭建、设计理念与基本架构,帮助读者了解一些背景知识。   核心设计篇(第3~7章),着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理
  3. 所属分类:spark

    • 发布日期:2019-04-04
    • 文件大小:40mb
    • 提供者:fd2025
  1. spark之内存计算框架.pdf

  2. spark是基于内存的分布式计算框架,计算速度是非常之快,它的出现是解决了海量数据计算慢的问题,并且有很多不同的应用场景。
  3. 所属分类:spark

  1. spark优化

  2. Spark的开发优化 1.Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。 原则一:避免创建重复的RDD   通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:268kb
    • 提供者:weixin_38694674
  1. Spark的应用场景

  2. Spark的生态圈 1.Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整的生态系统 2.Spark可以部署在资源管理器YARN之上,提供一站式大数据解决方案 3.Spark所提供的的生态系统可对应以下三种场景: 复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间 基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间 基于实时数据的数据处理:通常时间跨度在数百毫秒到数秒之间 4.Spark生态系统已经成为伯克利数据分析栈(BDAS)中重要的组成部分 5.Spa
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:192kb
    • 提供者:weixin_38668160
  1. 探寻从HDFS到Spark的高效数据通道

  2. 为了保证高效的数据移动,locality是大数据栈以及分布式应用程序所必须保证的性质,这一点在Spark中尤为明显。如果数据集大到不能保证完全放入内存,那就不能贸然使用cache()将数据固化到内存中。如果读取数据不能保证较好的locality性质的话,不论是对即席查询还是迭代计算都将面临输入瓶颈。而作为常用的分布式文件系统,HDFS承担着数据存储、一致性保证等关键问题。HDFS自开发之初就与GoogleGFS一脉相承,因此也继承了其无法较好的处理小文件的问题,但大量小文件输入又是分布式计算中常
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:162kb
    • 提供者:weixin_38749863
  1. Spark性能优化:开发调优篇

  2. Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDDlineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:520kb
    • 提供者:weixin_38704284
  1. 基于Spark的大规模机器学习在微博的应用

  2. 众所周知,自2015年以来微博的业务发展迅猛。如果根据内容来划分,微博的业务有主信息(Feed)流、热门微博、微博推送(Push)、反垃圾、微博分发控制等。每个业务都有自己不同的用户构成、业务关注点和数据特征。庞大的用户基数下,由用户相互关注衍生的用户间关系,以及用户千人千面的个性化需求,要求我们用更高、更大规模的维度去刻画和描绘用户。大体量的微博内容,也呈现出多样化、多媒体化的发展趋势。一直以来,微博都尝试通过机器学习来解决业务场景中遇到的各种挑战。本文为新浪微博吴磊在CCTC2017云计算大
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:243kb
    • 提供者:weixin_38656226
  1. 基于Hadoop大数据分析应用场景与实战

  2. 本文来自于linkedkeeper.com,本文主要介绍了一下kafka的基本概念,并结合一些实验帮助理解kafka中的一些难点,如多个consumer的容错性机制,offset管理。为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:348kb
    • 提供者:weixin_38674883
  1. SequoiaDB+SparkSQL在数据统计场景的应用

  2. 在当前企业生产数据膨胀的时代,数据即使企业的价值所在,也是一家企业的技术挑战所在。所以在海量数据处理场景上,人们意识到单机计算能力再强也无法满足日益增长的数据处理需求,分布式才是解决该类问题的根本解决方案。而在分布式领域,有两类产品是至关重要的,分别分布式存储和分布式计算,用户只有将两者的特性充分利用,才可以真正发挥分布式架构的存储和计算能力。SequoiaDB是国内为数不多的自主研发的分布式数据库,特点是同时支持文档存储和块存储,支持标准SQL和事务功能,支持复杂索引查询、与Hadoop、Hi
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:293kb
    • 提供者:weixin_38629303
  1. 探寻从HDFS到Spark的高效数据通道

  2. 为了保证高效的数据移动,locality是大数据栈以及分布式应用程序所必须保证的性质,这一点在Spark中尤为明显。如果数据集大到不能保证完全放入内存,那就不能贸然使用cache()将数据固化到内存中。如果读取数据不能保证较好的locality性质的话,不论是对即席查询还是迭代计算都将面临输入瓶颈。而作为常用的分布式文件系统,HDFS承担着数据存储、一致性保证等关键问题。HDFS自开发之初就与GoogleGFS一脉相承,因此也继承了其无法较好的处理小文件的问题,但大量小文件输入又是分布式计算中常
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:162kb
    • 提供者:weixin_38590541
  1. Spark性能优化:开发调优篇

  2. Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:520kb
    • 提供者:weixin_38640150
  1. SparkStreaming:大规模流式数据处理的新贵

  2. Spark Streaming是大规模流式数据处理的新贵,将流式计算分解成一系列短小的批处理作业。本文阐释了Spark Streaming的架构及编程模型,并结合实践对其核心技术进行了深入的剖析,给出了具体的应用场景及优化方案。提到SparkStreaming,我们不得不说一下BDAS(Berkeley DataAnalyticsStack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:346kb
    • 提供者:weixin_38621104
  1. 基于Spark的大规模机器学习在微博的应用

  2. 众所周知,自2015年以来微博的业务发展迅猛。如果根据内容来划分,微博的业务有主信息(Feed)流、热门微博、微博推送(Push)、反垃圾、微博分发控制等。每个业务都有自己不同的用户构成、业务关注点和数据特征。庞大的用户基数下,由用户相互关注衍生的用户间关系,以及用户千人千面的个性化需求,要求我们用更高、更大规模的维度去刻画和描绘用户。大体量的微博内容,也呈现出多样化、多媒体化的发展趋势。 一直以来,微博都尝试通过机器学习来解决业务场景中遇到的各种挑战。本文为新浪微博吴磊在CC
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:243kb
    • 提供者:weixin_38693506
  1. Flink应用场景分析

  2. 在数据剧增的今天,大数据技术也越来越被大家重视,而作为实时流计算的代表性框架之一,Flink在近几年的发展趋势无疑也是惊人的,一方面是Flink社区的活跃度,另一方面是Flink在大数据计算上的优异表现,都让我们知道,Flink落地应用的潜力所在。今天我们就主要来了解下Flink应用场景分析。 Flink的提出,本身就是针对于实时流计算的,因为之前的无论是Hadoop框架还是Spark框架,都不能算是真正意义上的实时流计算处理引擎,只有Flink,实现了毫秒级低延迟的实时流数据计算。 Flin
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:78kb
    • 提供者:weixin_38701156
« 12 3 4 »