Starred_Paper_Hadoop_Spark.docx 本篇英文论文通过三个具体实例（Wor

文件名称: Starred_Paper_Hadoop_Spark.docx

所属分类: spark

开发工具:

文件大小: 2mb

下载次数: 0

上传时间: 2019-08-06

提供者: weixin_********

下载 (2mb)

不能下载？报告错误

详细说明：本篇英文论文通过三个具体实例（WordCount Sorted By Key, WordCount Sorted by Values 和 PageRank算法）来对比Hadoop 和 Spark 在大数据应用中运行时间，从而观察这些研究实例随着的迭代计算次数的增加，其时间性能比率的变化和趋势。该课题不仅系统的论述和比较Hadoop和Spark的系统结构、运行原理及各自的生态系统特点，也包括怎样逐步调优系统性能，例如数据压缩类型，内存分配控制，数据分割等手段。实验数据结果表明，由于Spark平台主要基于分布式的内存计算，而Hadoop中的Mapreduce框架在每个map或reduce阶段存在回写或读取硬盘操作，所以Spark的性能优势远远在于Hadoop之上，但前者以使用大量内存进行数据存贮或计算为代价。另外，在性能优化方面，Spark也采取了一些Hadoop没有充分考虑的因素，如内存宽带利用率、单位时间内的磁盘读写操作，及任务启动初始化时间等，所以相对于Hadoop，Spark表现出更优异的性能。

(系统自动生成,下载前可以参看下载内容)