您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Matei Zaharia:Spark的现状和未来

  2. 该文档来自Spark Summit 2013峰会上Databricks CTO——Matei Zaharia的主题演讲,他主要就Spark的现状和未来做了详细的阐述。
  3. 所属分类:讲义

    • 发布日期:2014-05-29
    • 文件大小:975872
    • 提供者:villa123
  1. Andy Feng:Hadoop和Spark的统一协作

  2. 该文档来自Spark Summit 2013峰会上Yahoo高级架构师Andy Feng的主题演讲。Andy Feng重点介绍了雅虎的现状,通过图文并茂的方式介绍了雅虎的主页和个性化属性,以及试点的电子商务和广告业务,重点阐述Hadoop和Spark的统一协作才是Yahoo现在面临诸多挑战的的唯一出路。
  3. 所属分类:讲义

    • 发布日期:2014-05-29
    • 文件大小:2097152
    • 提供者:villa123
  1. 你需要Spark的10个理由

  2. 你需要Spark的十大理由: 1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoop and Spark 可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上! 2,原先支持Hadoop的四大商业机构纷纷宣布支持Spark,包含知名Hadoop解决方案供应商Cloudera和知名的Hadoop供应商MapR; 3,Spark是继Hadoop之后,成
  3. 所属分类:虚拟化

    • 发布日期:2014-09-22
    • 文件大小:27648
    • 提供者:javaniceyou
  1. 韩卿:Apache Kylin-Hadoop上的大规模联机分析平台

  2. 介绍Apache Kylin的背景,技术架构及演进,产品功能和性能等内容,以及开源现状和发展方向等,例如与Spark/Drill等的集成等。Apache Kylin是由eBay研发并贡献给开源社区的Hadoop上的分布式大规模联机分析(OLAP)平台,弥补了Hadoop之上商业分析的空缺。
  3. 所属分类:其它

    • 发布日期:2014-12-18
    • 文件大小:3145728
    • 提供者:u010702509
  1. 2015 Spark技术峰会-腾讯在Spark上的应用与实践优化-王联辉

  2. 腾讯高级工程师王联辉在OpenCloud 2015大会Spark专场的演讲PPT:腾讯在Spark上的应用与实践优化,主要介绍Spark在腾讯的当前现状、典型应用及效果,以及腾讯在Spark上的实践和优化。其中,典型应用在三个方面:预测用户的广告点击概率;计算两个好友间的共同好友数;用于ETL的SparkSQL和DAG任务。
  3. 所属分类:群集服务

    • 发布日期:2015-04-27
    • 文件大小:712704
    • 提供者:happytofly
  1. 滴滴出行实时计算系统架构及实践

  2. 滴滴出行作为全球最大的移动出行平台,每天收集和需要分析处理的数据量非常大。这些数据形式多样:既包括存储于数据库中的业务数据,也包括各种API请求所记录的文本日志。此外,更大的挑战在于业务上需要我们实时的分析处理如此大规模的数据。从数据生成到可被分析查询,系统延迟在秒级。我们选用Druid/Samza/Kafka/Spark/Hadoop等开源技术栈,开发了符合Lambda architecture的OLAP系统。本次演讲我们以滴滴大数据实时监控系统为例,介绍滴滴实时计算系统架构所面临的挑战及相
  3. 所属分类:Java

    • 发布日期:2016-08-15
    • 文件大小:8388608
    • 提供者:taobai021
  1. 开源的分布式内存文件系统 Tachyon.zip

  2. Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率。同时可以减少内存冗余,GC时间等。        特性:类 Java 的文件 API兼容性:实现 Hadoop 文件系统接口可插入式的底层文件系统内建 Raw 原生表的支持基于 Web 的 UI 提供命令行接口
  3. 所属分类:其它

    • 发布日期:2019-07-19
    • 文件大小:10485760
    • 提供者:weixin_39840387
  1. 基于流式计算的电信实时营销系统设计与实现.caj

  2. 在移动互联网时代,各式各样的新业务和新产品不断出现,通信市场的用户总体规模增长速度变缓,使运营商之间的竞争愈加激烈,新产品营销的时效性和准确度问题亟需解决。实时营销作为新的营销方式,具有较高的实时性,通过运用大数据分析技术分析用户上网行为特征,并在合适的时间、合适的地点向用户推荐合适的内容,从而提升用户感知、增加用户粘性。如何运用大数据技术实现实时营销是本文的重要内容。本文深入调研分析了大数据实时流式处理技术,并结合其在满足非功能性需求方面的独特优势,设计了一个可以同时满足大数据存储、大数据实时
  3. 所属分类:spark

    • 发布日期:2019-10-20
    • 文件大小:3145728
    • 提供者:weixin_41045909
  1. 中国大数据发展调查报告(2015年).pdf

  2. 中国大数据发展调查报告(2015年).pdf中国大数据发展调查报告(2015年) CAcT中国體盒听 刊言 2014年是中国企业级大数据市场的起步之年,经过近两年的探 索与准备,国内一些电信和金融等行业用户开始实际部署大数据平台 与应用,带动软件、硬件和服务市场发展。为进一步掌握中国企业大 数据的应用状况和特点,中国信息通信研究院开展了2014年中国大 数据应用状况的调查。本次活动采用在线间卷的方式,对中国大数据 市场规模、应用状况、数据资源情况、平台建设情况、企业大数据应 用的政策和资源需求等
  3. 所属分类:互联网

    • 发布日期:2019-07-03
    • 文件大小:1048576
    • 提供者:qq_34543438
  1. Spark环境下K-means初始中心点优化研究综述

  2. 为了能够及时了解 Spark 环境下经典聚类算法 K-means 的最新研究进展,把握 K-means 算法当前的研究热 点和方向,针对 K-means 算法的初始中心点优化研究进行综述。首先介绍了内存计算框架 Spark 和 K-means 算法, 并分析了 K-means 算法聚类不稳定性的成因和影响,其目的在于指出优化 K-means 算法的重要性。详细介绍了目前 在 Spark 环境下优化 K-means 初始中心点的主要方法和最新研究现状,并展望了 K-means 初始中心点优化问题的
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:1048576
    • 提供者:weixin_38649091
  1. Ray-面向增强学习场景的分布式计算框架

  2. 本文来自于csdn,介绍了一种新的分布式计算框架Ray,文中详细说明了它的设计思路和现状等,希望对大家的学习能有帮助。如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:Ray是RISELab实验室(前身也就是开发Spark/Mesos等的AMPLab实验室)针对机器学习领域开发的一种新的分布式计算框架。按照官方的定义:“Rayisaflexible,high-perform
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:545792
    • 提供者:weixin_38743084
  1. Ray-面向增强学习场景的分布式计算框架

  2. 本文来自于csdn,介绍了一种新的分布式计算框架Ray,文中详细说明了它的设计思路和现状等,希望对大家的学习能有帮助。如果关注这个领域的同学可能知道,Ray其实在去年就已经在开源社区正式发布了,只不过后来就一直没有什么太大动静,前段时间也是因为机缘巧合,我又回头学习了解了一下,顺便总结如下:Ray是RISELab实验室(前身也就是开发Spark/Mesos等的AMPLab实验室)针对机器学习领域开发的一种新的分布式计算框架。按照官方的定义:“Ray isaflexible,high-perfor
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:545792
    • 提供者:weixin_38625351
  1. 数据流计算环境下的集群资源管理技术

  2. 以集群为基础的高性能计算的发展经历了3个阶段的演化,即计算子系统与存储子系统的分离、计算子系统与存储子系统的融合以及以数据并行为基础的dataflow编程模型。随着Spark、Flink等数据流编程模型在大数据计算领域的广泛使用,计算作业类型千变万化,如何保证各种数据流计算作业对集群资源的共享使用是集群资源管理的核心,也是降低基础设施成本的主要手段。分析集群资源管理的历史变化,从数据流编程模型的角度出发,对HoD、集中式、双层调度、分布式以及混合式管理展开了深入的探索,介绍了其各自的优缺点以及应
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:1048576
    • 提供者:weixin_38689824