您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. MartinHub-notes::hundred_points:大数据开发笔记(包括:Hadoop,Hive,HBase,Phoenix,Scala,Spark,Flink,Kafka,Azkaban,Flume,Sqoop,Oozie,D

  2. MartinHub的学习笔记 关于我 MartinHub :smiling_face_with_sunglasses: ,,热爱生活!热爱技术! 微信公众号【MartinHub】 个人微信号【MartinHub】 项目介绍 大数据 Java 数据库 Linux 杂记 :bullseye: :hot_beverage: :floppy_disk: :cloud: :memo: :black_nib:本仓库有来源自己总结,网上收集,视频笔记,如果有区别之处,可以联系我进行删除
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:18874368
    • 提供者:weixin_42146274
  1. GC调优在Spark应用中的实践

  2. 摘要:Spark立足内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制。与此同时,它也兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要。Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:787456
    • 提供者:weixin_38708223
  1. 可靠:强化学习的分布式超参数优化框架-源码

  2. 责任 RLiable是用于增强学习代理的快速超参数调整的实验并行化框架。 它旨在满足对可分发的Spark / TF兼容模型的需求,该模型允许以简单reliable方式扩展实验。 执行 先决条件: 版本 Python > = 3.6 火花 3.0.1 Hadoop 2.7 Java 1.8 Scala 2.11 注意: scr ipts/install_spark_hpc.sh提供了Linux(基于Debian)安装脚本。 安装要求 创建virtualenv并安装Python
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:39936
    • 提供者:weixin_42099987
  1. schedoscope:Schedoscope是一个调度框架,用于无痛地敏捷开发,测试,(重新)加载和监视数据集线器,湖泊或近来您选择调用的Hadoop数据仓库-源码

  2. Schedoscope不再由OttoGroup开发。 随意分叉! 介绍 Schedoscope是一个调度框架,用于无痛地进行敏捷开发,测试,(重新)加载和监视datahub,datalake或这些天您选择的Hadoop数据仓库。 当需要频繁推出并使用Oozie等传统ETL作业调度程序追溯性地对datahub中的计算逻辑和数据结构进行更改时,Schedoscope会让您头痛不已。 使用Schedoscope, 您无需创建DDL和架构迁移脚本; 面对逻辑或数据结构的追溯性更改,您不必手动确定
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:1048576
    • 提供者:weixin_42111465
  1. Spark:比Hadoop更强大的分布式数据计算项目

  2. Spark是一个由加州大学伯克利分校(UCBerkeleyAMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilientdistributeddatasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法。Spark使用Scala开发,使用Mesos作为底层的调度框架,可以和hadoop和Ec2紧密集成,直接读取hdfs或S3的文件进行计算并把结果写回hdfs或S3,是Hadoop
  3. 所属分类:其它

    • 发布日期:2021-03-01
    • 文件大小:417792
    • 提供者:weixin_38647822
  1. Spark工作原理

  2. ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:1.运行速度快,Spark拥有DAG执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明,如果数据由磁盘读取,速度是HadoopMapReduce的10倍以上,如果数据从内存中读取,速度可以高达100多倍。2.适用场景广泛,
  3. 所属分类:其它

    • 发布日期:2021-03-01
    • 文件大小:1048576
    • 提供者:weixin_38624628
  1. spark-joy:轻松的方法为您的产品增加设计风格,用户愉悦感和奇思妙想-源码

  2. 简单的方法可以为您的产品增加设计风格,用户满意度和异想天开! 进一步详细介绍Spark Joy的原理,如果您想探索这种方法如何比设计实用程序更能应用,请查看。 目录 4分钟内完成网页设计 保持简单: : CSS / UI模板 HTML / CSS漂亮的模板 使用Tailwind v2(和 )的 免费的顺风组件套件 使用引导程序 认真CSS框架 较重CSS框架 学习曲线更大,可能有js,但更多OOTB) 引导程序 实用CSS Web组件 嵌入式CSS框架 更轻,没有js。 使用预
  3. 所属分类:其它

    • 发布日期:2021-02-27
    • 文件大小:630784
    • 提供者:weixin_42107491
  1. Spark初探

  2. Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。ApacheSparkisanopensourceclustercomputingsystemthataimstomakedataanalyticsfast—bothfasttorunandfasttowrite.Spark是一个开源的分布式计算系统,它的目的是使得数据分析更快——写起来和运行起来都很快。Spark是基于内存计算的大数据并行计算框架。
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:257024
    • 提供者:weixin_38745891
  1. Spark:一个高效的分布式计算系统

  2. Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。其架构如下图所示:Spark的中间数据放到内存中,对于迭代运算效率更高。Spark更适合于迭代运算比较多的ML和D
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:313344
    • 提供者:weixin_38648396
  1. MapReduce、Spark、Phoenix、Disco、Mars浅析及性能测试

  2. 当使用Hadoop技术架构集群,集群内新增、删除节点,或者某个节点机器内硬盘存储达到饱和值时,都会造成集群内数据分布不均匀、数据丢失风险增加等问题出现。本文对HDFS内部的数据平衡方式做了介绍,通过实验案例的方式向读者解释内部数据平衡的解决办法。目前开源社区有许多并行计算模型和框架可供选择,按照实现方式、运行机制、依附的产品生态圈等可以被划分为几个类型,每个类型各有优缺点,如果能够对各类型的并行计算框架都进行深入研究及适当的缺点修复,就可以为不同硬件环境下的海量数据分析需求提供不同的软件层面的解
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:599040
    • 提供者:weixin_38614377
  1. 流式大数据处理的三种框架:Storm,Spark和Samza

  2. 许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(masternode)分发代码,将任务分配给工作节点(workernode)执行。一个拓扑中包括spout和bolt两种角色,其中spout发送消息,负责将数据流以tuple元组的形式发送出去;而bolt则负责转换这些数据流,在bolt
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:333824
    • 提供者:weixin_38719578
  1. Spark随机森林算法原理、源码分析及案例实战

  2. 本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络IO操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然后对其源码进行分析,最后通过案例介绍随机森林在金融领域内如何进行优质客户的分类。Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014年Spark风靡IT界,Twitter数据显示Spark已经超越Hadoop、Yarn等技术,成为
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:929792
    • 提供者:weixin_38689976
  1. Spark随机森林算法原理、源码分析及案例实战

  2. 本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络IO操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然后对其源码进行分析,最后通过案例介绍随机森林在金融领域内如何进行优质客户的分类。Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014年Spark风靡IT界,Twitter数据显示Spark已经超越Hadoop、Yarn等技术,成为
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:929792
    • 提供者:weixin_38631599
  1. Spark随机森林算法原理、源码分析及案例实战

  2. 本文首先对决策树算法的原理进行分析并指出其存在的问题,进而介绍随机森林算法。同单机环境下的随机森林构造不同的是,分布式环境下的决策树构建如果不进行优化的话,会带来大量的网络IO操作,算法效率将非常低,为此本文给出了随机森林在分布式环境下的具体优化策略,然后对其源码进行分析,最后通过案例介绍随机森林在金融领域内如何进行优质客户的分类。Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014年Spark风靡IT界,Twitter数据显示Spark已经超越Hadoop、Yarn等技术,成为
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:929792
    • 提供者:weixin_38515270
  1. Spark入门(Python版)

  2. Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(BigData)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布式存储框架(Google文件系统),在Hadoop中被实现为HDFS;一个分布式计算框架(MapReduce)。这两个观点成为过去十年规模分析(scalinganalytic
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:245760
    • 提供者:weixin_38721252
  1. Spark使用总结与分享

  2. 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。spark的核心是RDD(弹性分布式数据集),一种通用的数据抽象,封装了基础的数据操作,如map,filter,reduce等。RDD提供数据共享的抽象,相比其他大数据处理框架,如MapReduce,Pegel,DryadLINQ和HIVE等
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:295936
    • 提供者:weixin_38739900
  1. spark:一个简单的Java表达Web框架。 Spark有一个Kotlin DSL https:github.comperwendelspark-kotlin-源码

  2. Spark-Java 8的小型Web框架 Spark 2.9.3已经发布!! com.sparkjava spark-core 2.9.3 在这里赞助项目 有关文档,请访问: : 对于使用问题,请使用 Javadoc: : 提交项目时,请使用在配置的Spark格式 入门 com.sparkjava spark-core 2.9.2 </ d
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:346112
    • 提供者:weixin_42109545
  1. Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?

  2. 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。下文将介绍这些框架:仅批处理框架:ApacheHadoop仅流处理框架:Apache
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:161792
    • 提供者:weixin_38705699
  1. Spark大数据处理系列之MachineLearning

  2. 最近几年,机器学习、预测分析和数据科学主题得到了广泛的关注。Spark的机器学习库(SparkMLlib),包括各种机器学习算法:协同过滤算法、聚类算法、分类算法和其他算法。在前面的《Spark大数据处理》系列文章,介绍ApacheSpark框架,介绍如何使用SparkSQL库的SQL接口去访问数据,使用SparkStreaming进行实时流式数据处理和分析。在本篇文章,作者将讨论机器学习概念以及如何使用SparkMLlib来进行预测分析。后面将会使用一个例子展示SparkMLlib在机器学习领
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:249856
    • 提供者:weixin_38698590
  1. 大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

  2. 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。在之前的文章中,我们曾经介绍过有关大数据系统的常规概念、处理过程,以及各种专门术语,本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:148480
    • 提供者:weixin_38522029
« 1 2 3 4 5 6 7 89 10 11 12 13 ... 27 »