您好,欢迎光临本网站![请登录][注册会员]  

大数据下载,spark下载列表 第138页

« 1 2 ... .33 .34 .35 .36 .37 138.39 .40 .41 .42 .43 ... 202 »

[spark] 基于Spark的交互式数据预处理系统

说明: 高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对
<qq_28339273> 在 上传 | 大小:783360

[spark] 基于Spark框架的聚类算法研究

说明: 大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。
<qq_28339273> 在 上传 | 大小:1048576

[spark] RStudio中文学习手册

说明: 简单明了地为我们介绍了rstudio中一些必须要用到的技巧,将英文转化成了中文,是初学r语言必不可少的哦
<qq_42307845> 在 上传 | 大小:1048576

[spark] 企业互联网转型中大数据架构

说明: 企业互联网转型中大数据架构企业互联网转型中大数据架构企业互联网转型中大数据架构
<songjianfeng2012> 在 上传 | 大小:1048576

[spark] 基于Spark的蚁群优化算法

说明: 为应对大数据时代中组合优化问题的求解,基于云计算框架Spark,借助其基于内存、分布式的特定,提出一种并行蚁群优化算法。其思路是通过将蚂蚁构造为弹性分布式数据集,由此给出相应的一系列转换算子,实现了蚂蚁构造解过程的并行化。通过在旅行商问题(TSP)求解的仿真实验结果说明了所提出的并行算法的可行性;并在同等实验环境下对比基于MapReduce的蚁群优化算法,优化速度提升达10倍以上。
<qq_28339273> 在 上传 | 大小:594944

[spark] 基于Spark和聚类分析的辨识电力系统不良数据新方法

说明: 随着电力系统智能化建设的不断深入和推进,电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低,而传统聚类算法处理海量高维数据时单机计算资源不足,近年来较流行的Map Reduce框架不能有效处理频繁迭代计算等问题,提出一种基于Spark的并行K-means算法辨识不良数据的新方法。以某一节点电力负荷数据为研究对象,运用基于Spark的并行K-means聚类算法提取出日负荷特征曲线,分别对输电网状态估计中的不良数据进行检测和辨识。选用EUNITE提
<qq_28339273> 在 上传 | 大小:565248

[spark] windows10下spark2.3.0本地开发环境搭建-亲测

说明: windows10下spark2.3.0本地开发环境搭建 win10上部署Hadoop非Cygwin、非虚拟机方式。安装目录为D:\setupedsoft。涉及相关组件版本: win10 家庭装,64位,x86处理器 JDK1.8.0_171 hadoop-2.7.6 Spark-2.3.0 Scala-2.11.8 Maven-3.5.3 ideaIC-2018.1.4.exe spark-2.3.0-bin-hadoop2.7 对应博文:https://blog.csdn.net/hamb
<hambition> 在 上传 | 大小:3145728

[spark] spark-2.2.1.tar.gz 源码

说明: spark-2.2.1.tar.gz用于通过源码编译生成spark-2.2.1版本可运行文件
<hp02130420> 在 上传 | 大小:13631488

[spark] spark及stream任务简单实现框架及使用实例

说明: spark及stream任务实现框架及使用实例,结果存入mysql数据库,包含了一套最简单的实现框架,方便添加各种简单的任务
<chunzhenzyd> 在 上传 | 大小:37888

[spark] spark-2.1.0-bin-without-hadoop.tgz

说明: Linux系统 大数据开发 spark-2.1.0-bin-without-hadoop.tgz
<catfishlyf> 在 上传 | 大小:122683392

[spark] 基于Spark的推荐系统的设计与实现

说明: 推荐系统是数据挖掘的一个重要部分,能够实现海量数据信息的快速、全面、准确过滤。然而基于以往传统单个主机模式实现的推荐算法其计算过程耗费的时间过长,已经不能满足当前商业时代快速可靠的技术追求。大数据平台Spark分布式计算框架通过引入RDD(弹性分布式数据集)的概念以及基于内存的运算模式,能够更好的适应大数据挖掘这一应用场景。推荐算法在实现过程中存在多次迭代计算,Spark计算框架的使用可以极大提升推荐系统的运算效率。本文利用Spark平台设计了一个基于物品的协同过滤(Item-CF)算法的商品
<qq_28339273> 在 上传 | 大小:528384

[spark] spark-2.1.1-bin-hadoop2.7

说明: spark-2.1.1-bin-hadoop2.7;spark-2.1.1-bin-hadoop2.7;spark-2.1.1-bin-hadoop2.7;
<mobiusstrip> 在 上传 | 大小:200278016
« 1 2 ... .33 .34 .35 .36 .37 138.39 .40 .41 .42 .43 ... 202 »