您好,欢迎光临本网站![请登录][注册会员]  

大数据下载,spark下载列表 第134页

« 1 2 ... .29 .30 .31 .32 .33 134.35 .36 .37 .38 .39 ... 198 »

[spark] 面向大数据处理的基于Spark的异质内存编程框架

说明: 随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如
<qq_28339273> 上传 | 大小:1mb

[spark] 大数据环境下基于决策树的恶意URL检测模型

说明: 恶意网址URL检测一直是信息安全防御技术领域的研究热点之一。针对传统恶意URL检测技术无法自主探测未知URL,并且缺乏适应大数据时代发展的能力等问题,设计并实现了一种基于大数据技术,结合决策树算法与黑白名单技术的恶意URL检测模型。该模型基于Spark分布式计算框架,利用已知URL训练集提取特征、训练决策树分类模型,然后用已有分类模型对黑白名单无法检测出的URL进行分类预测,达到检测目的。实验证明,构建的检测模型具有很好的检测效果和稳定性。
<qq_28339273> 上传 | 大小:279kb

[spark] 基于Spark的K-means安全区间更新优化算法

说明: 每次K-means算法更新聚类中心后,会对数据集中所有的点迭代计算它们与最新聚类中心的距离,进而获取点的最新聚类。这种全局迭代计算的特征导致传统K-means算法时间效率低。随着数据集增大,算法的时间效率和聚类性能下降过快,因此传统的K-means算法不适合大数据环境下的聚类使用。针对大数据场景下的时间效率和性能优化问题,提出了一种基于Spark的K-means安全区间更新优化算法。在每次更新聚类中心后,该算法更新安全区间标签,根据标签是否大于0每次判断落在该区间内的全部数据的簇别,避免计算所
<qq_28339273> 上传 | 大小:818kb

[spark] 基于Spark的ISOMAP算法并行化

说明: 为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,
<qq_28339273> 上传 | 大小:467kb

[spark] 基于Spark的多标签超网络集成学习

说明: 近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集
<qq_28339273> 上传 | 大小:2mb

[spark] 基于Spark的并行频繁模式挖掘算法

说明: 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。
<qq_28339273> 上传 | 大小:1mb

[spark] 使用Spark Streaming的自适应实时DDoS检测和防御技术

说明: 分布式拒绝服务(distributed denial of service,DDoS)攻击是重要的安全威胁,网络速度的不断提高给传统的检测方法带来了新的挑战。以Spark等为代表的大数据处理技术,给网络安全的高速检测带来了新的契机。提出了一种基于Spark Streaming框架的自适应实时DDoS检测防御技术,通过对滑动窗口内源簇进行分组,并根据与各分组内源簇比例的偏差统计,检测出DDoS攻击流量。通过感知合法的网络流量,实现了对DDoS攻击的自适应快速检测和有效响应。实验结果表明,该技术可
<qq_28339273> 上传 | 大小:2mb

[spark] 基于Spark的交互式数据预处理系统

说明: 高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对
<qq_28339273> 上传 | 大小:765kb

[spark] 基于Spark框架的聚类算法研究

说明: 大数据的挖掘是当今的研究热点,也有着巨大的商业价值。新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,再通过实验分析其应用的方法,然后通过实验结果分析其应用场景和不足。
<qq_28339273> 上传 | 大小:1mb

[spark] RStudio中文学习手册

说明: 简单明了地为我们介绍了rstudio中一些必须要用到的技巧,将英文转化成了中文,是初学r语言必不可少的哦
<qq_42307845> 上传 | 大小:1mb

[spark] 企业互联网转型中大数据架构

说明: 企业互联网转型中大数据架构企业互联网转型中大数据架构企业互联网转型中大数据架构
<songjianfeng2012> 上传 | 大小:1mb

[spark] 基于Spark的蚁群优化算法

说明: 为应对大数据时代中组合优化问题的求解,基于云计算框架Spark,借助其基于内存、分布式的特定,提出一种并行蚁群优化算法。其思路是通过将蚂蚁构造为弹性分布式数据集,由此给出相应的一系列转换算子,实现了蚂蚁构造解过程的并行化。通过在旅行商问题(TSP)求解的仿真实验结果说明了所提出的并行算法的可行性;并在同等实验环境下对比基于MapReduce的蚁群优化算法,优化速度提升达10倍以上。
<qq_28339273> 上传 | 大小:581kb
« 1 2 ... .29 .30 .31 .32 .33 134.35 .36 .37 .38 .39 ... 198 »