您好,欢迎光临本网站![请登录][注册会员]  

大数据下载列表 第999页

« 1 2 ... .94 .95 .96 .97 .98 999.00 .01 .02 .03 .04 ... 1438 »

[spark] 一种基于Spark的大数据匿名化系统实现

说明: 分组匿名化框架是一类经典的数据匿名化技术,它通过构造匿名记录的组,使得同一组内的不同数据无法被识别区分,从而达到隐私防护的效果。电力行业大数据分析涉及电力企业核心数据、用户隐私数据,其数据敏感度更强,传统的数据匿名化系统已经无法满足电力行业大数据业务应用和安全防护的需要。基于此,设计并实现了一种基于Spark的新型大数据匿名化系统,提供对Hadoop平台上多种数据格式的支持,并有效提高对大数据的匿名化处理效率。
<qq_28339273> 在 上传 | 大小:804864

[spark] Spark下BP神经网络并行化算法研究

说明: BP算法(反向传播算法)以其良好的非线性逼近能力、泛化能力以及实用性成为了人工神经网络训练算法中应用最为广泛的算法。但同时使用BP算法又存在收敛速度较慢、易陷入局部极小值等问题。为了将BP算法用于大规模数据分类问题,采用MapReduce思想,将大数据集切分成若干小的数据集来并行加速处理,同时引入Bagging算法的思想来综合并行结果,提高分类的准确率。通过在各个节点上根据子数据集独立地训练各个BP神经网络,直至各网络收敛,再将各节点上的网络收集起来进行集成,形成最终的分类器。基于Spark平
<qq_28339273> 在 上传 | 大小:1048576

[spark] 面向大数据处理的基于Spark的异质内存编程框架

说明: 随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如
<qq_28339273> 在 上传 | 大小:1048576

[spark] 大数据环境下基于决策树的恶意URL检测模型

说明: 恶意网址URL检测一直是信息安全防御技术领域的研究热点之一。针对传统恶意URL检测技术无法自主探测未知URL,并且缺乏适应大数据时代发展的能力等问题,设计并实现了一种基于大数据技术,结合决策树算法与黑白名单技术的恶意URL检测模型。该模型基于Spark分布式计算框架,利用已知URL训练集提取特征、训练决策树分类模型,然后用已有分类模型对黑白名单无法检测出的URL进行分类预测,达到检测目的。实验证明,构建的检测模型具有很好的检测效果和稳定性。
<qq_28339273> 在 上传 | 大小:285696

[spark] 基于Spark的工业大数据处理可视化平台应用研究

说明: 基于Spark利用Java Web技术研究设计了工业大数据处理分析的可视化平台,用户不需要去了解大数据开发平台的底层细节,只需要在Web界面端根据数据分析需求定制任务,然后提交给平台处理再等待结果输出。分析了工业大数据与传统数据的不同点。简单介绍了如何利用Spark MLlib机器学习算法去分析工业大数据。分析介绍了在可视化平台搭建所要处理的一些技术问题,技术原理,制定了平台搭建的流程。最后对可视化平台进行了测试以及总结了应用研究中存在的问题。
<qq_28339273> 在 上传 | 大小:601088

[算法与数据结构] 盘古分词 工具

说明: 盘古分词 简介: 盘古分词 是由eaglet 开发的一款基于字典的中英文分词组件 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 主要性能指标: 分词准确度:90%以上 处理速度: 300-600KBytes/s Core Duo 1.8GHz 用于测试的句子: 长春市长春节致词 长春市长春药店 IBM的技术和服务都不错 张三在一月份工作会议上说的确实在理 于北京时间5月10日举行运动会 我的和服务必在明天做好
<lingxuan413> 在 上传 | 大小:193536

[spark] 基于Spark的K-means安全区间更新优化算法

说明: 每次K-means算法更新聚类中心后,会对数据集中所有的点迭代计算它们与最新聚类中心的距离,进而获取点的最新聚类。这种全局迭代计算的特征导致传统K-means算法时间效率低。随着数据集增大,算法的时间效率和聚类性能下降过快,因此传统的K-means算法不适合大数据环境下的聚类使用。针对大数据场景下的时间效率和性能优化问题,提出了一种基于Spark的K-means安全区间更新优化算法。在每次更新聚类中心后,该算法更新安全区间标签,根据标签是否大于0每次判断落在该区间内的全部数据的簇别,避免计算所
<qq_28339273> 在 上传 | 大小:837632

[Hadoop] 深入理解Hadoop 书中源码

说明: 深入理解hadoop书中源码,本书写的还是很好,比较容易读懂
<sinosf> 在 上传 | 大小:370688

[spark] 基于Spark的ISOMAP算法并行化

说明: 为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,
<qq_28339273> 在 上传 | 大小:478208

[spark] 基于Spark的多标签超网络集成学习

说明: 近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集
<qq_28339273> 在 上传 | 大小:2097152

[spark] 基于Spark的并行频繁模式挖掘算法

说明: 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。
<qq_28339273> 在 上传 | 大小:1048576

[spark] 使用Spark Streaming的自适应实时DDoS检测和防御技术

说明: 分布式拒绝服务(distributed denial of service,DDoS)攻击是重要的安全威胁,网络速度的不断提高给传统的检测方法带来了新的挑战。以Spark等为代表的大数据处理技术,给网络安全的高速检测带来了新的契机。提出了一种基于Spark Streaming框架的自适应实时DDoS检测防御技术,通过对滑动窗口内源簇进行分组,并根据与各分组内源簇比例的偏差统计,检测出DDoS攻击流量。通过感知合法的网络流量,实现了对DDoS攻击的自适应快速检测和有效响应。实验结果表明,该技术可
<qq_28339273> 在 上传 | 大小:2097152
« 1 2 ... .94 .95 .96 .97 .98 999.00 .01 .02 .03 .04 ... 1438 »