大数据下载列表第976页

[Hbase] HBase3.0参考指南

说明： HBase3.0参考指南 This is the official reference guide for the HBase version it ships with. Herein you will find either the definitive documentation on an HBase topic as of its standing when the referenced HBase version shipped, or it will point to the l
<u011582920> 上传 | 大小：12mb

[算法与数据结构] fast-unfolding社团聚类算法Python代码包

说明： fast-folding算法是复杂网络当中进行社团划分简单高效也是应用最广泛的算法，代码包可以直接通过Python进行安装使用。
<weixin_38616618> 上传 | 大小：23kb

[算法与数据结构] 【2018新书】写给计算机科学的离散数学（Discrete Mathematics for Computer Science）

说明：【2018新书】写给计算机科学的离散数学（Discrete Mathematics for Computer Science）
<zhoujianjun2> 上传 | 大小：19mb

[spark] 基于Spark技术的网络大数据分析平台搭建与应用

说明：搭建基于Spark技术的网络大数据分析平台,对信令进行分析和处理,提升了分析效率。通过现网实际数据验证,该平台具有高效和可扩展性强的特点,未来可适用范围较广。
<qq_28339273> 上传 | 大小：467kb

[spark] 基于Spark的并行遗传算法在状态方程构建中的应用

说明：对状态方程参数的确定问题,提出了基于Spark的变化搜索空间的并行遗传算法。把参数确定问题转化为函数最优化问题,可以使用遗传算法求解。通过将遗传算法与Spark相结合,加快算法的计算速度。在此基础上开发了基于Spark的并行遗传算法程序,数值实验表明算法可以用来解决状态方程中参数的确定问题,且实验所得结果的精度只与实验数据的精度有关。同时实验数据表明并行的遗传算法不仅可以加快计算速度还可以提高结果的精度和稳定性。
<qq_28339273> 上传 | 大小：525kb

[spark] 基于Spark的大数据挖掘技术的研究

说明： Spark在实际的工业生产和实践中已经获得了广泛的应用,但是由于其诞生的时间较晚,版本更新速度慢。现阶段,使用Spark框架在某些具体的大数据场景中能对其挖掘,就要结合原有的模块改写部分功能,发挥其应有的作用。解决大数据挖掘问题的同时,Spark框架由于功能性不足,如进行机器学习库的时候的MLlib里面解决关联新问题的分布式机器学习算法还有不足之处。故此,该文就Spark大数据挖掘技术开展深入的研究,希望能为该领域研究提供参考。
<qq_28339273> 上传 | 大小：1mb

[spark] 一种大数据交互式挖掘框架与实现

说明：在传统的数据挖掘过程中,用户需根据专业知识对数据进行预处理,为模型设定参数后构建模型,通过评估指标判断模型是否可行。该过程的不便性体现在模型以黑盒的方式构建,用户不可见其中间过程,模型产生的结果也不易被理解。在海量数据的环境下,传统数据挖掘过程在预处理时异常数据的定位和模型生成后知识的表达方面都有不便。为了解决传统数据挖掘过程存在的问题,本文提出了一种大数据环境下的交互式数据挖掘框架。该框架使交互贯穿整个数据挖掘的过程,使得用户可以轻松定位异常输入源数据,参与模型训练过程,对模型生成的结果溯源
<qq_28339273> 上传 | 大小：3mb

[spark] 并行计算框架Spark的自适应缓存管理策略

说明：并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG
<qq_28339273> 上传 | 大小：1mb

[spark] Apache Spark:大数据处理统一引擎

说明： Spark的通用性有几个重要的好处。(1)应用程序更容易开发,因为它们使用统一的API。(2)结合处理任务更有效;而先前的系统需要将数据写入存储以将其传递给另一个引擎,Spark可以在相同的数据(通常在存储器中)上运行不同的功能。(3)Spark启用了以前系统无法实现的新应用程序。自2010年发布以来,Spark已经发展为活跃的开源项目或大数据处理。
<qq_28339273> 上传 | 大小：68kb

[spark] 一种基于Spark的大数据匿名化系统实现

说明：分组匿名化框架是一类经典的数据匿名化技术,它通过构造匿名记录的组,使得同一组内的不同数据无法被识别区分,从而达到隐私防护的效果。电力行业大数据分析涉及电力企业核心数据、用户隐私数据,其数据敏感度更强,传统的数据匿名化系统已经无法满足电力行业大数据业务应用和安全防护的需要。基于此,设计并实现了一种基于Spark的新型大数据匿名化系统,提供对Hadoop平台上多种数据格式的支持,并有效提高对大数据的匿名化处理效率。
<qq_28339273> 上传 | 大小：786kb

[spark] Spark下BP神经网络并行化算法研究

说明： BP算法(反向传播算法)以其良好的非线性逼近能力、泛化能力以及实用性成为了人工神经网络训练算法中应用最为广泛的算法。但同时使用BP算法又存在收敛速度较慢、易陷入局部极小值等问题。为了将BP算法用于大规模数据分类问题,采用MapReduce思想,将大数据集切分成若干小的数据集来并行加速处理,同时引入Bagging算法的思想来综合并行结果,提高分类的准确率。通过在各个节点上根据子数据集独立地训练各个BP神经网络,直至各网络收敛,再将各节点上的网络收集起来进行集成,形成最终的分类器。基于Spark平
<qq_28339273> 上传 | 大小：1mb

[spark] 面向大数据处理的基于Spark的异质内存编程框架

说明：随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如
<qq_28339273> 上传 | 大小：1mb