您好,欢迎光临本网站![请登录][注册会员]  

大数据下载列表 第977页

« 1 2 ... .72 .73 .74 .75 .76 977.78 .79 .80 .81 .82 ... 1412 »

[spark] 大数据环境下基于决策树的恶意URL检测模型

说明: 恶意网址URL检测一直是信息安全防御技术领域的研究热点之一。针对传统恶意URL检测技术无法自主探测未知URL,并且缺乏适应大数据时代发展的能力等问题,设计并实现了一种基于大数据技术,结合决策树算法与黑白名单技术的恶意URL检测模型。该模型基于Spark分布式计算框架,利用已知URL训练集提取特征、训练决策树分类模型,然后用已有分类模型对黑白名单无法检测出的URL进行分类预测,达到检测目的。实验证明,构建的检测模型具有很好的检测效果和稳定性。
<qq_28339273> 上传 | 大小:279kb

[算法与数据结构] 盘古分词 工具

说明: 盘古分词 简介: 盘古分词 是由eaglet 开发的一款基于字典的中英文分词组件 主要功能: 中英文分词,未登录词识别,多元歧义自动识别,全角字符识别能力 主要性能指标: 分词准确度:90%以上 处理速度: 300-600KBytes/s Core Duo 1.8GHz 用于测试的句子: 长春市长春节致词 长春市长春药店 IBM的技术和服务都不错 张三在一月份工作会议上说的确实在理 于北京时间5月10日举行运动会 我的和服务必在明天做好
<lingxuan413> 上传 | 大小:189kb

[spark] 基于Spark的K-means安全区间更新优化算法

说明: 每次K-means算法更新聚类中心后,会对数据集中所有的点迭代计算它们与最新聚类中心的距离,进而获取点的最新聚类。这种全局迭代计算的特征导致传统K-means算法时间效率低。随着数据集增大,算法的时间效率和聚类性能下降过快,因此传统的K-means算法不适合大数据环境下的聚类使用。针对大数据场景下的时间效率和性能优化问题,提出了一种基于Spark的K-means安全区间更新优化算法。在每次更新聚类中心后,该算法更新安全区间标签,根据标签是否大于0每次判断落在该区间内的全部数据的簇别,避免计算所
<qq_28339273> 上传 | 大小:818kb

[Hadoop] 深入理解Hadoop 书中源码

说明: 深入理解hadoop书中源码,本书写的还是很好,比较容易读懂
<sinosf> 上传 | 大小:362kb

[spark] 基于Spark的ISOMAP算法并行化

说明: 为了实现大数据环境下非线性高维数据的快速降维,提出了一种基于Spark的并行ISOMAP算法.在该算法中,为了快速构建邻域矩阵,设计并实现了基于精确欧式位置敏感哈希的近邻搜索并行算法;为了实现特征值的快速求解,设计并实现了基于幂法和降阶法交替执行的特征值求解并行算法.为了进一步提高算法的性能,基于Spark的特性,利用Spark的稀疏向量、广播机制和缓存机制对并行ISOMAP算法进行了优化,减少了计算过程中的内存消耗和数据传输.在Swissroll数据集和S-curve数据集上的实验结果表明,
<qq_28339273> 上传 | 大小:467kb

[spark] 基于Spark的多标签超网络集成学习

说明: 近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值。尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据。针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN。该算法首先引入代价敏感,使其适应不平衡数据集。其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度。最后,进行了选择性集成,使其适应大规模数据集
<qq_28339273> 上传 | 大小:2mb

[spark] 基于Spark的并行频繁模式挖掘算法

说明: 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。
<qq_28339273> 上传 | 大小:1mb

[spark] 使用Spark Streaming的自适应实时DDoS检测和防御技术

说明: 分布式拒绝服务(distributed denial of service,DDoS)攻击是重要的安全威胁,网络速度的不断提高给传统的检测方法带来了新的挑战。以Spark等为代表的大数据处理技术,给网络安全的高速检测带来了新的契机。提出了一种基于Spark Streaming框架的自适应实时DDoS检测防御技术,通过对滑动窗口内源簇进行分组,并根据与各分组内源簇比例的偏差统计,检测出DDoS攻击流量。通过感知合法的网络流量,实现了对DDoS攻击的自适应快速检测和有效响应。实验结果表明,该技术可
<qq_28339273> 上传 | 大小:2mb

[Hbase] mongo大数据学习

说明: 大数据学习文档 。
<qq_21907421> 上传 | 大小:30kb

[Hadoop] hadoop炼数成金大数据培训视频

说明: hadoop 炼数成金 大数据 视频 完整版 配套ppt学习好伴侣
<qq_29498799> 上传 | 大小:64byte

[Hadoop] Imply详细安装步骤

说明: Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细安装步骤Imply详细
<liwei123apple> 上传 | 大小:196kb

[spark] 基于Spark的交互式数据预处理系统

说明: 高质量的决策依赖于高质量的数据,数据预处理是数据挖掘至关重要的环节.传统的数据预处理系统并不能很好的适用于大数据环境,企业现阶段主要使用Hadoop/Hive对海量数据进行预处理,但普遍存在耗时长、效率低、无交互等问题.提出了一种基于Spark的交互式数据预处理系统,系统提供一套通用的数据预处理组件,并支持组件的扩展,数据以电子表格的形式展现,系统记录用户的处理过程并支持撤销重做.本文从数据模型、数据预处理操作、交互式执行引擎以及交互式前端四个方面描述了系统架构.最后使用医疗脑卒中的真实数据对
<qq_28339273> 上传 | 大小:765kb
« 1 2 ... .72 .73 .74 .75 .76 977.78 .79 .80 .81 .82 ... 1412 »