您好,欢迎光临本网站![请登录][注册会员]  

大数据下载列表 第807页

« 1 2 ... .02 .03 .04 .05 .06 807.08 .09 .10 .11 .12 ... 1412 »

[算法与数据结构] 《RapidMiner数据分析与挖掘实战》第12章 文本挖掘

说明: 本章介绍文本分类。由于大部分交流信息以文本格式保存,文本分类是文本挖掘中的一个重要主题。我们将建立一个RapidMiner挖掘流程,来学习垃圾短信和我们实际想阅读的短信之间的区别。然后我们将应用此学习到的模型到新的短信中,来确定其是否为垃圾短信。垃圾短信是许多熟悉主题中的一种,自然地,我们由此就开始动手工作。用于垃圾短信分类的相同的技术可以在许多其他文本挖掘领域中使用。
<qq_40370890> 上传 | 大小:301kb

[算法与数据结构] 《RapidMiner数据分析与挖掘实战》第11章 决策树与神经网络

说明: 决策树方法在分类、预测、规则提取等领域有着广泛应用。在20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinilan提出了ID3[5-2]算法以后,决策树在机器学习、数据挖掘邻域得到极大的发展。Quinilan后来又提出了C4.5,成为新的监督学习算法。1984年几位统计学家提出了CART分类算法。ID3和ART算法大约同时被提出,但都是采用类似的方法从训练样本中学习决策树。
<qq_40370890> 上传 | 大小:1mb

[算法与数据结构] 《RapidMiner数据分析与挖掘实战》第9章 K-Means 聚类、辨别分析

说明: 与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习算法。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将他们划分为若干组,划分的原则是组内样本最小化而组间(外部)距离最大化,如图9 1所示。
<qq_40370890> 上传 | 大小:362kb

[算法与数据结构] 《RapidMiner数据分析与挖掘实战》第8章 关联分析与关联规则

说明: 关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。 8.1.1 常用关联规则算法 常用关联算法如所表8 1所示。
<qq_40370890> 上传 | 大小:655kb

[算法与数据结构] 《RapidMiner数据分析与挖掘实战》第7章 数据预处理

说明: 在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。 数据预处理的主要内容包括数据清洗,数据集成,数据变换和数据规约。处理过程
<qq_40370890> 上传 | 大小:1mb

[算法与数据结构] 《RapidMiner数据分析与挖掘实战》第4章 数据和结果可视化

说明: 前面的部分中,我们已经看到了RapidMiner Studio图形用户界面是如何建立起来的,以及如何用它来定义和执行分析流程。在流程的最后,流程结果会显示在结果视图中。现在在工具栏上点击一下就能跳转到结果视图了。这一章会详细阐述结果视图。依据您是否已经生成了可被描述的结果,在默认设置前提下,您现在应该至少能大致看到这些显示内容,如图4.1所示。
<qq_40370890> 上传 | 大小:1mb

[算法与数据结构] 《Rapidminer数据分析与挖掘实战(中文版)》第2章 RapidMiner简介 Word版

说明: 第2章 RapidMiner Studio简介 RapidMiner Studio 结合技术性和适用性,为最新的及已建立的人性化数据挖掘技术提供服务。通过推拽算子,设置参数及组合算子,在RapidMiner Studio中定义分析流程。
<qq_40370890> 上传 | 大小:3mb

[Hadoop] Hadoop集群(第12期副刊)_Hbase性能优化

说明: Hadoop集群(第12期副刊) ——HBase性能优化 1、从配置角度优化 1.1 修改Linux配置 Linux系统最大可打开文件数一般默认的参数值是1024,如果你不进行修改并发量上来的时候会出现“Too Many Open Files”的错误,导致整个HBase不可运行,你可以用ulimit -n 命令进行修改,或者修改/etc/security/limits.conf 和/proc/sys/fs/file-max的参数,具体如何修改可以去Google 关键字“linux limits
<qq_40370890> 上传 | 大小:471kb

[Hadoop] 细细品味Hadoop(Hadoop安装及配置)

说明: 一、集群网络环境介绍 集群包含三个节点:1 个namenode,2 个datanode,节点之间局域网连接, 可以相互ping 通。节点IP 地址分布如下: Namenode: zhangpeng@192.168.90.91 Datanode1: zhangruixue@192.168.90.94 Datanode2: guanxiansun@192.168.90.205
<qq_40370890> 上传 | 大小:886kb

[Hadoop] 大数据生态体系课程大纲.pdf

说明: CSDN 学院大数据生态体系课程大纲。 实战项目: 电商企业大数据分析平台架构与设计 电商大数据分析平台 微博社交数据分析平台 电商数据运营分析平台 企业实时运营指挥室大数据分析平台 金融企业用户交易行为分析大数据平台 企业运营数据实时指挥室 欧洲运营商O 域用户
<hvang1988> 上传 | 大小:556kb

[算法与数据结构] 基于并行计算的文本分类技术

说明: 针对传统文本分类方法对于海量数据分类速度慢精度差等问题,将并行计算应用到文本分类领域,设计了一套基于MapReduce的并行化文本分类框架,结合Bagging算法思想提出了支持向量机的并行训练方法,并在Hadoop云计算平台上进行了实验,实验结果表明该分类方法具有较快的分类速度和较高的分类精度。
<qq_28339273> 上传 | 大小:364kb

[Hadoop] 云环境下基于衰减因子网格的Skyline查询

说明: 为了解决云环境下对于海量数据的Skyline查询,提出了在Map-Reduce框架下基于衰减因子网格Skyline查询(SQBDFG)算法,该算法通过衰减式的网格进行区域划分,利用网格间的统治关系进行快速过滤,达到减少传输开销的目的,并针对网格的衰减速度会影响实际查询性能进行进一步优化.首先提出网格的最大剪枝空间和最大剪枝效率两个概念,然后从理论上证明了采用衰减式网格在处理海量数据的Skyline查询时在这两方面具有明显的优势.最后通过Hadoop分布式集群上的大量实验,在Skyline查询时
<qq_28339273> 上传 | 大小:372kb
« 1 2 ... .02 .03 .04 .05 .06 807.08 .09 .10 .11 .12 ... 1412 »