大数据下载列表第1252页

[Hbase] 切割大csv文件工具

说明：此款工具是用来切割大的csv文件工具，希望对于大家处理大型csv数据有帮助。
<u014744118> 上传 | 大小：530kb

[Hadoop] hadoop本地调试MR

说明： IDEA hadoop本地调试MR windows-hadoop-bin 的压缩包，适合hadoop2.7.2以上，而且有详细的安装环境文档和错误的处理，一次通过
<mengxpfighting> 上传 | 大小：993byte

[算法与数据结构] on discriminative vs generative classifiers

说明：从理论和实践区分判别模型和生成模型区分，andrew NG所写
<u012513618> 上传 | 大小：213kb

[Hadoop] Hadoop学习整理的基础知识包含MapReduce和Hive（思维导图形式）

说明： Hadoop学习整理的基础知识（思维导图） 1、初始Hadoop 2、Hadoop分布式文件系统 3、Hadoop分布式计算框架 4、Hadoop资源管理器Yarn 5、基于Hadoop的数据仓库Hive
<simuhunluo> 上传 | 大小：6mb

[算法与数据结构] A Communication-Efficient Parallel Algorithm for Decision Tree

说明：基于投票的数据并行则进一步优化数据并行中的通信代价，使通信代价变成常数级别。在数据量很大的时候，使用投票并行可以得到非常好的加速效果。更具体的内容可以看NIPS2016的文章[A Communication-Efficient Parallel Algorithm for Decision Tree]。
<u012513618> 上传 | 大小：458kb

[算法与数据结构] lightgbm算法

说明：具体讲解lightgbm算法，直方图加速，预排序思想，等等
<u012513618> 上传 | 大小：761kb

[spark] spark streaming

说明： spark streaming spark流式计算 Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据
<u014372225> 上传 | 大小：7mb

[Hadoop] Hadoop入门程序java源码

说明： Hadoop集群搭建好后，这是用于测试用的入门级java程序源码，也是我博文的一个补充，欢迎查看下载
<cai_4399> 上传 | 大小：23kb

[Hadoop] hadoop 高可用集群一键启动脚本

说明： hadoop 高可用启动脚本，运行启动zookeeper集群和hadoop ha集群
<qq_36711289> 上传 | 大小：442byte

[spark] spark操作hive表源码

说明：应用spark2.1的api对hive对进行读写，代码中有明确的操作步骤。
<hyh012356789> 上传 | 大小：13kb

[算法与数据结构] xgboost 在ubuntu上安装，并编译好jvm-packages

说明： 2017年11月2号晚上下载的最新版本的xgboost, ubuntu中编译好的，jvm packages编译好的，生成的jar包在jvm-packages下对应的target文件夹下
<jinxiu2216> 上传 | 大小：1mb

说明：在一般的数学统计过程中，为了求得方差，需要预先知道所有的数据项，然后通过求均值，再通过遍历所有数据项计算平方和的方式求得方差。但是在大数据、流式处理的场景，是无法预先知道所有数据项的，经常需要在任意时候动态的知道当前所有存量数据的方差，此时如果使用遍历的方式，将耗费大量的计算量，同时，缓存所有的数据也占用大量存储空间。所以需要通过递推的方式，通过之前状态的均值、方差、计数、以及当前数据项来计算出当前状态的方差。方差递推公式的计算过程如下：
<wuqinlong> 上传 | 大小：41kb