搜索资源 - spark特征工程 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - spark特征工程

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

全栈数据之门.rar
全栈数据很好的入门书籍，高清带书签。以数据分析领域最热的Python语言为主要线索，介绍了数据分析库numpy、Pandas与机器学习库scikit-learn，使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习，既有常用算法kNN与Kmeans的应用，决策树与随机森林的实战，还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上，使用Spark的ML/MLlib库集成了前面的各部分内容，让分布式机器学习更容易。大量的工具与技能实战的介绍将各部
所属分类：spark
- 发布日期：2019-06-21
- 文件大小：16mb
- 提供者：weixin_45289854

基于Spark的肿瘤基因混合特征选择方法.pdf
基于Apache Spark的特征工程和机器学习实践，基于肿瘤基因数据集。
所属分类：spark
- 发布日期：2019-06-24
- 文件大小：1mb
- 提供者：tianyi2214

PySpark线性回归
利用Python调用spark接口训练线性回归模型，详细介绍了PySpark的使用，包含：数据准备、数据探索、特征工程和模型训练
所属分类：机器学习
- 发布日期：2020-09-06
- 文件大小：12kb
- 提供者：lkm18377184433

Spark数据处理与特征工程
sklearn在中小型数据集上，在工业界是在使用的 xgboost、lightgbm在工业界的实用度非常的高工业界数据体量真的达到上亿或者十亿这样的规模用sklern处理起来是比较吃力的，可借助于大数据的工具，比如spark来解决现在可以用spark来做大数据上的数据处理，比如数据工程、监督学习、无监督学习模型的构建，只要计算资源够就OK。【大数据底层做分布式处理】注意：spark基于RDD形态、DataFrame形态两种形态的工具库，其中基于RDD形态的工具库目前已经暂停维护，所以建议
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：75kb
- 提供者：weixin_38691006

decision-tree-spark:决策树模型抽象工程（Spark）-源码
案例：年龄段数据源：金融实名信息，信安实名信息，简历出生年月，umc用户中心信息特征结构：（金融年龄，信安年龄，简历年龄，UMC年龄，简历年龄？= UMC年龄，appList）解决思路：PMML二叉树，前序遍历，深度优先，分支策略 {“ features”：“金融年龄段，信安年龄段，退休年龄段，UMC年龄段，AppList”，“ rules”：{“ rule”：“有没有金融年龄段？”，“ left”：“金融年龄段，置信度= 1“，”右“：{” rule“：”有没有信安年龄段？“，” lef
所属分类：其它
- 发布日期：2021-03-22
- 文件大小：29kb
- 提供者：weixin_42110038

Deep_Rec:存放推荐算法相关代码，文档，资料-源码
本库用于存放推荐的相关算法代码和文档 DeepRank / 概述对输入特征，特征工程，核心模型，模型输出分别进行了封装。模型更新交替的时候可以针对性的修改指定模块，也方便后续模型的切换，，特征的迭代，以及输入数据在输入，特征工程，保存模型，在线服务各个模块的统一配置。数据读取利用tfrecords/下一个代码可以很方便的利用spark扩展将数仓经过ETL的hive表训练数据转换成frecords格式，并存储HDFS上。配置设置 model_schema.json 配置训练数据中的细分，可
所属分类：其它
- 发布日期：2021-03-15
- 文件大小：59kb
- 提供者：weixin_42099814

Spark ML 特征工程之 One-Hot Encoding-附件资源
Spark ML 特征工程之 One-Hot Encoding-附件资源
所属分类：互联网
- 发布日期：2021-03-05
- 文件大小：106byte
- 提供者：weixin_42196750

Spark ML 特征工程之 One-Hot Encoding-附件资源
Spark ML 特征工程之 One-Hot Encoding-附件资源
所属分类：互联网
- 发布日期：2021-03-02
- 文件大小：23byte
- 提供者：weixin_42191480

Weiflow——微博机器学习框架
本文从开发效率（易用性）、可扩展性、执行效率三个方面，介绍了微博机器学习框架Weiflow在微博的应用和最佳实践。在上期《基于Spark的大规模机器学习在微博的应用》一文中我们提到，在机器学习流中，模型训练只是其中耗时最短的一环。如果把机器学习流比作烹饪，那么模型训练就是最后翻炒的过程；烹饪的大部分时间实际上都花在了食材、佐料的挑选，洗菜、择菜，食材再加工（切丁、切块、过油、预热）等步骤。在微博的机器学习流中，原始样本生成、数据处理、特征工程、训练样本生成、模型后期的测试、评估等步骤所需要投入的
所属分类：其它
- 发布日期：2021-02-25
- 文件大小：384kb
- 提供者：weixin_38744902

guofei9987.github.io：我的博客-源码
0-读论文（7篇）文章编号文章译文链接 0 【读论文】先知 1个【论文笔记】在神经网络中提取知识 2 【论文笔记】深层神经网络很容易被愚弄 3 【论文笔记】深度神经网络的特征如何可传递 4 【论文笔记】CNN具有现成的功能 5 【论文笔记】CNN中级图像表示的学习和传递 6 【论文笔记】CNN的可视化与理解 1-1-算法平台（16篇）文章编号文章译文链接 101 【Linux】常用命令 103 git语法速查表。 141 【Docker】入门 150 【SQL】
所属分类：其它
- 发布日期：2021-02-22
- 文件大小：2mb
- 提供者：weixin_42110362

频谱化：Insight DE项目-音频处理平台-源码
解压缩音频文件以快速进行ML探索目录概述音频数据在现代世界中无处不在，并且对各种各样的行业和应用具有很高的价值。许多公司依靠将机器学习算法应用于各种音频数据集而获得的见解。尽管许多此类应用程序基于已定义的摘要统计信息，但较新的深度学习方法依赖于处理尽可能多的数据特征。 Spectralize是一个平台，旨在将常见音频文件处理和解压缩为完全索引的频谱特征，从而可以快速用于分析和ML探索。工程设计处理管道 Spectralize基于Python，实现Spark数据帧，并将数据从AWS
所属分类：其它
- 发布日期：2021-02-14
- 文件大小：351kb
- 提供者：weixin_42160645

大数据程序：使用Spark和R编程语言的大数据程序-源码
大数据程序使用Spark MLlib和ML库以及R编程语言的大数据程序 R编程回归：我们考虑了特征/预测变量仅线性出现在模型中的情况。对于Credit数据集，与常规线性模型相比，岭回归和套索仅做了很小的改进。我们可以添加到模型中的最简单的非线性类型是特征的成对相互作用。如果xj和xk是不同的特征，则意味着我们也将xjxk视为特征。在R中，成对交互非常容易实现：X = model.matrix（balance〜。*。，Credit）[，-1]（1）成为新的设计矩阵。那个工程。 ∗。
所属分类：其它
- 发布日期：2021-02-13
- 文件大小：186mb
- 提供者：weixin_42164931

Scala1.zip
这些资源主要是用来对那些正在学习Spark特别是要做数据清洗，特征工程，大数据实时以及并行计算的人群有帮助
所属分类：Java
- 发布日期：2021-02-06
- 文件大小：470kb
- 提供者：weixin_45226273

SparrowRecSys：深度学习推荐系统-源码
SparrowRecSys SparrowRecSys是一个电影推荐系统，名字SparrowRecSys（麻雀推荐系统），取自“麻雀虽小，五脏俱全”之意。项目是一个基于maven的混合语言项目，同时包含了TensorFlow，Spark，Jetty Server等推荐系统的不同模块。希望您能够利用SparrowRecSys进行推荐系统的学习，并有机会一起完善它。基于SparrowRecSys的实践课程受极客时间邀请建立课程，详细讲解了SparrowRecSys的所有技术细节，覆盖了深度学习
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：49mb
- 提供者：weixin_42111465

Weiflow——微博机器学习框架
本文从开发效率（易用性）、可扩展性、执行效率三个方面，介绍了微博机器学习框架Weiflow在微博的应用和最佳实践。在上期《基于Spark的大规模机器学习在微博的应用》一文中我们提到，在机器学习流中，模型训练只是其中耗时最短的一环。如果把机器学习流比作烹饪，那么模型训练就是最后翻炒的过程；烹饪的大部分时间实际上都花在了食材、佐料的挑选，洗菜、择菜，食材再加工（切丁、切块、过油、预热）等步骤。在微博的机器学习流中，原始样本生成、数据处理、特征工程、训练样本生成、模型后期的测试、评估等步骤所需要投入的
所属分类：其它
- 发布日期：2021-01-27
- 文件大小：382kb
- 提供者：weixin_38591615