您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Ytk-learning是实现大多数流行机器学习算法的分布式机器学习库()

  2. Ytk-learning是实现大多数流行机器学习算法的分布式机器学习库。 它运行在单台,多台机器和主要分布式环境(hadoop,spark)上,并支持主要操作系统(Linux,Windows,Mac OS),分布式环境的通信是基于ytk-mp4j实现的,它是纯Java,类似mpi消息传递接口。
  3. 所属分类:其它

    • 发布日期:2019-08-08
    • 文件大小:995kb
    • 提供者:weixin_39840914
  1. 机器学习库spark-sklearn.pptx

  2. 详细的介绍了当前机器学习流行的库——scikit-learn,对于从事机器学习的小伙伴很有用,包含分类、回归、聚类等流行的方法的实现。
  3. 所属分类:机器学习

    • 发布日期:2020-03-29
    • 文件大小:112kb
    • 提供者:weixin_37763870
  1. MLlib--Spark提供的可扩展的机器学习库.zip

  2. MLlib(Machine Learnig lib) 是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤。
  3. 所属分类:spark

    • 发布日期:2020-03-04
    • 文件大小:53mb
    • 提供者:leiyis
  1. Spark 机器学习.xmind.zip

  2. MLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且容易,思维导图中详细地描述了Spark ML机器学习库相关的技术点及使用示例
  3. 所属分类:互联网

  1. spark-mllib:Apache Spark是用于机器学习和大数据的最广泛使用和受支持的开源工具之一。 在此存储库中,发现如何使用此强大的机器学习平台进行工作。 此回购讨论了MLlib(Spark机器学习库),该库为数据科学家和分析人员

  2. spark-mllib:Apache Spark是用于机器学习和大数据的最广泛使用和受支持的开源工具之一。 在此存储库中,发现如何使用此强大的机器学习平台进行工作。 此回购讨论了MLlib(Spark机器学习库),该库为数据科学家和分析人员提供了工具,他们希望找到业务问题的解决方案,而不是编写,测试和维护自己的机器学习库。 回购展示了如何使用DataFrames来组织数据结构,并介绍了数据准备和最常用的机器学习算法类型
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:155kb
    • 提供者:weixin_42119281
  1. mlrun:机器学习自动化和跟踪-源码

  2. 开源MLOps编排框架 MLRun是一个开源MLOps框架,它提供了一种集成方法来管理您的机器学习管道,从早期开发到模型开发再到生产中的完整管道部署。 MLRun为各种技术堆栈提供了一个方便的抽象层,同时使数据工程师和数据科学家能够定义功能和模型。 MLRun体系结构 MLRun由以下几层组成: Feature and Artifact Store-处理跨多个存储库和技术的数据和功能的提取,处理,元数据和存储。 Elastic Serverless Runtimes-使用特定于工作负载的
  3. 所属分类:其它

  1. Apache-pyspark-hadoop-using-databricks:说明使用pyspark执行的一些基本活动,并使用MLlib API执行一些机器学习(ML)算法-源码

  2. Apache-pyspark-hadoop使用数据块 说明使用pyspark执行的一些基本活动,并使用MLlib API执行一些机器学习(ML)算法 发布在此存储库上的笔记本是使用databricks开发的,databricks是spark创始人创建的一个开源平台,您可以选择以下提到的其他平台: 1)在虚拟机/本地机上使用ubuntu(或) 2)AWS EC2(或) 3)AWS EMR(或) 4)数据砖。 为了使用数据砖在此github存储库中执行笔记本,请创建一个社区版帐户,然后开始
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:80kb
    • 提供者:weixin_42131405
  1. SparkonAngel:Spark机器学习的核心加速器

  2. Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问题的,它能最大化的解决分布式问题,简化各种算子的复杂度,并提供高性能的分布式数据处理运算能力。然而在机器学习领域,RDD的弱点很快也暴露了。机器学习的核心是迭代和参数更新。RDD凭借着逻辑上不落地的内存计算特性,可以很好的解决迭代的问题,然而RDD的不可变性,却非常不适合参数反复多次更新的需求。这本质上的不匹配性,导致了Spark的MLlib库,发展一直非常缓
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:655kb
    • 提供者:weixin_38743506
  1. 用Spark机器学习数据流水线进行广告检测

  2. 在这篇文章中,我们Spark的其它机器学习API,名为SparkML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案。关键点:了解机器学习数据流水线有关内容。怎么用ApacheSpark机器学习包来实现机器学习数据流水线。数据价值链处理的步骤。Spark机器学习流水线模块和API。文字分类和广告检测用例。SparkML(spark.ml)包提供了构建在DataFrame之上的机器学习API,它已经成了SparkSQL库的核心部分。这个包可以用于开发和管理机器学习流水线。它也可以
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:298kb
    • 提供者:weixin_38565221
  1. 机器学习实践:如何将Spark与Python结合

  2. ApacheSpark是处理和使用大数据最广泛的框架之一,Python是数据分析、机器学习等领域最广泛使用的编程语言之一。如果想要获得更棒的机器学习能力,为什么不将Spark和Python一起使用呢?在国外,ApacheSpark开发人员的平均年薪为110,000美元。毫无疑问,Spark在这个行业中被广泛使用。由于其丰富的库集,Python也被大多数数据科学家和分析专家使用。二者集成也并没有那么困难,Spark用Scala语言开发,这种语言与Java非常相似。它将程序代码编译为用于Spark大
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:190kb
    • 提供者:weixin_38537684
  1. photon-ml:Apache Spark上的可扩展机器学习库-源码

  2. 光子机器学习(Photon ML) 查看我们的。 Photon ML是基于Apache Spark的机器学习库。 它最初是由LinkedIn机器学习算法团队开发的。 当前,Photon ML支持训练不同类型的(GLM)和(GLMM / GLMix模型):逻辑,线性和泊松。 特征 广义线性模型 线性回归 逻辑回归 泊松回归 GAME-广义加性混合效应 GAME算法使用坐标下降来扩展到传统的GLM之外,以进一步提供实体(每个用户,每个项目,每个国家等)的系数(在统计资料中也称为随机效应)。 它设
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:69mb
    • 提供者:weixin_42107165
  1. 机器学习工具箱:通过旧金山的一些社区聚会,学习机器学习的80小时课程-源码

  2. 机器学习工具箱 通过旧金山的一些社区聚会进行80个小时的机器学习课程 高级Spark和TensorFlow聚会 8月20日网络研讨会 工具 流水线AI 库伯流 TensorFlow Extended(TFX) 空气流动 显卡 热塑性聚氨酯 火花ML TensorFlow AI Kubernetes Scikit学习 火炬 流水线 ML / DL项目集群Holberton 8月27日将是一个项目集群,与会者将有时间从事项目工作 工具 fast.ai.home: : fast.
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:15kb
    • 提供者:weixin_42138408
  1. projectionio:PredictionIO,面向开发人员和ML工程师的机器学习服务器-源码

  2. Apache PredictionIO是面向开发人员,数据科学家和最终用户的开源机器学习框架。 它支持事件收集,算法部署,评估,通过REST API查询预测结果。 它基于可扩展的开源服务,例如Hadoop,HBase(和其他数据库),Elasticsearch,Spark,并实现了所谓的Lambda体系结构。 要开始使用,请访问 ! 目录 安装 提供一些安装选项。 快速开始 指南 指南 指南 错误和功能请求 使用报告错误或请求新功能。 文献资料 该文档包含在docs/manual目录中的此
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:12mb
    • 提供者:weixin_42099987
  1. TransmogrifAI:TransmogrifAI(发音为trăns-mŏgˈrə-fī)是一个AutoML库,用于在Apache Spark上构建模块化的,可重用的,强类型的机器学习工作流,而无需进行手动调整-源码

  2. TransmogrifAI TransmogrifAI(发音为trăns-mŏgˈrə-fī)是用Scala编写的AutoML库,它在Apache Spark之上运行。 它的开发重点是通过机器学习自动化来提高机器学习开发人员的生产率,以及一个用于强制执行编译时类型安全,模块化和重用的API。 通过自动化,它实现了接近手动调整模型的精度,时间减少了近100倍。 如果您需要机器学习库来执行以下操作,请使用TransmogrifAI: 数小时而不是数月内即可构建生产就绪的机器学习应用程序 在没有
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:111mb
    • 提供者:weixin_42149145
  1. benchm-ml:用于二进制分类的顶级机器学习算法(随机森林,Rus,Python scikit-learn,H2O,xgboost,Spark MLlib等)的可扩展性,速度和准确性的最低基准。梯度增强树,深度神经网络等)-源码

  2. 用于分类的机器学习库的可伸缩性,速度和准确性的简单/有限/不完整基准 所有基准都是错误的,但有些是有用的 该项目旨在为一些机器学习算法的常用实现的可伸缩性,速度和准确性提供一个最低基准。 这项研究的目标是使用数字和分类输入(具有有限的基数,即不是很稀疏)并且没有丢失的数据进行二进制分类,这可能是业务应用程序中最常见的问题(例如,信用评分,欺诈检测或客户流失预测)。 如果输入矩阵的大小为n x p ,则n的变化范围为10K,100K,1M,10M,而p为〜1K(在将分类扩展为伪变量/一次编码后)。
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:306kb
    • 提供者:weixin_42134537
  1. h2o-3:H2O是一个开源,分布式,快速且可扩展的机器学习平台:深度学习,梯度提升(GBM)和XGBoost,随机森林,广义线性建模(带有弹性网的GLM),K均值,PCA,广义附加模型(GAM),RuleFit,支持向量机(SVM),堆叠

  2. 水 H2O是用于分布式,可扩展的机器学习的内存平台。 H2O使用熟悉的界面(例如R,Python,Scala,Java,JSON和Flow笔记本/网络界面),并与Hadoop和Spark等大数据技术无缝协作。 H2O提供了许多流行实现,例如广义线性模型(GLM),梯度提升机(包括XGBoost),随机森林,深层神经网络,堆叠体,朴素贝叶斯,广义加性模型(GAM),考克斯比例危害,K-表示PCA,Word2Vec以及全自动机器学习算法( )。 H2O是可扩展的,因此开发人员可以添加自己选择的
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:88mb
    • 提供者:weixin_42126668
  1. javaAnchorExplainer:使用marcotcr最初于2018年提出的Anchor算法快速解释机器学习模型-源码

  2. 安奇 该项目为机器学习模型提供了Anchors解释算法的有效Java实现。 Marco Tulio Ribeiro(2018)的初始建议“锚定:高精度模型不可知的解释”可在找到。 算法 作者的提供了有关算法工作原理的简短描述: 锚点解释是一个规则,该规则可以在本地充分“锚定”预测-从而使实例的其余特征值的更改无关紧要。 换句话说,对于锚点所在的实例,预测(几乎)总是相同的。 anchor方法可以解释具有两个或更多类的任何黑盒分类器。 我们所需要的只是分类器实现一个接受[数据实例]并输出[
  3. 所属分类:其它

    • 发布日期:2021-01-31
    • 文件大小:82kb
    • 提供者:weixin_42157556
  1. Ruby机器学习:精选列表:Ruby中机器学习的资源-源码

  2. [ | | ] Ruby很棒的机器学习 Ruby机器学习链接和资源的精选清单 是一个领域-通常嵌套在研究下-具有许多实际应用,这是由于所得算法能够在没有明确的程序员指令的情况下系统地实现特定解决方案。 显然,许多算法需要定义以供查看,或者需要很大的数据才能得出解决方案。 此精选列表包括有关使用编程语言进行库,数据源,教程和演示。 清单上的许多有用资源来自的开发,我们的以及我们自己在各种ML应用程序上的日常工作。 :sparkles: 欢迎每一个! 通过拉取请求添加链接或创建问题以
  3. 所属分类:其它

    • 发布日期:2021-01-31
    • 文件大小:111kb
    • 提供者:weixin_42144086
  1. mldotnet实时数据流讲习班:机器学习和实时数据分析研讨会-源码

  2. 介绍 对于许多组织而言,使用实时数据流以及使用自定义机器学习模型获得实时见解已变得越来越重要。 当前有许多实时数据平台(例如,Kafka,Hadoop,Spark),但是我们将在本研讨会中重点关注的平台是Azure Stream Analytics 。 除了深入了解Azure流分析之外,我们还将探索开源跨平台库 ,我们将使用它来构建自定义机器学习模型,并研究使用Azure机器学习服务的替代解决方案。 入门 展开说明以设置先决条件 下载.NET Core SDK 转到 为您的操作系统选择正确的
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:59mb
    • 提供者:weixin_42125826
  1. SparkonAngel:Spark机器学习的核心加速器

  2. Spark的核心概念是RDD,而RDD的关键特性之一是其不可变性,来规避分布式环境下复杂的各种并行问题。这个抽象,在数据分析的领域是没有问题的,它能最大化的解决分布式问题,简化各种算子的复杂度,并提供高性能的分布式数据处理运算能力。然而在机器学习领域,RDD的弱点很快也暴露了。机器学习的核心是迭代和参数更新。RDD凭借着逻辑上不落地的内存计算特性,可以很好的解决迭代的问题,然而RDD的不可变性,却非常不适合参数反复多次更新的需求。这本质上的不匹配性,导致了Spark的MLlib库,发展一直非常缓
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:655kb
    • 提供者:weixin_38666114
« 12 3 »