您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 菊安酱的机器学习第1期-k-近邻算法(直播).pdf

  2. k-近邻算法的课件。来自于菊安酱的机器学习实战12期的免费教程。内涵python源码。菊安酱的直播间: 我们已经知道k近邻算法的工作原理,根据特征比较,然后提取样本集中特征最相似数据(最近邻)的分类标签。 那么如何进行比较呢?比如表1中新出的电影,我们该如何判断他所属的电影类别呢?如图2所示。 电影分类 120 爱情片(1,101) 爱情片(12,97) 80 爱情片(5,89) 水弊 60 ?(24,67) 动作片(112,9 20 动作片(1158) 动作片(108,5) 0 20 60 8
  3. 所属分类:讲义

    • 发布日期:2019-07-27
    • 文件大小:847kb
    • 提供者:qiu1440528444
  1. 学生每周正常运动量和疫情在家期间每周运动量经验分布函数与正太总体分布函数对比.docx

  2. 根据班里同学提供的数据可知,每周运动量事件的分布都服从正态分布,我们想要验证一下这个结论是否正确,于是,我们小组收集了 同学平时每周运动量和疫情期间运动量的数据.在深入研究经验分布函数和正态 总体的理论基础上,借鉴一些文献,给出利用经验分布函数的理论知识,对同学的每周运动量的数据进行统计和分析。 目的是通过应用python语言对同学每周运动量时间数据进行与之同均值、同方差的正态 总体进行拟合。再通过结果分析,我们得到了比较结果.由此结果,同学都会对自己的健康状况有一定的了解,从而使自己勤加锻炼,
  3. 所属分类:讲义

    • 发布日期:2020-07-09
    • 文件大小:78kb
    • 提供者:qq_44762986
  1. Python数据分析之分布分析

  2. Python数据分析之分布分析 概念:就是研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量; 应用场景:分布分析主要用于观察数据分布特征,常见方法比如散点图、求极差、观察频率分布情况、分组组距及组数。 *本次以某壳二手房数据为分析案例: (1)导入模块:* import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline (2)导入数据: data = pd.rea
  3. 所属分类:其它

    • 发布日期:2020-12-22
    • 文件大小:218kb
    • 提供者:weixin_38518074
  1. 数据可视化之小提琴图(原理+Python代码)

  2. 数据来源于天池赛题:零基础入门数据挖掘 – 二手车交易价格预测 地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX 目录一、原理介绍二、代码实现三、结果解读 一、原理介绍 小提琴图(violin plot)顾名思义,就是外形像小提琴的一种图。这种图用来显示数据的分布和概率密度,可以看成是箱线图和密度图的结合。小提琴图的中间部分
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:61kb
    • 提供者:weixin_38623366
  1. python数据分析实战之AQI分析

  2. 文章目录1、数据分析的基本流程2、明确需求和目的2.1 需求和目的3、数据收集4、数据预处理4.1 数据整合4.1.1 加载相关库和数据集4.1.2 数据总体概览4.2 数据清洗4.2.1 缺失值的处理4.2.2 异常值的处理4.2.3 重复值的处理5、数据分析5.1 描述性统计分析(1)哪些城市的空气质量较好/较差?(2)对城市的空气质量按照等级划分,每个等级城市数量分布情况如何?(3)空气质量在地里位置分布上,是否具有一定的规律性?5.2 推断统计分析(1)临海城市的空气质量是否有别于内陆城
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:309kb
    • 提供者:weixin_38600253
  1. python数据分析实战之AQI分析

  2. 文章目录1、数据分析的基本流程2、明确需求和目的2.1 需求和目的3、数据收集4、数据预处理4.1 数据整合4.1.1 加载相关库和数据集4.1.2 数据总体概览4.2 数据清洗4.2.1 缺失值的处理4.2.2 异常值的处理4.2.3 重复值的处理5、数据分析5.1 描述性统计分析(1)哪些城市的空气质量较好/较差?(2)对城市的空气质量按照等级划分,每个等级城市数量分布情况如何?(3)空气质量在地里位置分布上,是否具有一定的规律性?5.2 推断统计分析(1)临海城市的空气质量是否有别于内陆城
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:309kb
    • 提供者:weixin_38609128
  1. python数据分析之决策树实践

  2. 文章目录1、信息熵1.1 信息熵公式1.2 概率分布与信息熵2、决策树2.1 决策树概念2.2 决策树预测原理3、分类决策树3.1 信息增益3.2 训练规则3.3 分类决策树示例4、不纯度度量标准5、决策树算法5.1 ID35.2 C4.55.3 CART6、回归决策树7、决策树实践7.1 分类决策树实践7.2 回归决策树实践 1、信息熵 信息熵,用来描述系统信息量的不确定度,不确定性越大,则信息熵越大,反之,信息熵越小。 1.1 信息熵公式 假设随机变量X具有M个值,分别为: V1,V2 ,
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:68kb
    • 提供者:weixin_38610513
  1. 数据可视化之利用Python制作词云图

  2. 制作词云图一.词云图介绍二.wordcloud方法二. stylecloud方法 一.词云图介绍 词云图可以看作是文本数据的视觉表示,由词汇组成类似云的彩色图形。相对其它诸多用来显示数值数据的图表,词云图的独特之处在于,可以展示大量文本数据。文本数据中每个词的重要性以字体大小或颜色显示,因此词云可以很好地表明每个单词在特定文本体中被提及的频率(即词频分布),通过使用不同的颜色和大小来表示不同级别的相对显着性。 词云图的应用相当广泛,诸如电影-视频-微博-网易云-淘宝-知乎等评论分析、书籍-报告-
  3. 所属分类:其它

    • 发布日期:2020-12-20
    • 文件大小:129kb
    • 提供者:weixin_38553431
  1. 大数据开发之走进MapReduce

  2. MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但要想写出有用的程序却不太容易。Hadoop可以运行各种语言版本的MapReduce程序。在本章中,我们将看到同一个程序的Java、Ruby、Python和C++语言版本。最重要的是,MapReduce程序本质上是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。MapReduce的优势在于处理大规模数据集,所以这里先来看一个数据集。在我们的例子里,要写一个挖掘气象数据的程序。分布在全球各地的很多气
  3. 所属分类:其它

    • 发布日期:2021-03-01
    • 文件大小:424kb
    • 提供者:weixin_38653040
  1. Python学习笔记——大数据之SPARK核心

  2. 本文来自于csdn,文章讲解RDD的特点,RDD操作函数相关,穿插案例辣酱得段子,带大家理解MapReduce,通过哈姆雷特单词分析案例进行深度剖析。RDD(ResilientDistributedDatasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中),RDD混合了各种计算模型,使得Spark可以应用于各种大数据处理场景当然,RDD肯定不会这么简单,它的功能还包
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:426kb
    • 提供者:weixin_38627213
  1. 交通事故分析-源码

  2. 本地流量,统计摘要和推断 概述 这是我从事数据科学之旅的第一个项目。 我应用了上周学到的基本技能,涵盖了以下内容:-基本统计信息(分布,置信区间,假设检验) 许多Python编程概念 与文件和目录进行编程交互 可视化 EDA 使用Jupyter笔记本进行开发和报告 通过这个项目,我了解了沙特阿拉伯颁发的交通事故和驾驶执照的数量。 我确定了数据的趋势,并创建了一些图表来查看数据中每个功能的概况,以及数据分析方法的导入,清除以及寻找一些统计信息以识别有关数据的更多细节。 数据集 提供的数据 对于
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:491kb
    • 提供者:weixin_42113456
  1. 大数据开发之走进MapReduce

  2. MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但要想写出有用的程序却不太容易。Hadoop可以运行各种语言版本的MapReduce程序。在本章中,我们将看到同一个程序的Java、Ruby、Python和C++语言版本。最重要的是,MapReduce程序本质上是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。MapReduce的优势在于处理大规模数据集,所以这里先来看一个数据集。在我们的例子里,要写一个挖掘气象数据的程序。分布在全球各地的很多气
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:424kb
    • 提供者:weixin_38643127
  1. Python学习笔记——大数据之SPARK核心

  2. 本文来自于csdn,文章讲解RDD的特点,RDD操作函数相关,穿插案例辣酱得段子,带大家理解MapReduce,通过哈姆雷特单词分析案例进行深度剖析。RDD(ResilientDistributedDatasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中),RDD混合了各种计算模型,使得Spark可以应用于各种大数据处理场景当然,RDD肯定不会这么简单,它的功能还包
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:423kb
    • 提供者:weixin_38678022
  1. 无监督学习之PCA降维

  2. 无监督学习:通过无标签的数据,学习数据的分布或数据与数据之间的关系。 1. 降维算法 1 定义:用低维的概念去类比高维的概念.将高维的图形转化为低维的图形的方法。 1.1. 算法模块 :PCA算法、NMF(非负矩阵分解)算法、LDA算法等。 1.2. Python库 :sklearn.decomposution; 2. 主成分分析( PCA )降维算法 1 主成分分析:主成分分析( Principal Component Analysis, PCA )是最常用的一种降维方法,通常用于高维数据集的
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:159kb
    • 提供者:weixin_38500090
  1. paranormal_distributions:2019-2020年数据挖掘课程的N组项目-源码

  2. 超正态分布 MSc的数据挖掘课程的小组项目。 数据科学和高级分析 NOVA IMS(2019-2020)。 免责声明 这项工作尚未完成,但是此存储库包含它的现状。 群集部分保留在utils /上的笔记本中。 不便之处,敬请原谅。 安装 只需在终端中输入以下内容: pip install -r /path/to/requirements.txt 繁荣。 您现在可以运行我们的项目。 多亏了 ,我们的pip requirements.txt是根据我们的导入自动生成的。 用法 要使用我们的程序,只需
  3. 所属分类:其它