您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 大数据--SQL and pySpark

  2. 大数据--SQL and pySpark 对比分析
  3. 所属分类:spark

    • 发布日期:2017-08-09
    • 文件大小:1mb
    • 提供者:qq_34777600
  1. AI 领域完整的速查表

  2. 工欲善其事,必先利其器。在机器学习、深度学习研究中,优秀的参考资料和手册往往能够助我们事半功倍!今天给大家推荐cheatsheets-ai,涉及 AI 领域完整的速查表。该项目涉及到大数据分析、机器学习和深度学习等领域,包括数据科学相关库Numpy、Pandas、PySpark 等,机器学习相关库 Scikit-learn 等,以及深度学习相关库 TensorFlow 等,非常适合作为我们的常用工具,方便快捷。
  3. 所属分类:机器学习

    • 发布日期:2019-07-16
    • 文件大小:29mb
    • 提供者:qq_22976675
  1. 3 大数据实战:招聘网站职位分析.docx

  2. 通过采集招聘网站大数据职位信息、利用数据清洗、数据分析、结巴分词、数据挖掘完成整体项目的开发工作。任务包含爬取招聘网站大数据职位信息、使用BeautifulSoup清洗职位信息网页、使用PySpark对智联数据进行分析、对招聘职位信息进行探索分析、使用结巴分词对岗位描述进行分词并将关键词统计、利用Echarts将职位分析结果进行可视化、建立职位模型对应聘人员进行相似度的计算
  3. 所属分类:互联网

    • 发布日期:2020-05-11
    • 文件大小:2mb
    • 提供者:kfjztb
  1. 基于Python Spark的大数据分析课程.rar

  2. 给大家分享一套视频教程,名字叫:基于Python Spark的大数据分析课程,很棒的一套pyspark课程,讲师技术水平一流,课程通俗易懂,附源码和课堂笔记
  3. 所属分类:spark

    • 发布日期:2020-06-08
    • 文件大小:298byte
    • 提供者:atipa
  1. Big-Data-Analysis-of-NYC-Trip-data-2021:OSU的CS512数据科学工具和编程(大数据)的最终项目-源码

  2. 纽约市旅行数据2021年的大数据分析 OSU的CS512数据科学工具和编程(大数据)的最终项目 纽约市TLC行程记录的大数据分析(黄色,绿色出租车,越野车,HFHV)数据 林珊 描述:我们使用Google Cloud Platform(GCP)服务(例如Compute Engine,BigQuery,Cloud Dataproc)和PySpark / Apache Spark探索和分析纽约市出租车和豪华轿车委员会在2019-2020年间的旅行记录(约35.26 GB)。 说明文件: 包含完整报
  3. 所属分类:其它

  1. lab-3-copy-源码

  2. DSGA1004-大数据 实验3:Spark和列导向的存储: 布莱恩·麦克菲教授(bm106) 亚历克·汉(Alh Hon)(ABH466) 阿努莎·帕蒂尔(arp624) 发放日期:2021-03-11 提交截止日期:2021-03-26 23:55ET 内容: 第1部分。果皮上的火花 在此作业中,我们将使用Spark分析Peel Cluster上的数据。 要在Peel集群上运行Spark作业,请首先在git repo中运行以下命令: source shell_setup.sh
  3. 所属分类:其它

  1. Big_Data_Project-源码

  2. 大数据项目 使用的工具 - Pyspark,SQL 过程 - 数据预处理- 数据集包含FIFA 2019足球运动员的详细信息。预处理包含以下步骤。 删除数据集中不必要的列,符号。 将值属性转换为浮点值 使用nib-max归一化进行特征缩放 删除包含空值的行 数据分析和数据可视化- 寻找总体球员评级,年龄和球员潜力与每个球员的市场价值之间的相关性。 查找具有最大相关性的两列。 观察到的最大相关性是针对总体玩家评级和每个玩家的市场价值。 绘制总体玩家评分和每个玩家的市场价值以及所需的
  3. 所属分类:其它

  1. PySpark-源码

  2. PySpark 有关PySpark / Spark的一些信息: PySpark是适用于Spark的Python API Spark不是一种编程语言 PySpark允许您编写在分布式集群上并行执行的基于python的数据处理应用程序 Apache Spark是一个分析处理引擎,用于大规模,强大的分布式数据处理以及amchine学习应用程序 Hadoop和Mapreduce的发明是为了解决大数据存储和处理问题 Hadoop是一组旨在在分布式计算机集群上运行的软件库,Mapreduce是数据处理引
  3. 所属分类:其它

  1. Amazon_Vine_Analysis-源码

  2. 家具产品-亚马逊藤分析 项目概况 由于您与Jennifer在SellBy项目上的合作是如此成功,因此您要承担另一个更大的项目的任务:分析由Amazon Vine付费计划成员撰写的Amazon评论。 Amazon Vine程序是一项服务,允许制造商和发布者接收对其产品的评论。 诸如SellBy之类的公司向Amazon支付少量费用,并向Amazon Vine成员提供产品,然后这些成员必须发布评论。 在此项目中,您将可以访问大约50个数据集。 每个评论都包含对特定产品的评论,从服装到无线产品。 您需
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:31kb
    • 提供者:weixin_42139429
  1. Big-Data-Analytics-源码

  2. 该项目是根据大数据分析模块的课程要求创建的,并使用Vitaliy Malcev在Kaggle网站上上传的traveller_attraction数据集。 所有分析和机器学习技术都在使用pySpark的python Notebook中实现,并已在基于云的环境中部署在Databricks中。 表示嵌入式注释,#可忽略。Discalimer:对文件或数据集的任何直接改编将被赋予直接的零标记。 联系人:Nikhil Ravindra Patade
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:365kb
    • 提供者:weixin_42165490
  1. 机器学习实践:如何将Spark与Python结合

  2. 本文来自搜狐,本文主要通过介绍了ApacheSpark的一些特性,如何将Spark与Python结合。在国外,ApacheSpark开发人员的平均年薪为110,000美元。毫无疑问,Spark在这个行业中被广泛使用。由于其丰富的库集,Python也被大多数数据科学家和分析专家使用。二者集成也并没有那么困难,Spark用Scala语言开发,这种语言与Java非常相似。它将程序代码编译为用于Spark大数据处理的JVM字节码。为了集成Spark和Python,ApacheSpark社区发布了PySp
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:162kb
    • 提供者:weixin_38752830
  1. Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

  2. 【导读】我们知道,ApacheSpark在处理实时数据方面的能力非常出色,目前也在工业界广泛使用。本文通过使用SparkMachineLearningLibrary和PySpark来解决一个文本多分类问题,内容包括:数据提取、ModelPipeline、训练/测试数据集划分、模型训练和评价等,具体细节可以参考下面全文。ApacheSpark受到越来越多的关注,主要是因为它处理实时数据的能力。每天都有大量的数据需要被处理,如何实时地分析这些数据变得极其重要。另外,ApacheSpark可以再不采样
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:438kb
    • 提供者:weixin_38551938
  1. BigDataAnalyticsAssignments:大数据分析的分配解决方案(METCS777)-源码

  2. BigDataAnalyticsAssignments 该存储库包含我的大数据分析(METCS777)分配解决方案。 该代码使用Pyspark和Python编写,并在本地的小型数据集以及Google Console和AWS的大型数据集中进行了测试。
  3. 所属分类:其它

    • 发布日期:2021-02-16
    • 文件大小:28mb
    • 提供者:weixin_42097533
  1. Govind-Patwal.github.io:我的GitHub Pages网站-源码

  2. 嗨,我是Govind Patwal 关于我 我是Python程序员和数据爱好者,拥有计算机应用程序学士学位,并且具有Python,SQL,AWS,Tableau,机器学习和深度学习的技能。 多伦多大学的数据分析和可视化证书(A +级)。 我最近使用从Booking.com抓取的数据完成了一个小组项目-该项目使用Python进行ETL,机器学习,PySpark和Deep Learning进行NLP,PostgreSQL和AWS进行数据库以及Tableau进行数据可视化。 我擅长解决复杂的问题。
  3. 所属分类:其它

  1. 数据科学-源码

  2. 数据科学 数据科学之路 程式设计 • • •Excel •可以轻松使用终端,Git中的版本控制以及使用GitHub • • • : 访问数据库,CSV和JSON数据 使用熊猫进行数据清理和转换 可视化 仪表板 机器学习: 特征工程 回归算法 分类算法 决策树学习 支持向量机 无监督学习 降维 推荐系统 文字分析 基于内容的协作过滤 评估推荐系统。 DCG,nDCG 合奏方法 引导,装袋和提升 AdaBoost 随机森林 大数据工程基础 Hadoop和MapReduce编程 NoSQL数据
  3. 所属分类:其它

  1. Python的Spark:Python的Spark基础(使用PySpark),代码示例-源码

  2. 用Python火花 Apache Spark 是技术领域中最热门的新趋势之一。 它是实现大数据与机器学习结合的成果的最大潜力框架。 它运行速度快(由于在内存中进行操作,因此比传统的快100倍,提供健壮的,分布式的,容错的数据对象(称为 ),并通过诸如的补充包与机器学习和图形分析领域完美集成和 。 Spark在上实现,并且主要用 (一种类似于Java的功能性编程语言)编写。 实际上,Scala需要在您的系统上安装最新的Java并在JVM上运行。 但是,对于大多数初学者来说,Scala并不是他
  3. 所属分类:其它

  1. Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

  2. 【导读】我们知道,ApacheSpark在处理实时数据方面的能力非常出色,目前也在工业界广泛使用。本文通过使用Spark MachineLearningLibrary和PySpark来解决一个文本多分类问题,内容包括:数据提取、Model Pipeline、训练/测试数据集划分、模型训练和评价等,具体细节可以参考下面全文。ApacheSpark受到越来越多的关注,主要是因为它处理实时数据的能力。每天都有大量的数据需要被处理,如何实时地分析这些数据变得极其重要。另外,A
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:428kb
    • 提供者:weixin_38704870
  1. MBD:与2020年10月大数据与分析硕士课程相关的文件-源码

  2. MBD 与2020年10月大数据与分析硕士课程相关的文件: 编码语言: Python [R SQL PySpark 蜂巢
  3. 所属分类:其它

  1. Terry_Resume-源码

  2. 刘Fan 电子邮件: 领英(LinkedIn): : 教育 数据科学与分析硕士2020.09-2021.12(预计) 香港红Ho香港理工大学 金融数学学士2012.05-2016.06 Wilfird Laurier University滑铁卢,安大略省,加拿大 资质认证 •超过3年的Python,SQL,VBA数据清理,分析和定量建模方面的专业经验•熟悉概率,统计,假设检验和A / B检验•机器学习算法方面的专业知识:线性回归,逻辑回归,决策树,随机森林,SVM,朴素贝叶斯,kNN,K
  3. 所属分类:其它