大数据下载,spark下载列表第31页

[spark] access.log

说明：某网站系统实时产生日志信息，记录用户对系统的访问信息，例如：IP地址，用户名称，访问时间，请求和响应信息，其中IP地址信息是表示全国各地用户的访问情况，对IP地址的详细分析，可以了解各个地区对该网站系统访问的活跃度，用以判断该网站公司对区域活动的推广情况和投入成本。本项目为网站运营方向常用技术案例。
<zhiyeegao> 上传 | 大小：112mb

[spark] spark的scala练习代码（里面都有详细注解）

说明：spark的学习过程中最重要的便是练习，我发布的都是详细注解的代码，帮助学习spark。
<zhiyeegao> 上传 | 大小：11kb

[spark] scala-2.11.6.zip

说明：Spark由Scala语言编写，在Ubuntu系统中配置Spark的过程中需先安装Scala环境。但scala官网下载速度太慢，本资源可以满足快速安装的需求。
<hanxia159357> 上传 | 大小：25mb

[spark] 基于sacla开发sparksql、sparksession所需要的jar包.rar

说明：通过import org.apache.spark.sql.SparkSession等导入所需要的jar包，基本涵盖了sparksql所需要的jar包
<weixin_40758648> 上传 | 大小：46mb

[spark] spark-2.0.0-bin-hadoop2.6.tgz (内含有Pyspark 2.7.12)

说明：在构建大数据开发平台的过程中，想用Python对大数据进行开发，从spark官网下载速度太慢，耗费好久才下载下来，在这里与大家共享。
<hanxia159357> 上传 | 大小：175mb

[spark] 自定义RDD-从HDFS读取数据代码.zip

说明：Spark自定义RDD从HDFS读取数据，实现和sc.textFile相同功能，代码测试通过，可以根据需求避免数据源数据倾斜
<diyuhudievv> 上传 | 大小：4kb

[spark] dw-chart.zip

说明：springboot的数据查询接口，对前端工程url，这个是基于Springboot的子模块dw-chart工程的代码，在保存的es数据进行查询，并与前端对接
<weixin_39868387> 上传 | 大小：2mb

[spark] gmall1205-parent.zip

说明：该项目主要包括的模块有：从实时框架的项目搭建、日志保存、日志服务器集群、NGINX配置、消费kafka、利用redis进行去重、es安装说明保存查询总数与查询时分、采用canal通过kafka发送，查询es接口，最后，我们在hive导出到es，并采用es部分数据查询出来
<weixin_39868387> 上传 | 大小：2mb

[spark] canal.deployer-1.1.2.tar.gz

说明：之所以采用canal，原因如下：某些情况无法从日志中获取信息，而又无法利用sqoop等EL工具对数据实时的监控，canal的工作原理很简单，就是把自己伪装成slave，假装从master复制数据。
<weixin_39868387> 上传 | 大小：48mb

[spark] greenplum-spark_2.11-1.6.2.jar

说明：greenplum-spark_2.11-1.6.2.jar，csdn 下载需积分，可私信获取百度云链接
<ylltw01> 上传 | 大小：3mb

[spark] Pillow-7.0.0-cp37-cp37m-win_amd64.whl

说明：在cmd中输入 pip install 文件位置+文件名即可安装使用使用该库可以实现验证码生成等操作
<weixin_43872061> 上传 | 大小：1mb

[spark] pandas-1.0.3-cp37-cp37m-win_amd64.whl

说明：在cmd中输入 pip install 文件位置+文件名即可进行安装使用支持python3.7 windows版 64位
<weixin_43872061> 上传 | 大小：8mb