您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 数据仓库

  2. 在数据仓库的开发过程中,需要熟悉大量的概念以及相关工具的使用,还需要了解宏观上的各种开发流程,串联起来完成最终的数据仓库项目的开发,本篇介绍一些准备工作,包括涉及到的工具介绍,以及开发过程的描述,记录学习研究的印记,并和大家讨论研究存在的相关问题。数据仓库的开发,是完全独立于OLTP系统的,也就是独立于当前各种应用的业务系统而作的分析项目,因此要包含从数据的迁移(提取)、变换、清洗、加载等ETL操作,其中可以分为这么几个数据层。客户的各种业务系统中的数据,如包括企业、车辆和司机信息系统、企业录入
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:779264
    • 提供者:weixin_38625442
  1. 数据仓库开发之路

  2. 在数据仓库的开发过程中,需要熟悉大量的概念以及相关工具的使用,还需要了解宏观上的各种开发流程,串联起来完成最终的数据仓库项目的开发,本篇介绍一些准备工作,包括涉及到的工具介绍,以及开发过程的描述,记录学习研究的印记,并和大家讨论研究存在的相关问题。数据仓库的开发,是完全独立于OLTP系统的,也就是独立于当前各种应用的业务系统而作的分析项目,因此要包含从数据的迁移(提取)、变换、清洗、加载等ETL操作,其中可以分为这么几个数据层。客户的各种业务系统中的数据,如包括企业、车辆和司机信息系统、企业录入
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:1048576
    • 提供者:weixin_38724611
  1. tty-command:执行带有漂亮输出日志记录的shell命令,并捕获stdout,stderr和退出状态-源码

  2. TTY :: Command 运行带有漂亮输出日志的外部命令,并捕获标准输出,标准错误和退出状态。 将每个命令的stdin,stdout和stderr重定向到文件或字符串。 TTY :: Command为工具包提供了独立的命令执行组件。 动机 复杂的软件项目不仅仅是一个应用程序。 这些项目通常会产生数十个或数百个补充的独立脚本,这些脚本与应用程序本身一样重要。 示例包括-数据验证,部署,监视,数据库维护,备份和还原,配置管理,爬网,ETL,分析,日志文件处理,自定义报告等。TTY :: Co
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:55296
    • 提供者:weixin_42159267
  1. 蜂巢:Apache蜂巢-源码

  2. Apache Hive(TM) Apache Hive(TM)数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 建立在Apache Hadoop(TM)之上,它提供: 通过SQL轻松访问数据的工具,从而实现数据仓库任务,例如提取/转换/加载(ETL),报告和数据分析 一种将结构强加于各种数据格式的机制 访问直接存储在Apache HDFS(TM)或其他数据存储系统(例如Apache HBase(TM))中的文件 使用Apache Hadoop MapReduce,
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:49283072
    • 提供者:weixin_42138780
  1. Hive-简介

  2. Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,是建立在 Hadoop上的数据仓库基础构架。作为Hadoop的一个数据仓库工具,Hive可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能。 Hive主要提供以下功能:1.它提供了一系列的工具,可用来对数据进行提取/转化/加载(ETL);2.是一种可以存储、查询和分析存储在HDFS(或者HBase)中的大规模数据的机制;3.查询是通过MapReduce来完成
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:200704
    • 提供者:weixin_38663197
  1. udacity-data-engineering-capstone:Udacity数据工程纳米级顶石项目-源码

  2. 项目5-顶石 概述 该项目的目的是为全球陆地温度和美国人口统计数据集创建一条ETL管道,以形成有关美国气候变化以及人口分析的分析数据库。 管道 工具与技术 该项目的最初目标是以一种使数据使用者能够轻松分析数据并使用可视化方法描述数据的方式来重组源数据。 因为数据是独立的(没有其他来源),也没有重复发生,所以我选择使用以下库在python中编写数据管道 熊猫; 一个快速,强大,灵活且易于使用的开源数据分析和处理工具。 在项目中,它主要用于从源文件加载数据和数据清理。 Psycopg2 ; 用于
  3. 所属分类:其它

    • 发布日期:2021-04-01
    • 文件大小:524288
    • 提供者:weixin_42132354
  1. Reference-源码

  2. 数据分析快速参考指南 以下是由加利福尼亚大学伯克利分校提供的有关与Data Analytics和Data Analytics Bootcamp相关的编程语言,工具和文章的有用信息的快速参考指南。 目录 第1章:Excel 第2章:VBA 第3章:Python VS代码 Github 第4章:Python和熊猫 Jupyter笔记本 大熊猫 第5章:Python,Matplotlib,SciPy和Numpy Matplotlib 科学 NumPy 第6章:Python和API 蜜蜂
  3. 所属分类:其它

    • 发布日期:2021-03-31
    • 文件大小:82837504
    • 提供者:weixin_42136826
  1. DataFlow-源码

  2. 产品开发背景 DataFlow是基于应用程序日志流的一套分布式ETL系统服务组件,其前身是LogCollector2.0日志系统框架,自LogCollector3.0版本开始正式更名为DataFlow3.0。 Sqoop等也可以完成日志的采集,传输,转换和存储;但这些工具都不存在事务一致性。等因素导致连接远端服务的发送器组件失败,而此时收集器组件可能并不知情,数据仍然会继续传送到通道组件,这容易导致通道组件内存占用从而引发OOM错误;并通过通道错误导致实时收集的数据发送失败,收集器也没有记录实时
  3. 所属分类:其它

    • 发布日期:2021-03-31
    • 文件大小:381952
    • 提供者:weixin_42131367
« 1 2 ... 37 38 39 40 41 42»