您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. hive开发资料中文版

  2. Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语 言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。 本文讲解如何搭建一个Hive平台。假设 我们有3台机器:hadoop1,hadoop2,hadoop3。并且都安装好了Hadoop-0.19.2(hive支持的Hadoop版本很 多),hosts文件配置正确。Hive部署在hadoop1机器上。
  3. 所属分类:Java

    • 发布日期:2011-05-11
    • 文件大小:694272
    • 提供者:whycoder
  1. 实战Hadoop:开启通向云计算的捷径

  2. 第1章 神奇的大象——Hadoop 1.1 初识神象 1.2 Hadoop初体验 1.2.1 了解Hadoop的构架 1.2.2 查看Hadoop活动 1.3 Hadoop族群 1.4 Hadoop安装 1.4.1 在Linux系统中安装Hadoop 1.4.2 在Windows系统中安装Hadoop 1.4.3 站在象背上说“hello” 1.4.4 Eclipse下的Hadoop应用开发 参考文献 第2章 HDFS——不怕故障的海量存储 2.1 开源的GFS——HDFS 2.1.1 设计前
  3. 所属分类:其它

    • 发布日期:2013-07-31
    • 文件大小:61865984
    • 提供者:jsntghf
  1. hive-0.9.0.tar.gz

  2. 1.Hive 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。 这套映射工具称之为metastore,一般存放在derby、mysql中。 1.2 hive在hdfs中的默认位置是/
  3. 所属分类:其它

    • 发布日期:2015-10-05
    • 文件大小:29360128
    • 提供者:joode
  1. nosql 入门教程

  2. 第一部分  NoSQL入门 第1章  NoSQL的概念及适用范围 2 1.1  定义和介绍 3 1.1.1  背景与历史 3 1.1.2  大数据 5 1.1.3  可扩展性 7 1.1.4  MapReduce 8 1.2  面向列的有序存储 9 1.3  键/值存储 11 1.4  文档数据库 14 1.5  图形数据库 15 1.6  小结 16 第2章  NoSQL上手初体验 17 2.1  第一印象——两个简单的例子 17 2.1.1  简单的位置偏好数据集 17 2.1.2  存储
  3. 所属分类:MySQL

    • 发布日期:2017-10-25
    • 文件大小:15728640
    • 提供者:u012296096
  1. 大型分布式网站架构与实践

  2. 第1章 面向服务的体系架构(SOA) 1   本章主要介绍和解决以下问题,这些也是全书的基础:   HTTP协议的工作方式与HTTP网络协议栈的结构。   如何实现基于HTTP协议和TCP协议的RPC调用,它们之间有何差别,分别适应何种场景。   如何实现服务的动态注册和路由,以及软负载均衡的实现。   1.1 基于TCP协议的RPC 3   1.1.1 RPC名词解释 3   1.1.2 对象的序列化 4   1.1.3 基于TCP协议实现RPC 6   1.2 基于HTTP协议的RPC 9
  3. 所属分类:Java

    • 发布日期:2018-08-24
    • 文件大小:96468992
    • 提供者:mr_hope
  1. 数据仓库监控质量文档

  2. 数据源从抽到hive数仓,进行配置化模板来监控各个数仓层的质量问题,以及涉及到监控的页面设计
  3. 所属分类:Hive

    • 发布日期:2019-03-09
    • 文件大小:87040
    • 提供者:dub_lys
  1. hive, Apache配置单元镜像.zip

  2. hive, Apache配置单元镜像 Apache ( TM ) Apache单元( TM ) 数据仓库软件使用SQL可以以帮助读取。写入和管理分布式存储中的大型数据集。 构建于 Hadoop Hadoop ( TM ) 之上,它提供:支持通过SQL轻松访问数
  3. 所属分类:其它

    • 发布日期:2019-09-19
    • 文件大小:47185920
    • 提供者:weixin_38743602
  1. hive, Apache配置单元镜像.zip

  2. hive, Apache配置单元镜像 Apache ( TM ) Apache单元( TM ) 数据仓库软件使用SQL可以以帮助读取。写入和管理分布式存储中的大型数据集。 构建于 Hadoop Hadoop ( TM ) 之上,它提供:支持通过SQL轻松访问数
  3. 所属分类:其它

    • 发布日期:2019-10-11
    • 文件大小:47185920
    • 提供者:weixin_38743737
  1. 基于Hadoop的数据仓库Hive学习指南.doc

  2. 该文档目录如下: 1.1 基于Hadoop的数据仓库Hive学习指南 1.2实验环境 1.3实验原理 1.3.1 Hive简介 1.3.2 Hive安装 1.3.3安装并配置mysql 1.3.5 Hive简单编程实践 1.3.4 Hive的常用HiveQL操作
  3. 所属分类:Hive

    • 发布日期:2020-04-06
    • 文件大小:2097152
    • 提供者:qq_43009710
  1. cdh6.1.0搭建手册.pdf

  2. CDH是Cloudera公司推出的基于稳定版本的Apache Hadoop构建,是Hadoop众多分支中的一种。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开放源码,是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。 Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架,如Apache Spark;使用Apache
  3. 所属分类:互联网

    • 发布日期:2020-04-01
    • 文件大小:3145728
    • 提供者:weixin_44160803
  1. hive, Apache配置单元镜像.zip

  2. hive, Apache配置单元镜像 Apache ( TM ) Apache单元( TM ) 数据仓库软件使用SQL可以以帮助读取。写入和管理分布式存储中的大型数据集。 构建于 Hadoop Hadoop ( TM ) 之上,它提供:支持通过SQL轻松访问数
  3. 所属分类:其它

    • 发布日期:2019-10-12
    • 文件大小:47185920
    • 提供者:weixin_38743506
  1. Hadoop与Spark 肖睿+PDF

  2. 大数据技术让我们以一种靠前的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,很终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助系统、Spark Core、Spark SQL、Spark Streaming等知识。本书
  3. 所属分类:其它

    • 发布日期:2019-08-18
    • 文件大小:171966464
    • 提供者:ermaoermao
  1. 基于hadoop的hive数据仓库的配置

  2. 基于Hadoop的hive数据仓库的配置详细指南,linux环境下
  3. 所属分类:Hive

    • 发布日期:2019-03-03
    • 文件大小:21504
    • 提供者:mywxm
  1. 如何在Win10系统使用Python3连接Hive

  2. 由于数据存放在大数据平台的Hive数据仓库中,我需要在Win10系统上利用Python3连接Hive,然后读取数据,进行探索、分析和挖掘工作。 我通过网上查找资料和实际测试,把Win10系统Python3成功连接Hive配置总结如下。 第一步:安装依赖库 pip install bitarray pip install bit_array pip install thrift pip install thriftpy pip install pure_sasl pip install --n
  3. 所属分类:其它

    • 发布日期:2020-12-16
    • 文件大小:87040
    • 提供者:weixin_38623009
  1. Hadoop面试题(一)

  2. 1、集群的最主要瓶颈   磁盘IO 2、Hadoop运行模式   单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述   1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。   2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。   3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。   4)Hive:基于Hadoop的一个
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:60416
    • 提供者:weixin_38693586
  1. Hadoop的数据管理

  2. 前面重点介绍了Hadoop及其体系结构和计算模型MapReduce,现在开始介绍Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。HDFS是分布式计算的存储基石,Hadoop分布式文件系统和其他分布式文件系统有很多类似的特质:1.对于整个集群有单一的命名空间;2.具有数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前是无法看到文件存在的;3.文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:157696
    • 提供者:weixin_38690407
  1. Hadoop的数据管理

  2. 前面重点介绍了Hadoop及其体系结构和计算模型MapReduce,现在开始介绍Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive的数据管理。HDFS是分布式计算的存储基石,Hadoop分布式文件系统和其他分布式文件系统有很多类似的特质:1.对于整个集群有单一的命名空间;2.具有数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前是无法看到文件存在的;3.文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:157696
    • 提供者:weixin_38509082