您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Hadoop技术在商业智能BI中的应用

  2. Hadoop是个很流行的分布式计算解决方案,是Apache的一个开源项目名称,核心部分包括HDFS及MapReduce。其中,HDFS是分布式文件系统,MapReduce是分布式计算引擎。时至今日,Hadoop在技术上已经得到验证、认可甚至到了成熟期,同时也衍生出了一个庞大的生态圈,比较知名的包括HBase、Hive、Spark等。HBase是基于HDFS的分布式列式数据库,HIVE是一个基于HBase数据仓库系统。Impala为存储在HDFS和HBase中的数据提供了实时SQL查询功能,基于
  3. 所属分类:其它

    • 发布日期:2017-03-06
    • 文件大小:297kb
    • 提供者:xuqian3326
  1. 利用Impala+Kudu构建准实时分析应用

  2. Kudu是Cloudera开源的新型列式存储系统,Apache Hadoop生态圈的顶级项目之一,解决了传统Lamda架构处理Hadoop上快速变化数据的存储和处理技术过于复杂的问题,同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark、Flume和Kafka等组件集成,大大降低了对快速变化的数据进行准实时分析的架构设计和实现的门槛。本演讲主要对Kudu的动机、背景,以及架构进行简单介绍,并通过实际的应用场景介绍Impala+Kudu的组合实现通过SQL技术对快速变化的数据
  3. 所属分类:讲义

    • 发布日期:2017-05-16
    • 文件大小:4mb
    • 提供者:erjin_ren
  1. 构建近实时分析系统

  2. 利用Impala+Kudu构建准实时分析应用 Kudu是Cloudera开源的新型列式存储系统,Apache Hadoop生态圈的顶级项目之一,解决了传统Lamda架构处理Hadoop上快速变化数据的存储和处理技术过于复杂的问题,同时Kudu能够与Hadoop生态的其他组件比如Impala、Spark、Flume和Kafka等组件集成,大大降低了对快速变化的数据进行准实时分析的架构设计和实现的门槛。本演讲主要对Kudu的动机、背景,以及架构进行简单介绍,并通过实际的应用场景介绍Impala+K
  3. 所属分类:Hadoop

    • 发布日期:2018-11-15
    • 文件大小:3mb
    • 提供者:maomaosi2009
  1. 基于大数据平台构建数据仓库的研究与实践.pdf

  2. 数据仓库设计文档,帮助大家理解及如何设计数据仓库,很不错的一篇论文。专题 lTo 学习体系,能从海量数据中提炼高价值信息,构建自主 (1)源系统结构化数据:源系统按大数据平合的 训练与反馈、可不断从最新数据中调整演化的智能业务供数规范要求提供表数据文本和标志文件。 模型体系。 (2)文件交换区FSA:文件的交换中枢,含源系 以 Hadoop^ Spark为代表的大规模数据处理技术为统结构化数据和半结构化、非结构化数据(主要是外部 超越传统数据库的处理局限性提供了先进的并行计算和数据)。 资源调度
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:1mb
    • 提供者:bucaixia08
  1. 内存数据交换格式ApacheArrow.zip

  2. Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工具涵盖了数据分析的各个层面,比如列式存储格式(Parquet/ORC)、内存计算层(Drill、Spark、Impala和Storm)以及强大的API接口(Pyth
  3. 所属分类:其它

  1. Apache Spark 中的列式存储和向量化优化.pdf

  2. 开源大数据存储和优化 Apache Spark 中的列式存储和向量化优化.开源大数据存储和优化 Apache Spark 中的列式存储和向量化优化.开源大数据存储和优化 Apache Spark 中的列式存储和向量化优化.
  3. 所属分类:spark

    • 发布日期:2020-04-08
    • 文件大小:6mb
    • 提供者:baidu_35602134
  1. cdh6.1.0搭建手册.pdf

  2. CDH是Cloudera公司推出的基于稳定版本的Apache Hadoop构建,是Hadoop众多分支中的一种。 CDH提供了Hadoop的核心元素 - 可扩展的存储和分布式计算 - 以及基于Web的用户界面和重要的企业功能。 CDH是Apache许可的开放源码,是唯一提供统一批处理,交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。 Cloudera作为一个强大的商业版数据中心管理工具,提供了各种能够快速稳定运行的数据计算框架,如Apache Spark;使用Apache
  3. 所属分类:互联网

  1. 大数技术据培训PPT.pptx

  2. 课时1:大数据技术介绍和RPC框架讲解 课时2:HDFS分布式文件存储系统 课时3:MapReduce计算框架和Yarn资源调度组件 课时4:列式存储数据库HBASE和资源协调组件Zookeeper 课时5:数据仓库HIVE 课时6:流式计算技术架构介绍 课时7:Kafka,Flink,ElasticSearch组件介绍(上) 课时8:Kafka,Flink,ElasticSearch组件介绍(下) 课时9:Spark组件介绍(一) 课时10:Spark组件介绍(二)
  3. 所属分类:flink

    • 发布日期:2020-01-13
    • 文件大小:12mb
    • 提供者:Anxin1984
  1. Spark产生的背景

  2. 大数据时代: 数据量大 数据种类繁多 数据增长速度快 大数据不同层面及技术: 大数据关键技术: 分布式存储 GFS/HDFS BigTable/HBase NoSQL(键值、列族、图形、文档数据库) NewSQL(如 : SQL Azure ) 分布式处理框架: Hadoop Storm Flink Spark hadoop: hadoop是Apache软件基金会旗下的一个开源式计算平台为用户提供了系统底层细节透明的分布式基础架构 Hadoop是java编写的开源、可伸缩和容错的框架,并且可部
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:94kb
    • 提供者:weixin_38720322
  1. bi_development_source_code:传统大数据分析工具以Hadoop,Spark为代表,集成集成的技术框架,对用户来说又重又笨又不灵活,难以维护和驾驭,国际和国内的敏捷型BI工具在对接时又面临性能本项目独辟蹊径,以阿里开源

  2. 数据挖掘 传统大数据分析工具以Hadoop,Spark为代表,集成集成的技术框架,对用户来说又重又笨又不灵活,难以维护和驾驭,国际和国内的敏捷型BI工具在对接时又面临性能本项目独辟蹊径,以阿里开源的DataX为ETL工具,以列式数据库ClickHouse做为中间数据存储源,通过视图关联构建大数据集,解决亿万级数据的即时分析性能,再辅以强大的数据可视化设计前端,通过用户自定义菜单和模板进行呈现,实现用户的自助式分析和探索。 通过灵活的预警功能,设置一些自定义的监控指标,当监控指标超过异常值时,系统
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:77mb
    • 提供者:weixin_42173218
  1. pyspark-style-guide:这是一个PySpark代码样式指南,根据我们遇到的PySpark存储库中最频繁出现的主题,介绍了常见的情况和相关的最佳实践-源码

  2. PySpark样式指南 PySpark是一种包装语言,它允许用户与Apache Spark后端进行交互以快速处理数据。 Spark可以在服务器的分布式网络上的海量数据集上运行,如果正确使用,则可以提供主要的性能和可靠性优势。即使PySpark语法汲取了Spark的JVM继承,因此也实现了可能不熟悉的代码模式,即使对于有经验的Python开发人员而言,也带来了挑战。 这份自以为是的PySpark代码风格指南介绍了我们遇到的常见情况以及基于PySpark存储库中最频繁重复出现的主题的最佳实践。 除了
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:18kb
    • 提供者:weixin_42121272
  1. Hadoop技术在商业智能BI中的应用

  2. Hadoop是个很流行的分布式计算解决方案,是Apache的一个开源项目名称,核心部分包括HDFS及MapReduce。其中,HDFS是分布式文件系统,MapReduce是分布式计算引擎。时至今日,Hadoop在技术上已经得到验证、认可甚至到了成熟期,同时也衍生出了一个庞大的生态圈,比较知名的包括Hbase、Hive、Spark等。HBase是基于HDFS的分布式列式数据库,HIVE是一个基于HBase数据仓库系统。Impala为存储在HDFS和HBase中的数据提供了实时SQL查询功能,基于H
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:258kb
    • 提供者:weixin_38555019
  1. ClouderaKudu是什么?

  2. kudu是cloudera在2012开始秘密研发的一款介于hdfs和hbase之间的高速分布式列式存储数据库。兼具了hbase的实时性、hdfs的高吞吐,以及传统数据库的sql支持。作为一款实时、离线之间的存储系统。定位和spark在计算系统中的地位非常相似。如果把mr+hdfs作为离线计算标配,storm+hbase作为实时计算标配。spark+kudu有可能成为未来最有竞争力的一种架构。也就是kafka->spark->kudu这种架构,未来此架构是否会风靡,暂且不言论。让我们拭
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:414kb
    • 提供者:weixin_38672962
  1. kudu介绍及安装配置

  2. Kudu是一个针对ApacheHadoop平台而开发的列式存储管理器。Kudu共享Hadoop生态系统应用的常见技术特性:它在commodityhardware(商品硬件)上运行,horizontallyscalable(水平可扩展),并支持highlyavailable(高可用)性操作。此外,Kudu还有更多优化的特点:OLAP工作的快速处理。与MapReduce,Spark和其他Hadoop生态系统组件集成。与ApacheImpala(incubating)紧密集成,使其与ApachePar
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:795kb
    • 提供者:weixin_38637580
  1. carbondata:Apache CarbonData的镜像-源码

  2. Apache CarbonData是一个索引的列式数据存储解决方案,用于在大数据平台(例如Apache Hadoop,Apache Spark等)上进行快速分析。 您可以在以下位置找到最新的CarbonData文档并了解更多信息: ://carbondata.apache.org 访问次数: 状态 Spark2.4: 产品特点 CarbonData文件格式是HDFS中的列式存储,它具有现代列式格式所具有的许多功能,例如可拆分,压缩模式,复杂数据类型等,并且CarbonData具有以下独特功
  3. 所属分类:其它

  1. Hadoop技术在商业智能BI中的应用

  2. Hadoop是个很流行的分布式计算解决方案,是Apache的一个开源项目名称,核心部分包括HDFS及MapReduce。其中,HDFS是分布式文件系统,MapReduce是分布式计算引擎。时至今日,Hadoop在技术上已经得到验证、认可甚至到了成熟期,同时也衍生出了一个庞大的生态圈,比较知名的包括Hbase、Hive、Spark等。HBase是基于HDFS的分布式列式数据库,HIVE是一个基于HBase数据仓库系统。Impala为存储在HDFS和HBase中的数据提供了实时SQL查询功能,基于H
  3. 所属分类:其它

    • 发布日期:2021-01-29
    • 文件大小:258kb
    • 提供者:weixin_38723027
  1. ClouderaKudu是什么?

  2. kudu是cloudera在2012开始秘密研发的一款介于hdfs和hbase之间的高速分布式列式存储数据库。兼具了hbase的实时性、hdfs的高吞吐,以及传统数据库的sql支持。作为一款实时、离线之间的存储系统。定位和spark在计算系统中的地位非常相似。如果把mr+hdfs作为离线计算标配,storm+hbase作为实时计算标配。spark+kudu有可能成为未来最有竞争力的一种架构。也就是kafka->spark->kudu这种架构,未来此架构是否会风靡,暂且不言论。让我们拭
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:414kb
    • 提供者:weixin_38701407