大数据下载,Hadoop下载列表第43页

[Hadoop] hadoop开发.rar

说明：hadoop开发.rar
<wanghan1977> 上传 | 大小：769kb

[Hadoop] Hadoop技术选型分析报告V4.0.pdf

说明：本文包含整个Hadoop生态所涉及的所有开源组件及原生Apache Hadoop产品与Cloudera发行的Hadoop产品、国产华为Hadoop、大快搜索Hadoop等综合分析架构及原理等。
<qq_31641743> 上传 | 大小：12mb

[Hadoop] Apache Hadoop---Accumulo.docx

说明：Accumulo是一个可靠的、可伸缩的、高性能的排序分布式的Key-Value存储解决方案，基于单元访问控制以及可定制的服务器端处理。使用GoogleBigTable设计思路，基于ApacheHadoop、Zookeeper和Thrift构建。 Accumulo设有自动负载平衡和分区，数据压缩和细粒度的安全标签。
<qq_31641743> 上传 | 大小：100kb

[Hadoop] Apache Hadoop---Alluxio.docx

说明：Tachyon（/'tæki:ˌɒn/ 意为超光速粒子）是以内存为中心的分布式文件系统，拥有高性能和容错能力，能够为集群框架（如Spark、MapReduce）提供可靠的内存级速度的文件共享服务。从软件栈的层次来看，Tachyon是位于现有大数据计算框架和大数据存储系统之间的独立的一层。它利用底层文件系统作为备份，对于上层应用来说，Tachyon就是一个分布式文件系统。
<qq_31641743> 上传 | 大小：397kb

[Hadoop] Apache Hadoop---Ambari.docx

说明：Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。但是这里的 Hadoop 是广义，指的是 Hadoop 整个生态圈（例如 Hive，Hbase，Sqoop，Zookeeper 等），而并不仅是特指 Hadoop。
<qq_31641743> 上传 | 大小：360kb

[Hadoop] Apache Hadoop---Atlas.docx

说明：Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效，高效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能，以建立其数据资产的目录，对这些资产进行分类和治理，并为数据科学家，分析师和数据治理团队提供围绕这些数据资产的协作功能。
<qq_31641743> 上传 | 大小：224kb

[Hadoop] Apache Hadoop---Avro.docx

说明：Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。它的主要特点有：支持二进制序列化方式，可以便捷，快速地处理大量数据；动态语言友好，Avro提供的机制使动态语言可以方便地处理Avro数据。
<qq_31641743> 上传 | 大小：108kb

[Hadoop] Apache Hadoop---Chukwa.docx

说明：Apache 的开源项目 hadoop，作为一个分布式存储和计算系统，已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时，集群自身的相关信息如何收集和分析呢？针对这个问题， Apache 同样提出了相应的解决方案，那就是 chukwa。
<qq_31641743> 上传 | 大小：99kb

[Hadoop] Apache Hadoop---Crunch.docx

说明：Apache Crunch 是基于 FlumeJava 实现的，它是一个基于 MapReduce 的数据管道库。Apache Crunch是一个 Java 类库，它用于简化 MapReduce 作业的编写和执行，并且可以用于简化连接和数据聚合任务API的Java类库。与 Pig 和 Hive 一样，Crunch 是为了降低 MapReduce 的入门成本。它们的区别是：Pig 是一个基于管道的框架，而 Crunch 则是一个 Java 库，它提供比 Pig 更高级别的灵活性。
<qq_31641743> 上传 | 大小：19kb

[Hadoop] Apache Hadoop---Elasticsearch.docx

说明：Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户端在Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines
<qq_31641743> 上传 | 大小：432kb

[Hadoop] Apache Hadoop---Falcon.docx

说明：Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化hadoop集群的数据流管理. Hortonworks的hadoop发行版HDP中,数据治理包括Falcon和Atlas这两个组件.Atlas主要负责元数据的管理. Falcon主要负责数据生命周期的管理.
<qq_31641743> 上传 | 大小：278kb

[Hadoop] Apache Hadoop---Flume.docx

说明：Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
<qq_31641743> 上传 | 大小：350kb