您好,欢迎光临本网站![请登录][注册会员]  

大数据下载列表 第147页

« 1 2 ... .42 .43 .44 .45 .46 147.48 .49 .50 .51 .52 ... 1412 »

[Hadoop] Apache Hadoop---Ambari.docx

说明:Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。
<qq_31641743> 上传 | 大小:360kb

[Hadoop] Apache Hadoop---Atlas.docx

说明:Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。 Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。
<qq_31641743> 上传 | 大小:224kb

[Hadoop] Apache Hadoop---Avro.docx

说明:Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。
<qq_31641743> 上传 | 大小:108kb

[Hadoop] Apache Hadoop---Chukwa.docx

说明:Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。
<qq_31641743> 上传 | 大小:99kb

[Hadoop] Apache Hadoop---Crunch.docx

说明:Apache Crunch 是基于 FlumeJava 实现的,它是一个基于 MapReduce 的数据管道库。Apache Crunch是一个 Java 类库,它用于简化 MapReduce 作业的编写和执行,并且可以用于简化连接和数据聚合任务API的Java类库。与 Pig 和 Hive 一样,Crunch 是为了降低 MapReduce 的入门成本。它们的区别是:Pig 是一个基于管道的框架,而 Crunch 则是一个 Java 库,它提供比 Pig 更高级别的灵活性。
<qq_31641743> 上传 | 大小:19kb

[Hadoop] Apache Hadoop---Elasticsearch.docx

说明:Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。官方客户端在Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines
<qq_31641743> 上传 | 大小:432kb

[Hadoop] Apache Hadoop---Falcon.docx

说明:Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化hadoop集群的数据流管理. Hortonworks的hadoop发行版HDP中,数据治理包括Falcon和Atlas这两个组件.Atlas主要负责元数据的管理. Falcon主要负责数据生命周期的管理.
<qq_31641743> 上传 | 大小:278kb

[flink] Apache Hadoop---Flink.docx

说明:Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。
<qq_31641743> 上传 | 大小:760kb

[Hadoop] Apache Hadoop---Flume.docx

说明:Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
<qq_31641743> 上传 | 大小:350kb

[spark] Apache Hadoop---Giraph.docx

说明:Giraph 是 Google 于 2010 年发布的论文 Pregel: a system for large-scale graph processing 的开源实现。Giraph 是以 Hadoop 为基础开发的上层应用,其系统架构和计算模型与 Pregel 保持了一致。同时也在 Pregel 模型上增加了一些新的特性,如:out-of-core computation、edge-oriented input 等。Giraph 的目的是为了解决大规模图的分布式计算问题。通过隐藏分布式和并行
<qq_31641743> 上传 | 大小:138kb

[Hbase] Apache Hadoop---HBase.docx

说明:HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
<qq_31641743> 上传 | 大小:519kb

[Hadoop] 开源Ceph10.2.1源码分析.docx

说明:Ceph作为一个开源的分布式存储系统,人人都可以免费获得其源代码,并能够安装部署,但是并不等于人人都能用起来,人人都能用好。用好一个开源分布式存储系统,首先要对其架构、功能原理等方面有比较好的了解,其次要有修复漏洞的能力。这些都是在采用开源分布式存储系统时所面临的挑战。 第1章 Ceph整体架构 1.1 Ceph的发展历程 1.2 Ceph的设计目标 1.3 Ceph基本架构图 1.4 Ceph客户端接口 1.4.1 RBD 1.4.2 CephFS 1.4.3 RadosGW 1.5 RADO
<dqflying> 上传 | 大小:5mb
« 1 2 ... .42 .43 .44 .45 .46 147.48 .49 .50 .51 .52 ... 1412 »