一. 概述
Flume定义
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。
Flume的优点
1). 可以和任意存储进程集成(灵活,数据源多样化)
2). 当输入的数据速率大于写入目的存储的速率时,flume会进行缓冲从而减小HDFS的压力
3). flume的事务基于channel(管道),其使用了两个事务模型(s