从化企业网站建设,网站app开发计划书,wordpress应用的主题修改教程,山东网站建设哪家好文章目录1.source2.channel3.sink1.source Source: 数据源:通过source组件可以指定让Flume读取哪里的数据#xff0c;然后将数据传递给后面的 channel Flume内置支持读取很多种数据源#xff0c;基于文件、基于目录、基于TCP\UDP端口、基于HTTP、Kafka的 等等、当然了#x…
文章目录1.source2.channel3.sink1.source Source: 数据源:通过source组件可以指定让Flume读取哪里的数据然后将数据传递给后面的 channel Flume内置支持读取很多种数据源基于文件、基于目录、基于TCP\UDP端口、基于HTTP、Kafka的 等等、当然了如果这里面没有你喜欢的他也是支持自定义的 1.taildir source 实时读取文件数据并且支持断点续传
2.avro source: Flume之间互相进行数据传输一般配合avro sink使用
3.nc source: 接收网络端口的
4.exec source: 监控文件不支持断点续传
5.spooling source: 监控文件夹支持断点续传传输进去一个写好的文件丢进来是什么样就传输出去时效性差
6.kafka source: 读取kafka中的数据
2.channel 接受Source发出的数据可以把channel理解为一个临时存储数据的管道 Channel的类型有很多:内存、文件内存文件、JDBC等 1.file channel
慢基于磁盘但可以优化有一个索引在内存中机制从随机读写到指定位置读写索引也会备份到磁盘中也可以进行二次备份
2.memory channel
优点是效率高因为就不涉及磁盘IO 缺点有两个 1:可能会丢数据如果Flume的agent挂了那么channel中的数据就丢失了。 2:内存是有限的会存在内存不够用的情况
3.kafka channel: 数据存储在kafka集群
将数据发送到kafka消息队列中这个也是比较常见的主要针对实时计算场景数据不落盘实时传输最后使用实时计算框架直接处理。
①结合source和sink使用 ②结合source 和拦截器直接将数据写入到kafka中 ③直接使用kafka channel结合sink使用 3.sink 从Channel中读取数据并存储到指定目的地 Sink的表现形式有很多:打印到控制台、HDFS、Kafka等 1.hdfs sink
将数据传输到HDFS中这个是比较常见的主要针对离线计算的场景
2.kafka sink
将数据发送到kafka消息队列中这个也是比较常见的主要针对实时计算场景数据不落盘实时传输最后使用实时计算框架直接处理。
3.avro sink
用于多个flume之间的信息传递