前言
NIFI是一个强大的数据处理工具,APACHE的顶级项目,什么叫顶级?我也不知道,有兴趣的自己了解下。开始主要是如何使用NIFI,会用了再谈原理。
工具的作用在于减少人的劳作,增加劳动力,工具同时也是使大多数人变的不愿意思考的元凶。我们应该怀着超越该工具的思想去学习,站在巨人的肩膀上。
上一节已经说明了一些基础组件,下面直接进入正题。
所用处理器GetHDFS->InferAvroSchema->ConvertCSVToAvro->ConvertAvroToJSON->ReplaceText->ConvertJSONToSQL->PutSQL
GetHDFS:获取一个HDFS目标文件。
InferAvroSchema:创建一个Avro的Schema空间。
注意:Schma Output Destination :要选择flowfile-attribute,否在在下面一步会娶不到命名空间的值。
ConvertCSVToAvro:配置CSV所在的schma空间。要加上hadoop配置(这里是怎么设计的,想不明白)
ConvertAvroToJSON:见上篇
ReplaceText:见上篇
ConvertJSONToSQL:见上篇
PutSQL:见上篇
nifi 是将 数据流之间的处理流转 封装成一个个可视化的组件,然后通过拖拽组件建立处理流程,形成完整的数据输入到输出的过程?
是的,可视化拖拽ETL工具