Apache Flink 学习:hdfs作为source和sink的demo
依赖项
1 | <properties> |
demo代码
使用了kafka作为source,hdfs作为sink
运行之前需要运行kafka集群,hadoop集群(zookeeper集群)
1 | /******************************* define dag *******************************/ |
上面例子将创建一个 Sink,写入遵循下面格式的分桶文件中:
1 | /base/path/{date-time}/_part-{parallel-task}-{count} |
date-time:
是从setBucketer()自定义的日期/时间格式的字符串,如果不进行设置,默认Bucketer是DateTimeBucketer,默认值是yyyy-MM-dd–HH(DateTimeBucketer.DEFAULT_FORMAT_STRING)
_part-{parallel-task}-{count}:
1 | private static final String DEFAULT_VALID_PREFIX = "_"; |
查看hdfs文件
1 | $ ./hdfs dfs -ls /user/xxx/flink/from-kafka/2019-10-19--19 |