Kafka专题

发表于2022-02-21更新于2022-02-23字数统计7.8k阅读时长48分

Kafka专题

Write by MiaoJiawei 2022年2月18日 18点36分

阅读全文

使用hexo，如果换了电脑怎么更新博客

发表于2022-02-21更新于2022-02-22字数统计75阅读时长1分

以下博客来自知乎

https://www.zhihu.com/question/21193762

阅读全文

Flink常用算子

发表于2021-03-24更新于2021-03-24字数统计4k阅读时长32分

Flink和Spark类似，也是一种一站式处理的框架；既可以进行批处理（DataSet），也可以进行实时处理（DataStream）。

所以下面将Flink的算子分为两大类：DataSet和DataStream，下面将对这两大类的API以及用法展开分析：

阅读全文

Spark分区管理

发表于2021-03-22更新于2021-03-22字数统计2.3k阅读时长14分

当我们使用Spark加载数据源并进行一些列转换时，Spark会将数据拆分为多个分区Partition，并在分区上并行执行计算。所以理解Spark是如何对数据进行分区的以及何时需要手动调整Spark的分区，可以帮助我们提升Spark程序的运行效率。

阅读全文

你必须Get的开源CDC技术[Debezium]

发表于2021-03-18更新于2021-03-19字数统计1.8k阅读时长11分

官网地址：https://debezium.io/

GitHub：https://github.com/debezium

开源方：RedHat | Debezium社区讨论圈

阅读全文

Exactly_Once到底是什么-Ⅱ

发表于2021-03-17更新于2021-03-18字数统计3.5k阅读时长18分

分布式事件流处理正逐渐成为大数据领域中一个热门话题。著名的流处理引擎（Streaming Processing Engines， SPEs）包括Apache Storm、Apache Flink、Heron、Apache Kafka（Kafka Streams）以及Apache Spark（Spark Streaming）。流处理引擎中一个著名的且经常被广泛讨论的特征是它们的处理语义，而“exactly-once”是其中最受欢迎的，同时也有很多引擎声称它们提供“exactly-once”处理语义。

阅读全文