icefire112233
diff --git a/‎docs/.vuepress/config.js
Lines changed: 29 additions & 12 deletions b/‎docs/.vuepress/config.js
Lines changed: 29 additions & 12 deletions
diff --git a/‎docs/md/biz-arch/00-新一代数据栈将逐步替代国内单一“数据中台”.md renamed to ‎docs/md/bigdata/00-新一代数据栈将逐步替代国内单一“数据中台”.md b/‎docs/md/biz-arch/00-新一代数据栈将逐步替代国内单一“数据中台”.md renamed to ‎docs/md/bigdata/00-新一代数据栈将逐步替代国内单一“数据中台”.md
diff --git a/‎docs/md/biz-arch/01-大数据的尽头是数据中台吗？.md renamed to ‎docs/md/bigdata/01-大数据的尽头是数据中台吗？.md b/‎docs/md/biz-arch/01-大数据的尽头是数据中台吗？.md renamed to ‎docs/md/bigdata/01-大数据的尽头是数据中台吗？.md
diff --git a/‎docs/md/biz-arch/03-构建数据中台的三要素：方法论、组织和技术.md renamed to ‎docs/md/bigdata/03-构建数据中台的三要素：方法论、组织和技术.md b/‎docs/md/biz-arch/03-构建数据中台的三要素：方法论、组织和技术.md renamed to ‎docs/md/bigdata/03-构建数据中台的三要素：方法论、组织和技术.md
diff --git a/‎docs/md/biz-arch/05-如何统一管理纷繁杂乱的数据指标？.md renamed to ‎docs/md/bigdata/05-如何统一管理纷繁杂乱的数据指标？.md b/‎docs/md/biz-arch/05-如何统一管理纷繁杂乱的数据指标？.md renamed to ‎docs/md/bigdata/05-如何统一管理纷繁杂乱的数据指标？.md
diff --git a/‎docs/md/flink/05-Flink实战DataStream API编程.md
Lines changed: 36 additions & 14 deletions b/‎docs/md/flink/05-Flink实战DataStream API编程.md
Lines changed: 36 additions & 14 deletions
diff --git a/‎docs/md/flink/streaming-connectors-programming.md
Lines changed: 56 additions & 0 deletions b/‎docs/md/flink/streaming-connectors-programming.md
Lines changed: 56 additions & 0 deletions
diff --git a/‎docs/md/hbase/hbase-scan.md
Lines changed: 137 additions & 0 deletions b/‎docs/md/hbase/hbase-scan.md
Lines changed: 137 additions & 0 deletions
@@ -164,7 +164,7 @@ module.exports = {
                                 text: '数据中台',
                                 items: [{
                                     text: '00-新一代数据栈将逐步替代国内单一“数据中台”',
-                                    link: '/md/biz-arch/00-新一代数据栈将逐步替代国内单一“数据中台”.md'
+                                    link: '/md/bigdata/00-新一代数据栈将逐步替代国内单一“数据中台”.md'
                                 }, ]
                             },
 
@@ -468,6 +468,14 @@ module.exports = {
                                     link: '/md/ck/clickhouse概述.md'
                                 }]
                             },
+                            
+                            {
+                                text: 'HBase',
+                                items: [{
+                                    text: 'HBase概述',
+                                    link: '/md/hbase/hbase-scan.md'
+                                }]
+                            },
 
                             {
                                 text: 'Neo4j',
@@ -503,6 +511,14 @@ module.exports = {
                                 ]
                             },
 
+                            {
+                                text: '数据中台',
+                                items: [{
+                                    text: '01-大数据的尽头是数据中台吗？',
+                                    link: '/md/bigdata/01-大数据的尽头是数据中台吗？.md'
+                                }]
+                            },
+                            
                             {
                                 text: 'Hadoop',
                                 items: [{
@@ -847,17 +863,6 @@ module.exports = {
                                 "打造一个高并发的十万用户 IM 聊天系统，你需要了解这些架构设计技巧！",
                             ]
                         },
-                        {
-                            title: "数据中台",
-                            collapsable: false,
-                            sidebarDepth: 0,
-                            children: [
-                                "00-新一代数据栈将逐步替代国内单一“数据中台”",
-                                "01-大数据的尽头是数据中台吗？",
-                                "03-构建数据中台的三要素：方法论、组织和技术",
-                                "05-如何统一管理纷繁杂乱的数据指标？",
-                            ]
-                        },
 
                         {
                             title: "用户画像",
@@ -923,6 +928,17 @@ module.exports = {
                                 "02-分布式对象存储设计原理",
                             ]
                         },
+                        {
+                            title: "数据中台",
+                            collapsable: false,
+                            sidebarDepth: 0,
+                            children: [
+                                "00-新一代数据栈将逐步替代国内单一“数据中台”",
+                                "01-大数据的尽头是数据中台吗？",
+                                "03-构建数据中台的三要素：方法论、组织和技术",
+                                "05-如何统一管理纷繁杂乱的数据指标？",
+                            ]
+                        },
                         {
                             title: "Hadoop",
                             collapsable: false,
@@ -1834,6 +1850,7 @@ module.exports = {
                             "flink-architecture",
                             "flink-state-management",
                             "05-Flink实战DataStream API编程",
+                            "streaming-connectors-programming",
                             "flink-data-latency-solution",
                             "flink-cep",
                             "flink-checkpoint",
 
@@ -560,7 +560,6 @@ public static void map(StreamExecutionEnvironment env) {
             return new Access(time, domain, traffic);
         }
     });
-
     mapStream.print();
 }
 ```
@@ -630,14 +629,14 @@ public class JavaDataStreamTransformationApp {
 
 ### 5.3 split拆分
 
-DataStream→SplitStream
-根据某些标准将流拆分为两个或更多个流。
-![](https://img-blog.csdnimg.cn/2019072023312897.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_SmF2YUVkZ2U=,size_16,color_FFFFFF,t_70)
+DataStream→SplitStream。按标准将流拆分为两个或更多个流：
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/08/024431d0d5640d04b46a5d1799540e68.png)
 
 ### 5.4 select
 
-SplitStream→DataStream
-从拆分流中选择一个或多个流。
+SplitStream→DataStream。从拆分流中选择一个或多个流：
+
 ![](https://img-blog.csdnimg.cn/20190720234320281.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_SmF2YUVkZ2U=,size_16,color_FFFFFF,t_70)
 
 ```scala
@@ -670,6 +669,24 @@ public static void splitSelectFunction(StreamExecutionEnvironment env) {
 ...
 ```
 
+### FlatMap
+
+DataStream → DataStream。接收一个元素并产生0、1或多个元素。 将句子分割成单词的平面映射函数：
+
+```java
+dataStream.flatMap(new FlatMapFunction<String, String>() {
+    @Override
+    public void flatMap(String value, Collector<String> out)
+        throws Exception {
+        for(String word: value.split(" ")){
+            out.collect(word);
+        }
+    }
+});
+```
+
+
+
 ## 6 Data Sinks
 
 Data sinks 使用 DataStream 并将它们转发到文件、套接字、外部系统或打印它们。Flink 自带多种内置的输出格式，封装在 DataStreams 的算子：
@@ -760,15 +777,19 @@ public class JavaCustomSinkToMySQL {
 
 ### 自定义Sink总结
 
-- RichSinkFunction<T>
-  T就是你想要写入对象的类型
-- 重写方法
-  open/ close
-  生命周期方法
-  invoke
-  每条记录执行一次
-  数据接收器使用DataStream并将它们转发到文件，套接字，外部系统或打印它们。Flink带有各种内置输出格式，这些格式封装在DataStreams上的 算子操作后面：
+```java
+RichSinkFunction<T>
+```
+
+T就是你想要写入对象的类型
 
+重写方法：open/ close 生命周期方法
+
+invoke：每条记录执行一次
+
+数据接收器使用DataStream并将它们转发到文件，套接字，外部系统或打印它们。Flink带有各种内置输出格式，这些格式封装在DataStreams上的 算子操作后面：
+
+```
 writeAsText()/ TextOutputFormat- 按字符串顺序写入元素。通过调用每个元素的toString（）方法获得字符串。
 
 writeAsCsv(...)/ CsvOutputFormat- 将元组写为逗号分隔值文件。行和字段分隔符是可配置的。每个字段的值来自对象的toString（）方法。
@@ -782,5 +803,6 @@ writeToSocket - 根据a将元素写入套接字 SerializationSchema
 addSink - 调用自定义接收器函数。Flink捆绑了其他系统（如Apache Kafka）的连接器，这些系统实现为接收器函数。
 
 write*()方法DataStream主要用于调试目的。他们没有参与Flink的检查点，这意味着这些函数通常具有至少一次的语义。刷新到目标系统的数据取决于OutputFormat的实现。这意味着并非所有发送到OutputFormat的数据元都会立即显示在目标系统中。此外，在失败的情况下，这些记录可能会丢失。
+```
 
 要将流可靠，准确地一次传送到文件系统，请使用flink-connector-filesystem。此外，通过该.addSink(...)方法的自定义实现可以参与Flink的精确一次语义检查点。
@@ -0,0 +1,56 @@
+# Streaming Connectors 编程
+
+Flink已内置很多Source、Sink。
+
+## 2 附带的连接器（Flink Project Connectors）
+
+连接器可和第三方系统交互，目前支持：
+
+- 文件
+- 目录
+- socket
+- 从集合和迭代器摄取数据
+
+预定义的数据接收器支持写入：
+
+- 文件
+- 标准输入输出
+- socket
+
+### 1.2 绑定连接器
+
+连接器提供用于与各种第三方系统连接的代码。目前支持：
+
+- [Apache Kafka](https://nightlies.apache.org/flink/flink-docs-master/zh/docs/connectors/datastream/kafka/) (source/sink)
+- [Elasticsearch](https://nightlies.apache.org/flink/flink-docs-master/zh/docs/connectors/datastream/elasticsearch/) (sink)
+- [Apache Pulsar](https://nightlies.apache.org/flink/flink-docs-master/zh/docs/connectors/datastream/pulsar/) (source)
+- [JDBC](https://nightlies.apache.org/flink/flink-docs-master/zh/docs/connectors/datastream/jdbc/) (sink)
+
+使用一种连接器时，通常需额外的第三方组件，如数据存储服务器或MQ。 这些列举的连接器是 Flink 工程的一部分，包含在发布的源码中，但不包含在二进制发行版中。
+
+## 3  Apache Bahir中的连接器
+
+Flink额外的连接器，通过 [Apache Bahir](https://bahir.apache.org/) 发布,：
+
+- [Redis](https://bahir.apache.org/docs/flink/current/flink-streaming-redis/) (sink)
+- [Akka](https://bahir.apache.org/docs/flink/current/flink-streaming-akka/) (sink)
+- [Netty](https://bahir.apache.org/docs/flink/current/flink-streaming-netty/) (source)
+
+## 4 连接Flink的其它方法
+
+### 4.1 异步I / O
+
+使用connector不是将数据输入和输出Flink的唯一方法。一种常见的模式：从外部DB或 Web 服务查询数据得到初始数据流，然后 `Map` 或 `FlatMap` 对初始数据流进行丰富和增强。
+
+Flink 提供[异步 I/O](https://nightlies.apache.org/flink/flink-docs-master/zh/docs/dev/datastream/operators/asyncio/) API 让这过程更简单、高效和稳定。
+
+### 4.2 可查询状态
+
+当 Flink 应用程序需向外部存储推送大量数据时会导致 I/O 瓶颈问题出现。此时，若对数据的读操作<<写操作，则让外部应用从 Flink 拉取所需的数据更好。 [可查询状态](https://nightlies.apache.org/flink/flink-docs-master/zh/docs/dev/datastream/fault-tolerance/queryable_state/) 接口可以实现这个功能，该接口允许被 Flink 托管的状态可以被按需查询。
+
+看几个具体的连接器。
+
+参考
+
+- [Streaming Connectors](https://ci.apache.org/projects/flink/flink-docs-master/dev/connectors/kafka.html)
+- [Kafka官方文档](
@@ -0,0 +1,137 @@
+# 轻松应对亿级数据，HBase Scan读取速度翻倍！
+
+基于Hadoop的分布式列存储数据库，支持大规模结构化数据的存储和随机访问。
+
+## 1 概念
+
+扫描是一种读取表中数据的方式，它可以按照一定的条件过滤出表中符合条件的一部分或全部数据，并返回给用户。
+
+HBase的扫描是基于rowkey的顺序扫描，可设置startRow、stopRow限制扫描范围，还可设置过滤器来进一步过滤数据。
+
+## 2 扫描的使用
+
+可通过HBase Shell、Java API和REST API操作，本文以Java API为例介绍。
+
+### 2.1 创建扫描对象
+
+```java
+// 创建一个Scan对象用于设置扫描的参数
+Scan scan = new Scan();
+```
+
+### 2.2 设置扫描的范围
+
+```java
+scan.setStartRow(Bytes.toBytes("startRow"));
+scan.setStopRow(Bytes.toBytes("stopRow"));
+```
+
+设置扫描的起始行和结束行，可通过Bytes.toBytes方法将字符串转换为字节数组。
+
+### 设置过滤器
+
+```java
+Filter filter = new SingleColumnValueFilter(Bytes.toBytes("cf"), Bytes.toBytes("col"), CompareOperator.EQUAL, Bytes.toBytes("value"));
+scan.setFilter(filter);
+```
+
+设置过滤器，可以通过SingleColumnValueFilter等过滤器来过滤数据。
+
+### 执行扫描
+
+```java
+ResultScanner scanner = table.getScanner(scan);
+for (Result result : scanner) {
+    // 处理扫描结果
+}
+scanner.close();
+```
+
+执行扫描并遍历结果，可以通过ResultScanner获取扫描结果，并通过for循环遍历结果。最后记得关闭ResultScanner。
+
+## 3 性能优化
+
+### 3.1 设置缓存和批量大小
+
+```java
+scan.setCaching(100);
+scan.setBatch(10);
+```
+
+设置扫描的缓存大小和批量大小，可有效减少RPC调用次数。
+
+### 3.2 避免全表扫描
+
+设置扫描的范围和过滤器等方式来限制扫描的范围。
+
+### 3.3 使用扫描缓存
+
+```java
+scan.setScanMetricsEnabled(true);
+```
+
+设置扫描缓存，可以获取扫描的性能指标，如扫描的时间、扫描的行数等。通过这些指标可以优化扫描的性能，例如调整缓存大小、批量大小等。
+
+使用扫描缓存可以有效地提高扫描的性能，因为它可以减少RPC调用次数，从而降低了网络开销和延迟。在HBase中，扫描缓存是通过设置scan.setCaching()方法来实现的。
+
+#### 设置扫描缓存大小
+
+```java
+scan.setCaching(100);
+```
+
+设置扫描缓存大小，可以控制每次RPC调用返回的行数。缓存大小越大，网络开销就越小，但是内存开销就越大。通常情况下，扫描缓存大小的设置应该在100到1000之间，根据具体情况来调整。
+
+### 3.4 设置批量大小
+
+```java
+scan.setBatch(10);
+```
+
+设置批量大小，可以控制每次RPC调用的数据量。批量大小越大，网络开销就越小，但是RPC调用的延迟就越大。通常情况下，批量大小的设置应该在5到10之间，根据具体情况来调整。
+
+### 3.5  获取扫描指标
+
+```java
+scan.setScanMetricsEnabled(true);
+```
+
+设置扫描指标，可以获取扫描的性能指标，如扫描的时间、扫描的行数等。通过这些指标可以优化扫描的性能，例如调整缓存大小、批量大小等。
+
+```java
+ScanResultCache resultCache = new ScanResultCache(cacheSize);
+ResultScanner scanner = table.getScanner(scan);
+List<Result> results = resultCache.cache(scanner);
+for (Result result : results) {
+    // 处理扫描结果
+}
+scanner.close();
+```
+
+使用ScanResultCache可以缓存扫描结果，从而减少RPC调用次数，提高扫描的性能。ScanResultCache是一个开源的扫描缓存库，可以在GitHub上找到。
+
+### 3.6 异步扫描
+
+可提高扫描的并发度，从而提高扫描的性能。可以通过使用CompletableFuture等方式来实现异步扫描。
+
+```java
+CompletableFuture<Void> future = CompletableFuture.runAsync(() -> {
+    try {
+        ResultScanner scanner = table.getScanner(scan);
+        for (Result result : scanner) {
+            // 处理扫描结果
+        }
+        scanner.close();
+    } catch (IOException e) {
+        e.printStackTrace();
+    }
+});
+future.join();
+```
+
+使用CompletableFuture实现异步扫描，可以在主线程中启动异步任务，并在异步任务执行完毕后等待结果。
+
+## 4 总结
+
+本文介绍了HBase中扫描的概念、使用方法和性能优化。扫描是HBase中常见的数据读取方式，通过设置扫描的参数、过滤器等方式可以实现灵活的数据查询。在实际应用中，我们需要根据数据的特点和查询需求来选择合适的扫描方法，并结合缓存、批量处理、异步等方式来优化扫描的性能。
+