Flink 系列第5篇：Flink 窗口模型精讲（含实操代码）

juniperhan

343人浏览 · 2026-04-09 17:59:02

juniperhan · 2026-04-09 17:59:02 发布

专栏定位：聚焦 Flink 窗口核心概念、类型划分、属性配置，详解各类窗口的实现逻辑、应用场景及实操代码，结合图示理解窗口工作机制

适用人群：Flink 开发工程师、实时计算落地人员、大数据初学者，需掌握 Flink 基础数据流操作

核心价值：吃透 Flink 窗口模型，熟练选择并使用各类窗口，解决无界数据流的分段统计需求，规避窗口使用中的数据丢失、重叠异常等问题

一、窗口核心概念（无界流分段统计的基础）

1.1 窗口简介

Flink 处理的数据流多为无界数据流（数据持续产生，无终止节点），无法等待整个数据流结束后再进行统计分析。实际业务中，我们通常需要对“特定范围”内的数据进行聚合计算，常见场景如下：

时间维度：每隔五分钟，统计过去一小时内所有商品的点击量；
数量维度：每发生 1000 次点击后，统计每个商品点击率的占比。

Flink 中，通过窗口（Window）实现无界数据流的“分段统计”——窗口本质是在无限流上定义的一个有限元素集合，这个集合的划分规则可基于时间、元素个数、时间与个数结合、会话间隙，或自定义规则。

补充说明：Flink 支持在 Stream 上通过 Key 区分多个窗口，即不同 Key 的数据会被分配到各自独立的窗口中，互不干扰（如按用户 ID 分组，每个用户单独统计自己的窗口数据）。

1.2 窗口类型（按统计维度划分）

按照数据统计维度的不同，Flink 中的窗口主要分为两大类，每类包含多种细分类型，核心分类如下：

时间窗口（Time Windows）：以时间为划分依据，是业务中最常用的窗口类型，细分为4种：
- 滚动窗口（Tumbling Windows）：窗口之间无重叠；
- 滑动窗口（Sliding Windows）：窗口之间有重叠；
- 会话窗口（Session Windows）：以会话间隙为划分依据；
- 全局窗口（Global Windows）：所有同 Key 数据归为一个窗口。
计数窗口（Count Windows）：以元素个数为划分依据，细分为2种：
- 滚动窗口：元素个数达到阈值后触发，窗口无重叠；
- 滑动窗口：每隔指定个数的元素触发一次，窗口有重叠。

1.3 窗口核心属性

Flink 窗口有两个核心属性，直接决定窗口的划分规则和触发逻辑，分别是：

size（窗口长度）：窗口包含的数据范围（时间窗口为时间长度，计数窗口为元素个数）；
interval（窗口间隔）：两个相邻窗口开启的时间间隔（时间窗口）或元素个数间隔（计数窗口）。

size 和 interval 的组合的不同，会产生不同类型的窗口，核心规则如下：

若 size = interval：滚动窗口（Tumbling Window），窗口之间无重叠，数据不会重复统计；
若 size > interval：滑动窗口（Sliding Window），窗口之间有重叠，部分数据会被多个窗口统计；
若 size < interval：无效窗口，会导致数据丢失。例如：每 5 秒钟统计过去 3 秒的路口汽车数据，会漏掉中间 2 秒钟的数据，实际业务中不推荐使用。

1.4 四种基本窗口的实现（常用实操）

结合 size 和 interval 的组合，以及时间/计数维度，可得出四种最常用的基本窗口，其实现方式（API 调用）如下：

无重叠数据的时间窗口（滚动时间窗口）
- 英文标识：time-tumbling-window；
- 设置方式：timeWindow(Time.seconds(5))（以5秒为窗口长度，间隔5秒，即每5秒触发一次）。
有重叠数据的时间窗口（滑动时间窗口）
- 英文标识：time-sliding-window；
- 设置方式：timeWindow(Time.seconds(5), Time.seconds(3))（窗口长度5秒，间隔3秒，每3秒触发一次，窗口重叠2秒）。
无重叠数据的数量窗口（滚动计数窗口）
- 英文标识：count-tumbling-window；
- 设置方式：countWindow(5)（每5个元素触发一次窗口，无重叠）。
有重叠数据的数量窗口（滑动计数窗口）
- 英文标识：count-sliding-window；
- 设置方式：countWindow(5, 3)（窗口长度5个元素，间隔3个元素，每3个元素触发一次，窗口重叠2个元素）。

二、时间窗口（Time Windows）详解（业务主流）

时间窗口是以时间为维度划分窗口的方式，适用于绝大多数实时统计场景（如流量统计、订单统计、日志分析等），共分为4种，结合图示和代码详解如下：

时间窗口整体示意图：

2.1 滚动时间窗口（Tumbling Windows）

滚动时间窗口是最基础、最常用的时间窗口，核心特点是窗口之间无重叠、无间隙，每个事件只能属于一个窗口，适用于“固定周期、独立统计”的场景。

示例场景：每隔1小时统计过去1小时内的商品点击量，1天可分为24个窗口，每个窗口独立，无数据重叠。

滚动时间窗口示意图：

实操代码（Scala）：统计每分钟用户购买的商品总数

// 数据源：DataStream[(Int, Int)]，格式为（用户ID，购买数量）
val counts: DataStream[(Int, Int)] = ...

// 1. 按用户ID分组（keyBy(0) 表示按第一个字段分组）
// 2. 设置滚动时间窗口，窗口长度为1分钟
// 3. 对购买数量求和（sum(1) 表示对第二个字段求和）
val tumblingCnts: DataStream[(Int, Int)] = counts
  .keyBy(0) 
  .timeWindow(Time.minutes(1)) 
  .sum(1)

2.2 滑动时间窗口（Sliding Windows）

滑动时间窗口的核心特点是窗口之间有重叠，一个事件可以属于多个窗口，适用于“持续滚动、高频统计”的场景，能更精准地捕捉数据变化趋势。

示例场景：每隔6分钟统计过去1小时内所有商品的点击量，1天可分为240个窗口，相邻窗口重叠54分钟。

滑动时间窗口示意图：

从示意图可见，窗口1-4之间存在相等的时间重叠部分，确保数据的连续统计。

实操代码（Scala）：每30秒统计最近1分钟用户购买的商品总数

// 数据源：DataStream[(Int, Int)]，格式为（用户ID，购买数量）
val buyCnts: DataStream[(Int, Int)] = ...

// 1. 按用户ID分组
// 2. 设置滑动时间窗口：窗口长度1分钟，滑动间隔30秒
// 3. 对购买数量求和
val slidingCnts: DataStream[(Int, Int)] = buyCnts
  .keyBy(0) 
  .timeWindow(Time.minutes(1), Time.seconds(30))
  .sum(1)

2.3 会话窗口（Session Windows）

会话窗口的划分依据是数据的活跃间隙，核心逻辑：如果在一段指定时间内没有数据到达，视为当前会话结束，新的数据到达会开启一个新的窗口，适用于“用户会话分析”场景（如用户浏览、操作行为统计）。

核心特点：窗口的开始和结束时间不固定，由数据的活跃情况决定，窗口之间无重叠、无间隙。

会话窗口示意图：

实操代码（Scala）：统计每个用户活跃期间的商品购买总数（30秒无活动视为会话结束）

// 数据源：DataStream[(Int, Int)]，格式为（用户ID，购买数量）
val buyCnts: DataStream[(Int, Int)] = ...

// 1. 按用户ID分组
// 2. 设置会话窗口，会话间隙为30秒（30秒无数据则会话结束）
// 3. 对购买数量求和
val sessionCnts: DataStream[(Int, Int)] = buyCnts
  .keyBy(0)
  .window(ProcessingTimeSessionWindows.withGap(Time.seconds(30)))
  .sum(1)

2.4 全局窗口（Global Windows）

全局窗口是一种特殊的时间窗口，核心特点：将所有同 Key 的元素分配到同一个窗口中，窗口无固定长度，默认不会自动触发计算。

关键注意：全局窗口必须配合**触发器（Trigger）**使用，否则计算永远不会执行（触发器用于定义窗口的触发条件，如元素个数、时间等）。

全局窗口示意图：

实操代码（Java）：单词累计出现10次触发一次计算，统计窗口内单词总数

// 数据源：假设为单词流 DataStream[String]，此处省略数据源读取逻辑
// 1. 对单词分组（keyBy(word -> word)）
// 2. 创建全局窗口
// 3. 设置触发器：每累计10个元素触发一次计算
// 4. 对单词计数求和并打印
dataStream
  .keyBy(word -> word)
  .window(GlobalWindows.create())
  .trigger(CountTrigger.of(10))
  .sum(1)
  .print();

三、计数窗口（Count Windows）详解（数量维度统计）

计数窗口是以“元素个数”为维度划分窗口的方式，适用于“基于数据量触发统计”的场景（如每接收一定数量的请求，统计请求成功率）。

计数窗口同样分为滚动窗口和滑动窗口，其实现方式与时间窗口类似，仅 API 调用不同，核心区别在于：计数窗口的 size 和 interval 均以“元素个数”为单位。

3.1 核心 API 实现

计数窗口的 API 调用简洁，核心方法为 countWindow(size, interval)，其中 interval 为可选参数，具体如下：

滚动计数窗口：countWindow(1000) —— 每接收1000个元素，触发一次窗口计算，无重叠；
滑动计数窗口：countWindow(1000, 10) —— 每接收10个元素，触发一次计算，统计过去1000个元素的情况，有重叠。

3.2 实操代码示例

示例1：Java 版（滚动计数窗口）

// 每1000次点击，统计一次各商品的点击量（滚动计数窗口）
dataStream
  .keyBy(商品ID字段)
  .countWindow(1000)
  .sum(点击量字段);

示例2：Scala 版（滚动计数窗口）

// 数据源：DataStream[(Int, Int)]，格式为（用户ID，购买数量）
val buyCnts: DataStream[(Int, Int)] = ...

// 1. 按用户ID分组
// 2. 滚动计数窗口，每100个元素触发一次计算
// 3. 对购买数量求和
val tumblingCnts: DataStream[(Int, Int)] = buyCnts
  .keyBy(0)
  .countWindow(100)
  .sum(1)

四、全篇核心总结

窗口是 Flink 处理无界数据流的核心机制，本质是“无限流上的有限元素集合”，支持按时间、数量等维度划分。
窗口核心属性为 size（窗口长度）和 interval（窗口间隔），两者的组合决定窗口类型（滚动、滑动），size < interval 会导致数据丢失，需避免。
时间窗口是业务主流，分为4种：滚动（无重叠）、滑动（有重叠）、会话（按活跃间隙）、全局（同 Key 一个窗口，需配合触发器）。
计数窗口按元素个数划分，分为滚动和滑动两种，API 与时间窗口类似，适用于基于数据量触发的统计场景。
实操关键：根据业务场景选择窗口类型（时间/计数、滚动/滑动），全局窗口必须配合触发器使用，避免计算无法触发。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI未来3-5年十大核心方向

基于对人工智能领域趋势的分析，未来3-5年，以下十个核心方向将深刻影响技术演进与社会变革。

AtomGit开源社区

2026年04月09日最热门的开源项目(Github)

本期榜单聚焦AI与自动化工具开源项目，Python、TypeScript和Java占据主导地位。热门项目如NousResearch/hermes-agent（Star 43179）和microsoft/markitdown（Star 96195）展现强劲增长势头。功能集中在AI助手（如moltbot）、文档转换（markitdown）和教育辅助（DeepTutor）等领域，反映个性化服务需求增长。