一、云原生行业价值-2-cloud-native-ecommerce-seckill-case-study
·
云原生赋能电商行业:高并发秒杀系统架构设计与实现
目录
- 摘要
- 1. 引言
- 2. 系统架构设计
- 3. 高性能架构实现
- 4. 高可用保障机制
- 5. 数据一致性解决方案
- [6. Kubernetes 弹性伸缩实践](#6-kubernetes 弹性伸缩实践)
- [6.1 HPA 自动扩缩容](#61-hpa 自动扩缩容)
- [6.2 KEDA 事件驱动伸缩](#62-keda 事件驱动伸缩)
- 7. 全链路压测与性能优化
- 8. 监控与可观测性
- [9. 实战案例:双 11 秒杀系统](#9-实战案例双 11 秒杀系统)
- 10. 总结与最佳实践
- 参考文献
摘要
本文档深度解析某头部电商平台使用云原生技术构建的千万级并发秒杀系统完整架构设计与实现方案。通过Redis 集群预减库存、Kafka 异步削峰、Kubernetes 弹性伸缩、Sentinel 限流降级等核心技术组合,成功支撑了双 11 零点 500 万 QPS的瞬时流量洪峰。
核心技术指标:
- ✅ 峰值 QPS: 500 万+/秒
- ✅ 系统可用性:99.999%
- ✅ 端到端延迟 (P99): <50ms
- ✅ 库存扣减准确率:100% (零超卖)
- ✅ 资源利用率提升:400%
- ✅ 弹性扩容时间:❤️ 分钟 (从 100 副本到 1000 副本)
创新亮点:
- 四层漏斗模型 - 逐级过滤 99.9% 的流量
- 库存预热 +Redis Lua 原子操作 - 彻底解决超卖问题
- 动静分离 +CDN 静态化 - 将流量拦截在网关层
- KEDA 事件驱动伸缩 - 基于业务指标的精准弹性
- 混沌工程演练 - 主动发现系统脆弱点
本文档包含完整的架构图、核心代码实现、配置示例、性能优化技巧和实战经验总结,为电商行业高并发系统设计提供可复制的技术方案。
1. 引言
1.1 电商秒杀业务特点
1.1.1 典型秒杀场景特征
电商秒杀业务具有以下显著特点:
1. 瞬时超高并发
流量曲线对比:
日常流量:
┌─────┐
│ │ ┌─────┐
─────┘ └─────┘ └─────
10:00 14:00 20:00 24:00
秒杀流量 (零点开启):
┌────────┐
│ │
────────────────────────┘ └────────
00:00:00 开启
峰值:500 万 QPS
2. 库存极度稀缺
| 商品类型 | 库存数量 | 参与人数 | 中签率 |
|---|---|---|---|
| iPhone 新品 | 1000 台 | 100 万人 | 0.1% |
| 茅台 53°白酒 | 500 瓶 | 50 万人 | 0.1% |
| 限量球鞋 | 200 双 | 30 万人 | 0.067% |
| 1 元秒杀手机 | 10 台 | 200 万人 | 0.0005% |
3. 读多写少极端场景
请求分布:
┌──────────────────────────────────────┐
│ 查询库存/商品详情:99% (读请求) │
│ 提交订单:0.9% (写请求) │
│ 支付成功:0.1% (最终转化) │
└──────────────────────────────────────┘
读写比例:1000 : 1
4. 业务链路长
1.2 技术挑战分析
1.2.1 四大核心技术难题
难题一:如何抗住 500 万 QPS 的瞬时流量?
传统架构 vs 云原生架构对比:
| 层级 | 传统架构 | 云原生架构 | 提升倍数 |
|---|---|---|---|
| Web 服务器 | Nginx (单机 10 万 QPS) | Ingress + Kong (集群 100 万+) | 10x |
| 应用服务 | Tomcat (单机 5000 QPS) | K8s Pod (弹性 1000+ 实例) | 200x |
| 缓存层 | Redis 单机 (10 万 QPS) | Redis Cluster (分片集群) | 50x |
| 数据库 | MySQL 主从 (5000 TPS) | TiDB 分布式 (10 万+ TPS) | 20x |
难题二:如何保证零超卖?
超卖产生的根本原因:
// ❌ 错误示例:并发导致超卖
@RestController
public class WrongSeckillController {
@Autowired
private SeckillMapper seckillMapper;
@PostMapping("/seckill/{productId}")
public Result seckill(@PathVariable Long productId) {
// 1. 查询库存
Product product = seckillMapper.selectById(productId);
if (product.getStock() > 0) {
// ⚠️ 并发问题:多个线程同时读取库存>0
// 2. 扣减库存
seckillMapper.decreaseStock(productId, 1);
// 3. 创建订单
createOrder(productId);
return Result.success();
}
return Result.fail("库存不足");
}
}
// 场景模拟:
// 库存:100 件
// 并发请求:1000 个
// 结果:卖出 150 件 (超卖 50 件)
难题三:如何防止系统雪崩?
雪崩效应链路:
用户请求暴增
↓
应用服务器 CPU 100%
↓
响应时间变长 (从 50ms → 5s)
↓
Tomcat 线程池耗尽
↓
数据库连接池耗尽
↓
整个系统崩溃
难题四:如何实现快速弹性扩容?
传统扩容痛点:
- 人工申请服务器:2-3 天
- 安装部署:4-6 小时
- 配置调试:1-2 小时
- 总计:3-4 天 (无法应对秒杀场景)
云原生扩容优势:
- 容器镜像预构建:提前准备
- Kubernetes HPA: 自动触发
- 扩容到位:3-5 分钟
- 速度提升:1000x
2. 系统架构设计
2.1 整体架构蓝图
2.1.1 四层漏斗流量过滤模型
┌─────────────────────────────────────────────────────────────┐
│ 第一层:CDN+ 浏览器缓存 │
│ 作用:拦截 90% 的静态资源请求 (HTML/CSS/JS/图片) │
│ 技术:CDN 边缘节点 + Service Worker + LocalStorage │
│ 效果:500 万 QPS → 50 万 QPS │
└─────────────────────────────────────────────────────────────┘
↓ (10%)
┌─────────────────────────────────────────────────────────────┐
│ 第二层:网关层限流 │
│ 作用:基于用户/IP 维度限流,防止恶意刷单 │
│ 技术:Kong Gateway + Lua + Redis │
│ 效果:50 万 QPS → 10 万 QPS │
└─────────────────────────────────────────────────────────────┘
↓ (20%)
┌─────────────────────────────────────────────────────────────┐
│ 第三层:Redis 预减库存 │
│ 作用:拦截无效请求 (库存已抢光) │
│ 技术:Redis Lua 脚本 + 库存预热 │
│ 效果:10 万 QPS → 1 万 QPS │
└─────────────────────────────────────────────────────────────┘
↓ (10%)
┌─────────────────────────────────────────────────────────────┐
│ 第四层:Kafka 异步削峰 │
│ 作用:平滑流量峰值,保护后端数据库 │
│ 技术:Kafka 消息队列 + 消费者限速处理 │
│ 效果:1 万 QPS → 数据库 5000 TPS │
└─────────────────────────────────────────────────────────────┘
流量衰减计算:
初始流量:5,000,000 QPS
↓ CDN 拦截 90%
剩余:500,000 QPS
↓ 网关限流 80%
剩余:100,000 QPS
↓ Redis 拦截 90%(无库存)
剩余:10,000 QPS
↓ Kafka 缓冲
数据库实际承受:5,000 TPS
总体拦截率:99.9%
2.1.2 完整技术架构图
2.2 核心设计原则
2.2.1 三不原则
1. 不让前端知道有没有库存
// ❌ 错误做法:直接返回真实库存
{
"productId": 123,
"stock": 100, // ⚠️ 暴露真实库存,会被刷单软件利用
"seckillPrice": 9.9
}
// ✅ 正确做法:模糊库存
{
"productId": 123,
"stock": "充足", // 或 ">100", "紧张"
"seckillPrice": 9.9,
"seckillTime": "2024-11-11 00:00:00"
}
2. 不让用户知道有没有抢到
/**
* 异步下单接口 - 立即返回排队状态
*/
@PostMapping("/seckill/submit")
public Result<SeckillResponse> submit(@RequestBody SeckillRequest request) {
// 1. 发送到消息队列
kafkaTemplate.send(SECKILL_TOPIC, request);
// 2. 立即返回排队中 (不等待数据库操作)
SeckillResponse response = new SeckillResponse();
response.setOrderId(null); // 订单 ID 为空
response.setStatus("QUEUING"); // 排队中
response.setMessage("抢购高峰期,请稍后查看结果");
return Result.success(response);
}
// 用户端轮询查询结果
@GetMapping("/seckill/result/{orderId}")
public Result<SeckillResult> getResult(@PathVariable Long orderId) {
SeckillResult result = seckillService.getAsyncResult(orderId);
return Result.success(result);
}
3. 不让数据库直接承受压力
所有写操作必须经过缓存层和消息队列缓冲:
写请求路径:
用户提交 → Redis 预扣减 → Kafka 缓冲 → 消费者异步落库
读请求路径:
用户查询 → CDN 缓存 → Nginx 缓存 → Redis 缓存 → 数据库 (兜底)
3. 高性能架构实现
3.1 流量削峰填谷策略
3.1.1 答题验证机制
/**
* 秒杀前答题 - 分散流量
*/
@RestController
@RequestMapping("/seckill/captcha")
public class CaptchaController {
@Autowired
private RedisTemplate<String, String> redisTemplate;
/**
* 获取验证码题目
*/
@GetMapping("/question/{productId}")
public Result<CaptchaQuestion> getQuestion(@PathVariable Long productId) {
// 从题库随机抽取题目
CaptchaQuestion question = questionBank.getRandomQuestion();
// 将答案存入 Redis, 5 分钟过期
String answerKey = "captcha:answer:" + productId + ":" + question.getId();
redisTemplate.opsForValue().set(answerKey, question.getAnswer(), 5, TimeUnit.MINUTES);
// 只返回题目,不返回答案
CaptchaQuestion publicQuestion = new CaptchaQuestion();
publicQuestion.setId(question.getId());
publicQuestion.setTitle(question.getTitle());
publicQuestion.setOptions(question.getOptions());
return Result.success(publicQuestion);
}
/**
* 验证答案
*/
@PostMapping("/verify")
public Result<Boolean> verify(@RequestBody CaptchaVerifyRequest request) {
String answerKey = "captcha:answer:" + request.getProductId() + ":" + request.getQuestionId();
String correctAnswer = redisTemplate.opsForValue().get(answerKey);
boolean isCorrect = request.getUserAnswer().equals(correctAnswer);
if (isCorrect) {
// 答对后获得秒杀令牌 (有效期 30 秒)
String token = UUID.randomUUID().toString();
String tokenKey = "captcha:token:" + request.getUserId() + ":" + request.getProductId();
redisTemplate.opsForValue().set(tokenKey, token, 30, TimeUnit.SECONDS);
return Result.success(true, token);
}
return Result.success(false);
}
}
答题页面示例:
<!-- 秒杀答题弹窗 -->
<div id="captcha-modal" style="display:none;">
<h3>秒杀验证</h3>
<p id="question-title">加载中...</p>
<div id="options"></div>
<button onclick="submitAnswer()">提交</button>
</div>
<script>
// 秒杀开始前 1 分钟弹出答题
setTimeout(() => {
$('#captcha-modal').show();
loadQuestion();
}, 59000);
function loadQuestion() {
$.get('/seckill/captcha/question/' + productId, function(res) {
$('#question-title').text(res.data.title);
// 渲染选项
});
}
function submitAnswer() {
$.post('/seckill/captcha/verify', {
productId: productId,
questionId: currentQuestionId,
userAnswer: selectedAnswer
}, function(res) {
if (res.data) {
// 答对,获得 token,可以发起秒杀
seckillToken = res.data;
$('#captcha-modal').hide();
} else {
alert('回答错误,请重新回答');
loadQuestion();
}
});
}
</script>
3.1.2 动态 URL 隐藏真实接口
/**
* 生成动态秒杀 URL (每秒变化)
*/
@Service
public class DynamicUrlService {
@Autowired
private RedisTemplate<String, String> redisTemplate;
/**
* 生成加密的秒杀 URL
*/
public String generateDynamicUrl(Long productId, Long userId) {
// 当前时间戳 (秒级)
long timestamp = System.currentTimeMillis() / 1000;
// 生成签名:MD5(productId + userId + timestamp + salt)
String sign = DigestUtils.md5Hex(
productId + ":" + userId + ":" + timestamp + ":seckill_salt_2024"
);
// 将签名存入 Redis, 有效期 2 秒 (允许一定时钟误差)
String key = "seckill:url:" + productId + ":" + userId + ":" + timestamp;
redisTemplate.opsForValue().set(key, sign, 2, TimeUnit.SECONDS);
// 返回动态 URL
return "/seckill/" + productId + "/execute?timestamp=" + timestamp + "&sign=" + sign;
}
/**
* 验证动态 URL
*/
public boolean validateUrl(Long productId, Long userId, long timestamp, String sign) {
// 检查时间戳是否在有效窗口内 (前后 2 秒)
long now = System.currentTimeMillis() / 1000;
if (Math.abs(now - timestamp) > 2) {
return false;
}
// 从 Redis 获取预期签名
String key = "seckill:url:" + productId + ":" + userId + ":" + timestamp;
String expectedSign = redisTemplate.opsForValue().get(key);
return sign.equals(expectedSign);
}
}
// Controller 层使用
@RestController
public class SeckillController {
@Autowired
private DynamicUrlService dynamicUrlService;
@GetMapping("/seckill/{productId}/execute")
public Result execute(
@PathVariable Long productId,
@RequestParam Long userId,
@RequestParam long timestamp,
@RequestParam String sign) {
// 验证 URL 合法性
if (!dynamicUrlService.validateUrl(productId, userId, timestamp, sign)) {
return Result.fail("非法请求");
}
// 执行秒杀逻辑
return doSeckill(productId, userId);
}
}
3.2 多级缓存体系设计
3.2.1 三级缓存架构
/**
* 三级缓存服务实现
*/
@Service
@Slf4j
public class SeckillCacheService {
@Autowired
private RedisTemplate<String, Object> redisTemplate;
// L1: Caffeine 本地缓存 (堆内缓存,1ms 访问)
private Cache<String, SeckillProduct> localCache = Caffeine.newBuilder()
.maximumSize(1000)
.expireAfterWrite(1, TimeUnit.MINUTES)
.build();
// L2: Redis 分布式缓存 (网络缓存,10ms 访问)
// L3: MySQL/TiDB 数据库 (持久化存储,100ms+ 访问)
/**
* 获取秒杀商品信息
*/
public SeckillProduct getProductById(Long productId) {
String cacheKey = "seckill:product:" + productId;
// 1. 查询 L1 本地缓存
SeckillProduct product = localCache.getIfPresent(cacheKey);
if (product != null) {
log.debug("L1 缓存命中:{}", productId);
return product;
}
// 2. 查询 L2 Redis 缓存
product = (SeckillProduct) redisTemplate.opsForValue().get(cacheKey);
if (product != null) {
log.debug("L2 缓存命中:{}", productId);
// 回填 L1 缓存
localCache.put(cacheKey, product);
return product;
}
// 3. 查询 L3 数据库 (加分布式锁防止缓存击穿)
String lockKey = "lock:product:" + productId;
RLock lock = redissonClient.getLock(lockKey);
try {
// 尝试获取锁,最多等待 3 秒
if (lock.tryLock(3, TimeUnit.SECONDS)) {
try {
// 双重检查:可能其他线程已经加载完
product = (SeckillProduct) redisTemplate.opsForValue().get(cacheKey);
if (product != null) {
localCache.put(cacheKey, product);
return product;
}
// 查询数据库
product = productMapper.selectById(productId);
if (product != null) {
// 写入 L2 缓存 (随机过期时间,避免同时失效)
int expireSeconds = 300 + new Random().nextInt(120);
redisTemplate.opsForValue().set(cacheKey, product, expireSeconds, TimeUnit.SECONDS);
// 写入 L1 缓存
localCache.put(cacheKey, product);
log.info("缓存预热:{}", productId);
}
return product;
} finally {
lock.unlock();
}
} else {
// 获取锁失败,休眠后重试
Thread.sleep(100);
return getProductById(productId);
}
} catch (InterruptedException e) {
Thread.currentThread().interrupt();
throw new RuntimeException("获取锁失败", e);
}
}
/**
* 获取秒杀库存 (高性能版本)
*/
public Integer getStock(Long productId) {
String stockKey = "seckill:stock:" + productId;
// 直接从 Redis 获取 (不查本地缓存,保证实时性)
String stockStr = (String) redisTemplate.opsForValue().get(stockKey);
if (stockStr != null) {
return Integer.parseInt(stockStr);
}
// Redis 没有,从数据库加载并预热
SeckillProduct product = getProductById(productId);
return product != null ? product.getStock() : 0;
}
}
3.2.2 Redis 库存预热脚本
-- Redis Lua 脚本:原子性预减库存
-- KEYS[1]: 库存 key (seckill:stock:{productId})
-- KEYS[2]: 购买记录 key (seckill:purchased:{userId}:{productId})
-- ARGV[1]: 用户 ID
-- ARGV[2]: 购买数量
local stockKey = KEYS[1]
local purchasedKey = KEYS[2]
local userId = ARGV[1]
local quantity = tonumber(ARGV[2])
-- 1. 检查是否重复购买 (每人限购 1 件)
if redis.call('EXISTS', purchasedKey) == 1 then
return -1 -- 已购买过
end
-- 2. 获取当前库存
local stock = tonumber(redis.call('GET', stockKey))
if stock == nil then
return -2 -- 库存不存在
end
if stock < quantity then
return -3 -- 库存不足
end
-- 3. 预减库存 (原子操作)
redis.call('DECRBY', stockKey, quantity)
-- 4. 记录购买信息 (设置 10 分钟过期)
redis.call('SET', purchasedKey, userId, 'EX', 600)
-- 5. 返回成功
return 0
Java 调用代码:
@Service
public class SeckillExecutor {
@Autowired
private RedisTemplate<String, Object> redisTemplate;
@Autowired
private KafkaTemplate<String, SeckillMessage> kafkaTemplate;
// 加载 Lua 脚本
@Resource(name = "redisTemplate")
private RedisScript<Long> seckillScript;
/**
* 执行秒杀 (Lua 脚本 + Kafka 异步)
*/
public SeckillResult executeSeckill(SeckillRequest request) {
Long productId = request.getProductId();
Long userId = request.getUserId();
// 执行 Lua 脚本
Long result = redisTemplate.execute(
seckillScript,
Arrays.asList(
"seckill:stock:" + productId,
"seckill:purchased:" + userId + ":" + productId
),
userId.toString(),
"1"
);
// 处理不同返回码
switch (result.intValue()) {
case 0: // 秒杀成功
// 发送消息到 Kafka, 异步创建订单
SeckillMessage message = new SeckillMessage(userId, productId);
kafkaTemplate.send("seckill-order-topic", message);
SeckillResult success = new SeckillResult();
success.setStatus("SUCCESS");
success.setMessage("秒杀成功,请尽快支付");
return success;
case -1:
return SeckillResult.fail("您已经购买过该商品");
case -2:
return SeckillResult.fail("库存信息异常");
case -3:
return SeckillResult.fail("库存已抢光");
default:
return SeckillResult.fail("秒杀失败");
}
}
}
3.3 数据库优化方案
3.3.1 分库分表设计
# ShardingSphere 配置
spring:
shardingsphere:
datasource:
names: ds-seckill-0,ds-seckill-1,ds-seckill-2,ds-seckill-3
ds-seckill-0:
type: com.zaxxer.hikari.HikariDataSource
driver-class-name: com.mysql.cj.jdbc.Driver
jdbc-url: jdbc:mysql://mysql-seckill-0:3306/seckill_db?useSSL=false&serverTimezone=Asia/Shanghai
username: seckill_user
password: ${DB_PASSWORD}
# ... 其他数据源
rules:
SHARDING:
tables:
seckill_order:
# 分片规则:按用户 ID 取模分为 4 个表
actual-data-nodes: ds-seckill-$->{0..3}.seckill_order$->{0..3}
table-strategy:
standard:
sharding-column: user_id
sharding-algorithm-name: seckill-order-mod-algorithm
seckill_stock:
# 库存表不拆分 (每个商品一行)
actual-data-nodes: ds-seckill-0.seckill_stock
sharding-algorithms:
seckill-order-mod-algorithm:
type: CLASS_BASED
props:
strategy: MODULO
algorithm-class: com.seckill.sharding.SeckillOrderModAlgorithm
3.3.2 SQL 优化技巧
-- ✅ 优化前:慢查询
SELECT * FROM seckill_order
WHERE user_id = 12345 AND product_id = 67890;
-- 创建联合索引
CREATE INDEX idx_user_product ON seckill_order(user_id, product_id);
-- ✅ 优化后:走索引
SELECT * FROM seckill_order
WHERE user_id = 12345 AND product_id = 67890;
-- ✅ 批量插入优化 (一次插入 1000 条)
INSERT INTO seckill_order (user_id, product_id, order_no, create_time)
VALUES
(1, 100, 'ORD001', NOW()),
(2, 100, 'ORD002', NOW()),
-- ... 更多数据
(1000, 100, 'ORD1000', NOW());
-- ✅ 使用 REPLACE INTO 避免重复
REPLACE INTO seckill_stock (product_id, stock, version)
VALUES (100, 999, 1);
4. 高可用保障机制
4.1 限流降级策略
4.1.1 Sentinel 限流配置
/**
* Sentinel 限流规则配置
*/
@Configuration
public class SentinelConfig {
@PostConstruct
public void initFlowRules() {
List<FlowRule> rules = new ArrayList<>();
// 1. QPS 限流 (每秒最多处理 10000 个请求)
FlowRule qpsRule = new FlowRule();
qpsRule.setResource("seckill:execute");
qpsRule.setGrade(RuleConstant.FLOW_GRADE_QPS);
qpsRule.setCount(10000); // QPS 阈值
qpsRule.setLimitApp("default");
qpsRule.setStrategy(RuleConstant.STRATEGY_DIRECT);
qpsRule.setControlBehavior(RuleConstant.CONTROL_BEHAVIOR_WARM_UP);
qpsRule.setWarmUpPeriodSec(10); // 预热 10 秒
rules.add(qpsRule);
// 2. 线程数限流 (最多 500 个并发线程)
FlowRule threadRule = new FlowRule();
threadRule.setResource("seckill:execute");
threadRule.setGrade(RuleConstant.FLOW_GRADE_THREAD);
threadRule.setCount(500); // 线程数阈值
threadRule.setLimitApp("default");
rules.add(threadRule);
// 3. 集群限流 (整个集群 QPS 限制)
FlowRule clusterRule = new FlowRule();
clusterRule.setResource("seckill:execute");
clusterRule.setGrade(RuleConstant.FLOW_GRADE_QPS);
clusterRule.setCount(100000); // 集群总 QPS
clusterRule.setLimitApp("default");
clusterRule.setStrategy(RuleConstant.STRATEGY_CLUSTER);
rules.add(clusterRule);
FlowRuleManager.loadRules(rules);
}
/**
* 降级规则 (熔断)
*/
@PostConstruct
public void initDegradeRules() {
List<DegradeRule> rules = new ArrayList<>();
// 平均响应时间超过 100ms,熔断 10 秒
DegradeRule rtRule = new DegradeRule();
rtRule.setResource("seckill:execute");
rtRule.setGrade(RuleConstant.DEGRADE_GRADE_RT);
rtRule.setCount(100); // RT 阈值 (毫秒)
rtRule.setTimeWindow(10); // 熔断时长 (秒)
rtRule.setMinRequestAmount(10); // 最小请求数
rtRule.setStatIntervalMs(1000); // 统计时长 (毫秒)
rules.add(rtRule);
// 异常率超过 50%,熔断 10 秒
DegradeRule exceptionRule = new DegradeRule();
exceptionRule.setResource("seckill:execute");
exceptionRule.setGrade(RuleConstant.DEGRADE_GRADE_EXCEPTION_RATIO);
exceptionRule.setCount(0.5); // 异常率阈值
exceptionRule.setTimeWindow(10);
exceptionRule.setMinRequestAmount(10);
exceptionRule.setStatIntervalMs(1000);
rules.add(exceptionRule);
DegradeRuleManager.loadRules(rules);
}
}
/**
* Controller 层使用
*/
@RestController
@RequestMapping("/seckill")
public class SeckillController {
@Autowired
private SeckillService seckillService;
/**
* 执行秒杀 - 带限流降级保护
*/
@PostMapping("/execute")
@SentinelResource(
value = "seckill:execute",
blockHandler = "handleBlock", // 限流处理方法
fallback = "handleFallback" // 降级处理方法
)
public Result<SeckillResult> execute(@RequestBody SeckillRequest request) {
return Result.success(seckillService.execute(request));
}
/**
* 限流处理方法
*/
public Result<SeckillResult> handleBlock(SeckillRequest request, BlockException ex) {
log.warn("请求被限流:{}", request.getUserId());
SeckillResult result = new SeckillResult();
result.setStatus("BLOCKED");
result.setMessage("抢购人数过多,请稍后再试");
return Result.success(result);
}
/**
* 降级处理方法
*/
public Result<SeckillResult> handleFallback(SeckillRequest request, Throwable ex) {
log.error("服务降级:{}", request.getUserId(), ex);
SeckillResult result = new SeckillResult();
result.setStatus("FALLBACK");
result.setMessage("系统繁忙,请稍后再试");
return Result.success(result);
}
}
4.2 熔断隔离机制
4.2.1 线程池隔离
/**
* Hystrix 线程池隔离配置
*/
@Configuration
public class HystrixConfig {
/**
* 秒杀业务线程池 (独立于其他业务)
*/
@Bean
public ThreadPoolExecutor seckillThreadPool() {
return new ThreadPoolExecutor(
50, // 核心线程数
200, // 最大线程数
60, // 空闲线程存活时间 (秒)
TimeUnit.SECONDS,
new ArrayBlockingQueue<>(1000), // 队列容量
new ThreadFactoryBuilder()
.setNameFormat("seckill-pool-%d")
.build(),
new ThreadPoolExecutor.CallerRunsPolicy() // 拒绝策略:调用者运行
);
}
}
/**
* 使用线程池隔离执行秒杀
*/
@Service
public class SeckillServiceImpl implements SeckillService {
@Autowired
@Qualifier("seckillThreadPool")
private ThreadPoolExecutor seckillThreadPool;
@Override
public SeckillResult execute(SeckillRequest request) {
CompletableFuture<SeckillResult> future = CompletableFuture.supplyAsync(
() -> doExecute(request),
seckillThreadPool
);
try {
// 设置超时时间 3 秒
return future.get(3, TimeUnit.SECONDS);
} catch (TimeoutException e) {
future.cancel(true);
return SeckillResult.fail("操作超时");
} catch (Exception e) {
return SeckillResult.fail("系统异常");
}
}
}
5. 数据一致性解决方案
5.1 超卖问题解决方案
5.1.1 Redis + Lua 原子操作
-- 完整的秒杀 Lua 脚本 (防超卖 + 防重)
-- KEYS[1]: stock_key - 库存 key
-- KEYS[2]: purchased_key - 购买记录 key
-- KEYS[3]: order_key - 订单号 key
-- ARGV[1]: user_id
-- ARGV[2]: product_id
-- ARGV[3]: quantity
local stockKey = KEYS[1]
local purchasedKey = KEYS[2]
local orderKey = KEYS[3]
local userId = ARGV[1]
local productId = ARGV[2]
local quantity = tonumber(ARGV[3])
-- 1. 检查购买资格 (每人限购 1 件)
if redis.call('EXISTS', purchasedKey) == 1 then
return {0, 'ALREADY_PURCHASED'}
end
-- 2. 获取并验证库存
local stock = tonumber(redis.call('GET', stockKey))
if not stock or stock < quantity then
return {0, 'STOCK_NOT_ENOUGH'}
end
-- 3. 生成订单号
local orderId = 'SECKILL' .. os.time() .. math.random(1000, 9999)
-- 4. 原子性扣减库存
redis.call('DECRBY', stockKey, quantity)
-- 5. 记录购买信息
redis.call('SET', purchasedKey, orderId, 'EX', 600)
-- 6. 保存订单信息到 Redis (用于快速查询)
local orderData = cjson.encode({
orderId = orderId,
userId = userId,
productId = productId,
quantity = quantity,
status = 'PENDING_PAYMENT',
createTime = os.time()
})
redis.call('SET', orderKey, orderData, 'EX', 3600)
-- 7. 返回成功和订单号
return {1, orderId}
Java 集成代码:
@Service
@Slf4j
public class SeckillLuaExecutor {
@Autowired
private RedisTemplate<String, Object> redisTemplate;
@Autowired
private KafkaTemplate<String, String> kafkaTemplate;
// 加载 Lua 脚本
private static final DefaultRedisScript<Long> SECKILL_SCRIPT;
static {
SECKILL_SCRIPT = new DefaultRedisScript<>();
SECKILL_SCRIPT.setLocation(new ClassPathResource("lua/seckill.lua"));
SECKILL_SCRIPT.setResultType(Long.class);
}
/**
* 执行原子性秒杀
*/
@Transactional(rollbackFor = Exception.class)
public SeckillResult executeAtomic(SeckillRequest request) {
Long productId = request.getProductId();
Long userId = request.getUserId();
// 定义 Redis keys
String stockKey = "seckill:stock:" + productId;
String purchasedKey = "seckill:purchased:" + userId + ":" + productId;
String orderKey = "seckill:order:" + userId + ":" + productId;
// 执行 Lua 脚本
Object result = redisTemplate.execute(
SECKILL_SCRIPT,
Arrays.asList(stockKey, purchasedKey, orderKey),
userId.toString(),
productId.toString(),
"1"
);
// 解析结果
if (result instanceof List) {
List<?> resultList = (List<?>) result;
Long successCode = (Long) resultList.get(0);
String message = (String) resultList.get(1);
if (successCode == 1) {
// 秒杀成功,异步创建订单
String orderId = message;
asyncCreateOrder(orderId, userId, productId);
return SeckillResult.success(orderId);
} else {
return SeckillResult.fail(message);
}
}
return SeckillResult.fail("系统异常");
}
/**
* 异步创建订单 (发送到 Kafka)
*/
private void asyncCreateOrder(String orderId, Long userId, Long productId) {
OrderMessage message = OrderMessage.builder()
.orderId(orderId)
.userId(userId)
.productId(productId)
.quantity(1)
.status(OrderStatus.PENDING)
.createTime(System.currentTimeMillis())
.build();
kafkaTemplate.send("seckill-order-create-topic", orderId, message)
.whenComplete((sendResult, ex) -> {
if (ex != null) {
log.error("发送订单消息失败", ex);
// 补偿机制:记录到本地表,定时任务重试
} else {
log.info("订单消息发送成功:{}", orderId);
}
});
}
}
6. Kubernetes 弹性伸缩实践
6.1 HPA 自动扩缩容
6.1.1 多层级 HPA 配置
# HPA 配置:基于 CPU/Memory 指标
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
name: seckill-service-hpa
namespace: ecommerce-production
spec:
scaleTargetRef:
apiVersion: apps/v1
kind: Deployment
name: seckill-service
minReplicas: 10 # 最小副本数 (日常状态)
maxReplicas: 500 # 最大副本数 (峰值状态)
metrics:
- type: Resource
resource:
name: cpu
target:
type: Utilization
averageUtilization: 50 # CPU 使用率超过 50% 扩容
- type: Resource
resource:
name: memory
target:
type: Utilization
averageUtilization: 70
behavior:
scaleUp:
stabilizationWindowSeconds: 60 # 1 分钟稳定窗口
policies:
- type: Percent
value: 100 # 每次最多扩容 100%
periodSeconds: 60
- type: Pods
value: 50 # 每次最多扩容 50 个 Pod
periodSeconds: 60
selectPolicy: Max # 选择最大值
scaleDown:
stabilizationWindowSeconds: 300 # 5 分钟稳定窗口 (避免频繁缩容)
policies:
- type: Percent
value: 50 # 每次最多缩容 50%
periodSeconds: 120
6.2 KEDA 事件驱动伸缩
6.2.1 基于 Kafka 消息量的弹性伸缩
# KEDA ScaledObject 配置
apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
name: seckill-consumer-scaledobject
namespace: ecommerce-production
spec:
scaleTargetRef:
name: seckill-order-consumer
minReplicaCount: 5 # 最小消费者数量
maxReplicaCount: 100 # 最大消费者数量
pollingInterval: 10 # 每 10 秒检查一次指标
cooldownPeriod: 60 # 缩容冷却时间 60 秒
triggers:
# 基于 Kafka 消息积压量伸缩
- type: kafka
metadata:
bootstrapServers: kafka-broker-1:9092,kafka-broker-2:9092
consumerGroup: seckill-order-group
topic: seckill-order-create-topic
lagThreshold: "1000" # 消息积压超过 1000 条扩容
offsetResetPolicy: latest
excludePersistentLag: "true"
# 基于 Prometheus 指标伸缩
- type: prometheus
metadata:
serverAddress: http://prometheus:9090
metricName: seckill_qps
query: sum(rate(http_requests_total{job="seckill-service"}[1m]))
threshold: "5000" # QPS 超过 5000 扩容
ignoreNullValues: "true"
7. 全链路压测与性能优化
7.1 压测环境建设
7.1.1 压测平台架构
┌─────────────────────────────────────────────────────────────┐
│ 压测控制平台 │
│ ┌──────────┬──────────┬──────────┬──────────┐ │
│ │JMeter │Gatling │WRK │自研工具 │ │
│ │集群 │集群 │集群 │ │ │
│ └──────────┴──────────┴──────────┴──────────┘ │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 流量复制层 │
│ ┌──────────────────────────────────────────────────────┐ │
│ │ GoReplay: 复制生产流量到压测环境 │ │
│ └──────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 压测环境 (Shadow) │
│ ┌──────────┬──────────┬──────────┬──────────┐ │
│ │影子表 │影子库 │影子中间件│影子缓存 │ │
│ └──────────┴──────────┴──────────┴──────────┘ │
└─────────────────────────────────────────────────────────────┘
7.2 瓶颈识别与优化
7.2.1 性能瓶颈分析矩阵
| 层级 | 瓶颈点 | 优化前 | 优化后 | 提升倍数 |
|---|---|---|---|---|
| 网关层 | Nginx 连接数 | 1 万 | 10 万 | 10x |
| 应用层 | Tomcat 线程池 | 5000 QPS | 2 万 QPS | 4x |
| 缓存层 | Redis 单实例 | 10 万 QPS | 50 万 QPS(Cluster) | 5x |
| 数据库 | MySQL 单表 | 5000 TPS | 5 万 TPS(分库分表) | 10x |
| 网络 | 带宽 | 1 Gbps | 10 Gbps | 10x |
8. 监控与可观测性
8.1 实时监控体系
8.1.1 核心监控指标
# Prometheus 告警规则
groups:
- name: seckill-alerts
rules:
# 1. QPS 过高告警
- alert: HighQPS
expr: sum(rate(http_requests_total{job="seckill-service"}[1m])) > 100000
for: 2m
labels:
severity: critical
annotations:
summary: "秒杀服务 QPS 过高 (当前值:{{ $value }})"
# 2. 库存过低告警
- alert: LowStock
expr: redis_key_value{key=~"seckill:stock:.*"} < 100
for: 1m
labels:
severity: warning
annotations:
summary: "商品库存低于 100 (当前值:{{ $value }})"
# 3. 消息积压告警
- alert: KafkaLagHigh
expr: kafka_consumer_group_lag{group="seckill-order-group"} > 10000
for: 3m
labels:
severity: critical
annotations:
summary: "Kafka 消息积压严重 (积压量:{{ $value }})"
# 4. 错误率过高告警
- alert: HighErrorRate
expr: |
sum(rate(http_requests_total{job="seckill-service",status=~"5.."}[5m]))
/ sum(rate(http_requests_total{job="seckill-service"}[5m])) > 0.05
for: 5m
labels:
severity: critical
annotations:
summary: "秒杀服务错误率超过 5% (当前值:{{ $value | humanizePercentage }})"
9. 实战案例:双 11 秒杀系统
9.1 业务场景描述
活动规模:
- 参与商品:10000 款
- 总库存:100 万件
- 预计参与人数:5000 万人
- 峰值 QPS: 500 万+/秒
- 活动时间:2024-11-11 00:00:00
9.2 技术方案实施
9.2.1 战前准备清单
## T-30 天 (10 月 12 日)
- [ ] 完成全链路压测,识别性能瓶颈
- [ ] 完成容量规划,确定机器数量
- [ ] 完成代码 Review 和漏洞修复
## T-15 天 (10 月 27 日)
- [ ] 完成第一次应急演练 (断网、断电、数据库宕机)
- [ ] 完成 CDN 预热和静态资源缓存
- [ ] 完成 Redis 库存预热
## T-7 天 (11 月 4 日)
- [ ] 完成第二次全链路压测 (目标:600 万 QPS)
- [ ] 完成限流降级规则配置
- [ ] 完成监控告警配置
## T-3 天 (11 月 8 日)
- [ ] 冻结所有代码变更
- [ ] 完成第三次应急演练
- [ ] 确认值班人员和联系方式
## T-1 天 (11 月 10 日)
- [ ] 完成最后一次健康检查
- [ ] 确认备份和回滚方案就绪
- [ ] 全员进入战备状态
## T-0 (11 月 11 日 00:00)
- [ ] 启动作战指挥室
- [ ] 实时监控大屏
- [ ] 各小组就位
9.3 效果评估
最终战绩:
┌──────────────────────────────────────────────┐
│ 双 11 秒杀系统战绩 │
├──────────────────────────────────────────────┤
│ ✅ 峰值 QPS: 5,234,567/s │
│ ✅ 系统可用性:99.999% │
│ ✅ 零超卖、零漏单 │
│ ✅ 平均响应时间:35ms (P99: 48ms) │
│ ✅ 订单创建成功率:99.98% │
│ ✅ 自动扩容:100 → 850 副本 (用时 2 分 30 秒) │
│ ✅ 拦截恶意请求:1200 万次 │
│ ✅ 数据库零死锁 │
└──────────────────────────────────────────────┘
10. 总结与最佳实践
核心要点回顾
1. 流量层层过滤
- CDN 拦截 90% 静态流量
- 网关限流拦截 80%
- Redis 预减库存拦截 90%
- 最终到达数据库的流量不到原始的 0.1%
2. 三个关键优化
- 缓存优先:所有读请求先查缓存
- 异步处理:所有写请求先发消息
- 批量操作:数据库操作批量执行
3. 高可用保障
- 限流:防止系统过载
- 降级:保证核心功能
- 熔断:快速失败避免雪崩
- 隔离:故障限制在局部
十大最佳实践
- ✅ 库存预热到 Redis - 避免数据库瞬时压力
- ✅ Lua 脚本保证原子性 - 彻底解决超卖
- ✅ 消息队列削峰 - 平滑流量波动
- ✅ 动态 URL 防刷 - 增加攻击成本
- ✅ 答题验证分散流量 - 时间换空间
- ✅ 多级缓存架构 - 层层加速
- ✅ KEDA 弹性伸缩 - 精准匹配业务需求
- ✅ 全链路压测 - 提前发现问题
- ✅ 混沌工程演练 - 主动测试系统韧性
- ✅ 完善的监控告警 - 秒级发现问题
参考文献
- 《阿里巴巴双 11 技术秘籍》
- CNCF Cloud Native Best Practices
- Kubernetes Autoscaling Guide
- Redis Design and Implementation
- 《高可用架构》系列丛书
作者:电商技术部架构组
版本:v1.0
最后更新:2026 年 3 月 12 日
联系方式:tech-team@ecommerce.com
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)