DeepSeek连续故障！Java侧多模型熔断降级+本地Ollama部署实战

东离与糖宝

339人浏览 · 2026-04-02 13:43:50

东离与糖宝 · 2026-04-02 13:43:50 发布

文章目录

无意间发现了一个巨牛巨牛巨牛的人工智能教程，非常通俗易懂，对AI感兴趣的朋友强烈推荐去看看，传送门https://blog.csdn.net/HHX_01

开篇：当"服务器繁忙"成了常态

兄弟们，最近用DeepSeek是不是有种坐过山车的感觉？前脚还在愉快地让它帮你改代码，后脚就弹出来一个服务器繁忙，请稍后重试。
这还不算完，3月29号晚上到30号上午，DeepSeek直接来了个长达12小时的集体罢工，创下成立以来单次服务中断最长纪录。紧接着31号又崩一次，这频率实在太高。

说实话，这也不能全怪DeepSeek。月活1.45亿，和豆包并列中国AI应用第一梯队，流量压力极大。
但咱们打工人DDL不等人，代码写到一半断线、业务卡壳，老板不会听你解释DeepSeek又崩了。

核心道理：不能把鸡蛋放在一个篮子里。
今天以Java开发者视角，实战一套：多模型熔断降级 + 本地Ollama兜底，云端全崩也能正常跑AI。

为什么要搞熔断降级？血的教训

熔断降级原理很通俗：类似家电过载跳闸，保护主系统不被拖崩。

如果没有熔断：

DeepSeek响应慢、报错、502
你的Java微服务线程一直阻塞等待
线程池耗尽，引发服务雪崩
最终AI接口挂了 → 把你整个业务系统带崩

所以必须一套组合拳：

熔断器：连续失败达到阈值，自动切断，不再请求
降级策略：主服务挂了，自动切备用模型/本地模型
限流：控制并发，防止打满带宽
超时控制：避免慢请求拖死整个服务

Java实战：Resilience4j多模型路由

Resilience4j：Java生态最轻量熔断框架，替代Hystrix，完美兼容Spring Boot3.x，支持注解开发。

第一步：引入依赖（pom.xml）


    io.github.resilience4j
    resilience4j-spring-boot3
    2.1.0


    org.springframework.boot
    spring-boot-starter-aop

第二步：application.yml 熔断配置

resilience4j:
  circuitbreaker:
    configs:
      default:
        slidingWindowSize: 10
        failureRateThreshold: 50
        waitDurationInOpenState: 30s
        permittedNumberOfCallsInHalfOpenState: 3
    instances:
      deepseekPrimary:
        baseConfig: default
        failureRateThreshold: 60
      ollamaLocal:
        baseConfig: default
        failureRateThreshold: 80
  timelimiter:
    configs:
      default:
        timeoutDuration: 5s

第三步：多模型路由核心代码

import io.github.resilience4j.circuitbreaker.annotation.CircuitBreaker;
import io.github.resilience4j.timelimiter.annotation.TimeLimiter;
import lombok.extern.slf4j.Slf4j;
import org.springframework.ai.chat.prompt.Prompt;
import org.springframework.ai.ollama.OllamaChatModel;
import org.springframework.ai.openai.OpenAiChatModel;
import org.springframework.stereotype.Service;
import java.util.concurrent.CompletableFuture;

@Service
@Slf4j
public class MultiModelAiService {

    private final OpenAiChatModel deepSeekModel;
    private final OllamaChatModel ollamaModel;

    public MultiModelAiService(OpenAiChatModel deepSeekModel,
                              OllamaChatModel ollamaModel) {
        this.deepSeekModel = deepSeekModel;
        this.ollamaModel = ollamaModel;
    }

    /**
     * 主入口：优先DeepSeek，失败自动降级到Ollama
     */
    @CircuitBreaker(name = "deepseekPrimary", fallbackMethod = "fallbackToOllama")
    @TimeLimiter(name = "deepseekPrimary")
    public CompletableFuture generateCode(String requirement) {
        return CompletableFuture.supplyAsync(() -> {
            log.info("尝试调用DeepSeek主通道...");
            Prompt prompt = new Prompt("请生成代码：" + requirement);
            return deepSeekModel.call(prompt).getResult().getOutput().getContent();
        });
    }

    /**
     * 降级兜底：本地Ollama
     */
    public CompletableFuture fallbackToOllama(String requirement, Exception ex) {
        log.warn("DeepSeek异常，降级至本地Ollama: {}", ex.getMessage());

        return CompletableFuture.supplyAsync(() -> {
            try {
                Prompt prompt = new Prompt("请生成代码：" + requirement);
                return ollamaModel.call(prompt).getResult().getOutput().getContent();
            } catch (Exception localEx) {
                log.error("本地Ollama也异常", localEx);
                return "AI服务暂时不可用，请稍后重试";
            }
        });
    }
}

执行流程

请求优先走 DeepSeek 主通道
5秒超时 / 失败率超60% → 熔断器打开
自动进入 fallbackToOllama → 切本地Ollama
30秒后半开试探，恢复则自动切回主服务

第四步：Controller 接口

import lombok.RequiredArgsConstructor;
import org.springframework.http.HttpStatus;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestBody;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;
import java.util.concurrent.TimeUnit;

@RestController
@RequestMapping("/ai")
@RequiredArgsConstructor
public class AiController {

    private final MultiModelAiService aiService;

    @PostMapping("/code")
    public ResponseEntity generateCode(@RequestBody String requirement) {
        try {
            String result = aiService.generateCode(requirement)
                    .get(8, TimeUnit.SECONDS);
            return ResponseEntity.ok(result);
        } catch (Exception e) {
            return ResponseEntity.status(HttpStatus.SERVICE_UNAVAILABLE)
                    .body("所有AI通道均不可用");
        }
    }
}

本地Ollama部署：最后的兜底保障

Ollama：开源本地大模型运行框架，一行命令部署，支持标准REST API，Java直接对接。

安装 Ollama

mac / Linux：

curl -fsSL https://ollama.com/install.sh | sh

Windows：

winget install --id Ollama.Ollama

修改模型存储目录（防止C盘爆满）

OLLAMA_MODELS=D:\ollama\models

拉取 DeepSeek 本地模型

根据显存选择：

# 4-6G显存
ollama pull deepseek-r1:1.5b

# 8-12G显存（推荐）
ollama pull deepseek-r1:7b

# 24G+显存
ollama pull deepseek-r1:14b

Spring AI 集成 Ollama

pom.xml


    org.springframework.ai
    spring-ai-starter-model-ollama
    1.0.0

application.yml

spring:
  ai:
    ollama:
      base-url: http://localhost:11434
      chat:
        model: deepseek-r1:7b
        options:
          temperature: 0.7
          num-ctx: 4096