引言

在大模型向推理能力深度进化的阶段,兼顾参数规模、推理效率与实际场景鲁棒性成为核心研究方向。美团龙猫团队开源的LongCat-Flash-Thinking-2601,作为一款拥有5600亿总参数的混合专家(MoE)架构大推理模型,在传统推理基准保持高竞争力的同时,大幅强化了智能体思维能力,实现了工具使用、智能搜索等场景的顶尖性能,还针对真实世界的噪声环境做了专项优化。本文将从项目概况、核心优势与应用、技术原理与代码实践三方面,全面解析这款大推理模型的技术亮点与使用方法。

项目概况

LongCat-Flash-Thinking-2601是美团longcat团队推出的新一代大推理模型(LRM),基于MIT协议开源,是LongCat-Flash-Thinking的升级版本,核心采用创新的混合专家(MoE)架构设计,总参数量达5600亿,激活参数量仅270亿,在保证推理性能的同时大幅降低算力消耗。

该模型继承了上一版本的领域并行训练方案,通过环境扩展、任务合成与大规模多环境强化学习,系统性强化了智能体思维能力;同时针对真实世界智能体任务的噪声和不确定性,开展了多类型、多级别环境噪声的系统分析与课程训练,实现了非理想条件下的稳健性能。模型还创新推出Heavy Thinking深度思考模式,通过并行思考与总结迭代进一步提升复杂任务推理能力,该模式已在美团Longcat AI平台(https://longcat.chat/)上线体验。

在各类权威基准测试中,该模型在智能体工具使用、智能体搜索、工具融合推理等场景均取得顶尖成绩,在随机复杂任务中展现出超强的泛化能力,模型权重与相关代码已在GitHub和ModelScope开源,支持SGLang、vLLM等框架部署。

核心优势与应用场景

核心技术优势

  1. MoE架构高效设计:5600亿总参数搭配270亿激活参数,兼顾模型表达能力与推理效率,相比同规模稠密模型,算力消耗大幅降低,更适合实际场景部署。
  2. 强化的智能体思维能力:通过环境扩展+任务合成+多环境强化学习的全流程设计,构建了含60+工具的高质量训练环境,让模型习得通用化的高级智能体技能,跨领域泛化能力显著提升。
  3. 噪声环境鲁棒性训练:系统分析真实世界智能体场景的噪声来源,设计自动化噪声注入流水线,采用课程训练策略逐步提升噪声类型与强度,使模型在非理想、有噪声的实际环境中仍能保持稳定性能。
  4. 创新Heavy Thinking深度思考模式:将复杂问题拆解为并行思考总结迭代两个阶段,并行生成多推理轨迹拓宽思考宽度,递归总结迭代加深思考深度,还通过专项强化学习训练模型的总结能力,复杂任务性能大幅提升。
  5. 全场景顶尖推理性能:在数学推理(AIME-25、IMO-AnswerBench)、智能体搜索(BrowseComp、RW Search)、智能体工具使用(τ²系列基准)等场景均取得行业顶尖成绩,在随机复杂任务中泛化能力远超同类模型。
  6. 灵活的工具调用与对话设计:配套升级的聊天模板支持工具声明、交错思考、推理内容保留等特性,可灵活适配多轮对话、工具调用等复杂推理场景,适配性强。

典型应用场景

  1. 高精度数学推理:依托强大的工具融合推理能力,可应用于数学竞赛、工程计算、科学研究等需要深度数学推理的场景,Heavy Thinking模式可进一步提升极难问题的解答准确率。
  2. 智能体工具调用:适用于电商、航空、电信等行业的智能体系统,可精准调用行业专属工具完成业务处理,如零售订单查询、航空票务预订、电信业务办理,且在实际噪声环境中仍能稳定工作。
  3. 智能信息检索与分析:在智能搜索、网页信息提取、多源数据整合等场景,可通过智能体搜索能力高效获取信息并完成分析总结,适用于智能问答、舆情分析、行业报告生成等业务。
  4. 复杂任务规划与执行:针对需要多步骤、多工具协同完成的复杂任务,如自动化办公、智能运维,模型可通过精准的任务拆解与工具调度,实现复杂任务的自主规划与执行。
  5. 大模型推理能力研究:作为开源的大参数量MoE架构推理模型,可为大模型推理能力优化、MoE架构设计、智能体思维训练等研究方向提供优质的开源底座。
  6. 企业级智能助手开发:依托模型的高推理性能、工具调用能力和噪声鲁棒性,可快速开发面向企业的智能助手,适配电商、金融、制造等多行业的实际业务场景。

技术原理与部署实践

核心技术原理

LongCat-Flash-Thinking-2601的核心技术围绕MoE架构优化、智能体思维训练、噪声鲁棒性提升、深度思考模式四大方向展开,核心原理如下:

  1. MoE架构设计:采用混合专家架构,将5600亿参数分布于多个专家模块,推理时仅激活270亿参数的核心模块,在保证模型表达能力的同时,大幅降低单次推理的算力和显存消耗,实现效率与性能的平衡。
  2. 智能体思维训练流水线:先构建含60+工具的高密度依赖图高质量环境,通过控制任务复杂度和多样性完成优质任务构建;再基于扩展的DORA强化学习基础设施,实现大规模多环境强化学习,让模型在多环境中习得通用化智能体技能。
  3. 噪声鲁棒性训练:先分析真实场景的噪声类型并构建自动化噪声注入流水线,将噪声引入训练环境;再采用课程训练策略,随训练进程逐步提升噪声的类型与强度,让模型逐步适应非理想环境,提升鲁棒性。
  4. Heavy Thinking深度思考模式:将复杂问题求解拆解为并行思考和总结两个阶段,并行思考阶段生成多条独立推理轨迹拓宽思考宽度,总结阶段将精炼后的轨迹递归反馈至模型形成迭代推理环,加深思考深度,同时通过专项强化学习优化模型的总结能力。
  5. 定制化聊天模板:设计支持工具声明、交错思考、推理内容保留的聊天模板,工具调用阶段先声明可用工具激活模型工具能力,对话阶段保留工具执行历史并可灵活选择是否保留推理历史,兼顾上下文简洁性与推理连贯性。

快速上手:模型基础调用代码实践

该模型基于Hugging Face的transformers库实现快速调用,支持多轮对话和工具调用两种核心场景,以下为完整可运行代码示例:

环境准备
# 安装核心依赖
pip install transformers torch accelerate sentencepiece
# 如需部署,额外安装SGLang/vLLM
# pip install sglang vllm
示例1:多轮对话推理
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加载模型和分词器(ModelScope/GitHub源)
model_name = "meituan-longcat/LongCat-Flash-Thinking-2601"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 构建多轮对话消息
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Please tell me what is $$1 + 1$$ and $$2 \times 2$$?"},
    {"role": "assistant", "reasoning_content": "This question is straightforward: $$1 + 1 = 2$$ and $$2 \times 2 = 4$$.", "content": "The answers are 2 and 4."},
    {"role": "user", "content": "Check again?"}
]

# 应用聊天模板,生成模型输入
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    enable_thinking=True,
    add_generation_prompt=True,
    save_history_reasoning_content=False  # 丢弃推理历史,节省token
)

# 模型推理
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
    temperature=0.7
)
# 解析并输出结果
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
print(tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n"))
示例2:工具调用推理
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "meituan-longcat/LongCat-Flash-Thinking-2601"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 定义可用工具
tools = [
    {
        "type": "function",
        "function": {
            "name": "func_add",
            "description": "Calculate the sum of two numbers",
            "parameters": {
                "type": "object",
                "properties": {
                    "x1": {"type": "number", "description": "The first addend"},
                    "x2": {"type": "number", "description": "The second addend"}
                },
                "required": ["x1", "x2"]
            }
        }
    }
]

# 构建工具调用对话消息
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Please tell me what is $$125679 + 234519$$?"},
    {
        "role": "assistant",
        "reasoning_content": "This calculation requires precision; I will use the func_add tool.",
        "tool_calls": [{"type": "function", "function": {"name": "func_add", "arguments": {"x1": 125679, "x2": 234519}}}]
    },
    {"role": "tool", "name": "func_add", "content": '{"ans": 360198}'}
]

# 应用聊天模板,激活工具能力
text = tokenizer.apply_chat_template(
    messages,
    tools=tools,
    tokenize=False,
    enable_thinking=True,
    add_generation_prompt=True,
    save_history_reasoning_content=False
)

# 模型推理
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
# 解析并输出结果
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
print(tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n"))

模型部署

LongCat-Flash-Thinking-2601已完成SGLangvLLM两大主流大模型部署框架的基础适配,可支持高并发、低延迟的推理部署,核心部署思路如下:

  1. SGLang部署:基于SGLang的高效推理能力,结合模型的MoE架构特点,配置合理的专家模块调度策略,实现模型的快速推理与高并发服务,适合需要灵活定制推理流程的场景。
  2. vLLM部署:利用vLLM的PagedAttention技术优化显存使用,支持大批次请求的高效处理,大幅提升模型的推理吞吐量,适合高并发的企业级服务部署场景。

详细的部署步骤可参考项目官方的Deployment Guide,针对不同硬件环境(单卡/多卡/集群)提供了对应的配置方案,同时支持模型的量化部署,进一步降低算力门槛。

该项目及相关内容已AladdinEdu课题广场同步发布,欢迎前往了解更多技术实现与资源

项目地址:AladdinEdu课题广场

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐