MiniMax M2.7 上手体验：国产大模型的“推理派“选手

safestar2012

587人浏览 · 2026-04-16 18:17:05

safestar2012 · 2026-04-16 18:17:05 发布

前两天用阿里的接口感觉慢了很多，国外的模型也被封了，实在受不了一个任务卡半天，瞧着MiniMax上市的股票涨的那么猛，是不是可以试试？

于是我把我的龙虾的模型换成了MiniMax-M2.7,和之前的GLM-5执行同样的任务对比了一下效果。

先说结论：这玩意儿是个偏科的选手，推理能力挺强，但创意写作这块，和 GLM-5、Qwen 比起来还有差距。

接入过程：比想象中顺利

MiniMax 的 API 接入其实挺简单。官方文档给的是 OpenAI 兼容格式，所以理论上任何支持 OpenAI API 的项目都能直接用。

我用的是 OpenClaw（一个 AI Agent 管理工具），配置就几行：

{
  "providers": {
    "minimax": {
      "baseUrl": "https://api.minimax.chat/v1",
      "apiKey": "你的key",
      "api": "openai-completions"
    }
  }
}

模型 ID 直接填 MiniMax-M2.7，上下文官方说是 1M tokens，输出上限 16K。这个参数在国产模型里算比较猛的了，毕竟 Qwen3-max 也就 262K 上下文。

接入后跑了一下连通测试，响应速度还行，平均 2-3 秒出结果，比 GLM-5 略快一点，和 Qwen3.5-plus 差不多。

推理任务：确实有点东西

我先用几个代码生成任务测了一下。

测试 1：写一个 Python 分布式锁实现

这个任务不算特别复杂，但需要考虑并发场景下的边界条件。

M2.7 给出的代码结构挺清晰：

import redis
import time
import uuid

class DistributedLock:
    def __init__(self, redis_client, lock_name, expire_time=10):
        self.redis = redis_client
        self.lock_name = lock_name
        self.expire_time = expire_time
        self.identifier = str(uuid.uuid4())
    
    def acquire(self, retry_times=3, retry_delay=0.2):
        for _ in range(retry_times):
            if self.redis.set(self.lock_name, self.identifier, nx=True, ex=self.expire_time):
                return True
            time.sleep(retry_delay)
        return False
    
    def release(self):
        script = """
        if redis.call("get", KEYS[1]) == ARGV[1] then
            return redis.call("del", KEYS[1])
        else
            return 0
        end
        """
        return self.redis.eval(script, 1, self.lock_name, self.identifier)

注意它用了 Lua 脚本保证释放锁的原子性，这个细节很多模型会漏掉。GLM-5 在同样的任务上给出的方案就没考虑到并发释放的问题，可能会出现误删别人的锁的情况。

测试 2：解释一段复杂的业务逻辑代码

扔了一段 200 多行的老旧 Java 代码给它，里面有各种继承、代理、反射。M2.7 花了大约 5 秒，给出了一个挺完整的调用链分析，还指出了几个潜在的空指针风险点。

这个表现比 GPT-4o-mini 好一些，后者经常只给出一个笼统的概述，然后让你自己去看。

总的来说，代码和逻辑类任务上，M2.7 确实有点实力。 不一定是最强的，但在国产模型里能排进前三。

创意写作：有点拉胯

然后我测了几个内容生成任务，这块的表现就不太理想了。

任务：写一篇公众号文章，主题是「Claude降智背后：AI公司正在看人下菜碟」

同样的主题，我之前用 GLM-5 写了一篇，开头是这样的：

"昨天凌晨两点，我还在给一个 Side Project 改代码。本来一切都挺顺的，Claude 3.5 Sonnet 写代码那叫一个丝滑..."

代入感挺强，像真人在讲故事。

M2.7 给出的开头：

"前两天有个读者在群里吐槽，说他订阅的 Claude 3 Opus 最近像是被'夺舍'了..."

还行，但更离谱的是它的标题："你的测试问题集"

这什么玩意儿？一眼 AI 生成的痕迹。好像它把某个内部测试 prompt 的开头当成了文章标题。

我又跑了一次，换个主题，标题变成了「这是一个故意设计得有点"坏"的 Prompt」。

这种感觉就很明显了：M2.7 不太理解"标题"这个概念在中文内容创作里的意义。 它更像是在执行一个任务，而不是在创作。

对比了一下用 GLM-5 生成的几篇文章，标题风格是这样的：

「Claude 3.5 变傻了？别天真了，AI 公司正在对你"看人下菜碟"」
「国产大模型崛起：MiniMax M2.7 能打赢 GPT-5 吗？」

这种标题一看就是人写的，有观点、有情绪、有传播性。

我大概跑了 5 次，M2.7 的标题每次都像测试文本。内容质量还行，但标题这块明显是短板。

和其他国产模型比一比

我这段时间测了几个国产大模型，简单说一下感受：

模型	推理能力	创意写作	响应速度	成本
MiniMax-M2.7	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	中等
GLM-5	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	低
Qwen3.6-plus	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	中等
Kimi-k2.5	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	中等

GLM-5 在内容创作上明显更强，标题、开头、叙事节奏都更像人写的。Qwen3.6-plus 综合能力最好，推理和写作都不拉胯。Kimi 的长上下文是个亮点，但整体能力中规中矩。

M2.7 的定位更像是个"理科生"：代码写得好，逻辑理得清，但让它写篇文章，就像让数学老师去教语文，有点不对路。

适合什么场景？

基于这些测试，我觉得 M2.7 比较适合这些场景：

推荐使用：

代码生成和重构
Bug 定位和修复
复杂逻辑的代码解释
算法实现
技术方案评审

不太推荐：

公众号文章、营销文案
创意型写作
需要"人味儿"的内容输出

如果你是做技术开发的，日常要处理大量代码任务，M2.7 可以作为一个不错的选项。它比 GPT-4o-mini 更理解中文开发者的语境，比 GLM-5 更擅长复杂逻辑。

但如果你是做内容运营的，需要写公众号、写产品文案，那还是用 GLM-5 或 Qwen 更靠谱。毕竟，让推理模型去写情感类文章，就像让博士去写公众号鸡汤——能力是有的，但味道不对。

小结

MiniMax M2.7 是个有特点的模型，不是那种"什么都行但什么都不突出"的平庸选手。它的推理能力值得肯定，代码生成质量在国产模型里算上游水平。但创意写作这块明显是短板，至少从我几天的测试来看，还不太适合内容创作类场景，也可能我的样本比较少，不代表模型的真实能力，欢迎大家指正批评。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

C++内存管理终极指南：从智能指针到RAII

AtomGit开源社区

LlamaFactory v0.9.5 发布：Qwen3.5/Qwen3.6/Gemma4 全面支持，Transformers v5 兼容性正式到位

代码地址：github.com/hiyouga/LlamaFactory总体来看，LlamaFactory v0.9.5 是一个覆盖面极广、工程含量很高的版本。它的重点并不只是“新增几个模型”，而是围绕这个核心目标，把模型支持、训练框架、分布式能力、多模态处理、模板配置、CI 环境、文档说明一起往前推进了一大步。Qwen3.5Qwen3.6Gemma4FSDP2DeepSpeed量化多模态v1 训