前两天用阿里的接口感觉慢了很多,国外的模型也被封了,实在受不了一个任务卡半天,瞧着MiniMax上市的股票涨的那么猛,是不是可以试试?

于是我把我的龙虾的模型换成了MiniMax-M2.7,和之前的GLM-5执行同样的任务对比了一下效果。

先说结论:这玩意儿是个偏科的选手,推理能力挺强,但创意写作这块,和 GLM-5、Qwen 比起来还有差距。

接入过程:比想象中顺利

MiniMax 的 API 接入其实挺简单。官方文档给的是 OpenAI 兼容格式,所以理论上任何支持 OpenAI API 的项目都能直接用。

我用的是 OpenClaw(一个 AI Agent 管理工具),配置就几行:

{
  "providers": {
    "minimax": {
      "baseUrl": "https://api.minimax.chat/v1",
      "apiKey": "你的key",
      "api": "openai-completions"
    }
  }
}

模型 ID 直接填 MiniMax-M2.7,上下文官方说是 1M tokens,输出上限 16K。这个参数在国产模型里算比较猛的了,毕竟 Qwen3-max 也就 262K 上下文。

接入后跑了一下连通测试,响应速度还行,平均 2-3 秒出结果,比 GLM-5 略快一点,和 Qwen3.5-plus 差不多。

推理任务:确实有点东西

我先用几个代码生成任务测了一下。

测试 1:写一个 Python 分布式锁实现

这个任务不算特别复杂,但需要考虑并发场景下的边界条件。

M2.7 给出的代码结构挺清晰:

import redis
import time
import uuid

class DistributedLock:
    def __init__(self, redis_client, lock_name, expire_time=10):
        self.redis = redis_client
        self.lock_name = lock_name
        self.expire_time = expire_time
        self.identifier = str(uuid.uuid4())
    
    def acquire(self, retry_times=3, retry_delay=0.2):
        for _ in range(retry_times):
            if self.redis.set(self.lock_name, self.identifier, nx=True, ex=self.expire_time):
                return True
            time.sleep(retry_delay)
        return False
    
    def release(self):
        script = """
        if redis.call("get", KEYS[1]) == ARGV[1] then
            return redis.call("del", KEYS[1])
        else
            return 0
        end
        """
        return self.redis.eval(script, 1, self.lock_name, self.identifier)

注意它用了 Lua 脚本保证释放锁的原子性,这个细节很多模型会漏掉。GLM-5 在同样的任务上给出的方案就没考虑到并发释放的问题,可能会出现误删别人的锁的情况。

测试 2:解释一段复杂的业务逻辑代码

扔了一段 200 多行的老旧 Java 代码给它,里面有各种继承、代理、反射。M2.7 花了大约 5 秒,给出了一个挺完整的调用链分析,还指出了几个潜在的空指针风险点。

这个表现比 GPT-4o-mini 好一些,后者经常只给出一个笼统的概述,然后让你自己去看。

总的来说,代码和逻辑类任务上,M2.7 确实有点实力。 不一定是最强的,但在国产模型里能排进前三。

创意写作:有点拉胯

然后我测了几个内容生成任务,这块的表现就不太理想了。

任务:写一篇公众号文章,主题是「Claude降智背后:AI公司正在看人下菜碟」

同样的主题,我之前用 GLM-5 写了一篇,开头是这样的:

"昨天凌晨两点,我还在给一个 Side Project 改代码。本来一切都挺顺的,Claude 3.5 Sonnet 写代码那叫一个丝滑..."

代入感挺强,像真人在讲故事。

M2.7 给出的开头:

"前两天有个读者在群里吐槽,说他订阅的 Claude 3 Opus 最近像是被'夺舍'了..."

还行,但更离谱的是它的标题:"你的测试问题集"

这什么玩意儿?一眼 AI 生成的痕迹。好像它把某个内部测试 prompt 的开头当成了文章标题。

我又跑了一次,换个主题,标题变成了「这是一个故意设计得有点"坏"的 Prompt」。

这种感觉就很明显了:M2.7 不太理解"标题"这个概念在中文内容创作里的意义。 它更像是在执行一个任务,而不是在创作。

对比了一下用 GLM-5 生成的几篇文章,标题风格是这样的:

  • 「Claude 3.5 变傻了?别天真了,AI 公司正在对你"看人下菜碟"」
  • 「国产大模型崛起:MiniMax M2.7 能打赢 GPT-5 吗?」

这种标题一看就是人写的,有观点、有情绪、有传播性。

我大概跑了 5 次,M2.7 的标题每次都像测试文本。内容质量还行,但标题这块明显是短板。

和其他国产模型比一比

我这段时间测了几个国产大模型,简单说一下感受:

模型 推理能力 创意写作 响应速度 成本
MiniMax-M2.7 ⭐⭐⭐⭐ ⭐⭐ ⭐⭐⭐⭐ 中等
GLM-5 ⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐
Qwen3.6-plus ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐ 中等
Kimi-k2.5 ⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ 中等

GLM-5 在内容创作上明显更强,标题、开头、叙事节奏都更像人写的。Qwen3.6-plus 综合能力最好,推理和写作都不拉胯。Kimi 的长上下文是个亮点,但整体能力中规中矩。

M2.7 的定位更像是个"理科生":代码写得好,逻辑理得清,但让它写篇文章,就像让数学老师去教语文,有点不对路。

适合什么场景?

基于这些测试,我觉得 M2.7 比较适合这些场景:

推荐使用:

  • 代码生成和重构
  • Bug 定位和修复
  • 复杂逻辑的代码解释
  • 算法实现
  • 技术方案评审

不太推荐:

  • 公众号文章、营销文案
  • 创意型写作
  • 需要"人味儿"的内容输出

如果你是做技术开发的,日常要处理大量代码任务,M2.7 可以作为一个不错的选项。它比 GPT-4o-mini 更理解中文开发者的语境,比 GLM-5 更擅长复杂逻辑。

但如果你是做内容运营的,需要写公众号、写产品文案,那还是用 GLM-5 或 Qwen 更靠谱。毕竟,让推理模型去写情感类文章,就像让博士去写公众号鸡汤——能力是有的,但味道不对。

小结

MiniMax M2.7 是个有特点的模型,不是那种"什么都行但什么都不突出"的平庸选手。它的推理能力值得肯定,代码生成质量在国产模型里算上游水平。但创意写作这块明显是短板,至少从我几天的测试来看,还不太适合内容创作类场景,也可能我的样本比较少,不代表模型的真实能力,欢迎大家指正批评。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐