2026/6/20 18:14:29

GLM-5.2 强到能冒充 Claude:架构师视角拆解国产开源模型战力

GLM-5.2 强到能冒充 Claude:架构师视角拆解国产开源模型战力 文章目录前言一、Fable 5 被禁与 GLM-5.2 的窗口期:一个被记录的 72 小时二、KingBench 3 排行 + 5 项编程实测:GLM-5.2 真实战力三、1M 上下文 + 8 小时 Agentic:两个改变使用方式的硬通货1. 1M 上下文:从"切分喂"到"整本扔进去"2. Agentic Coding:能自己跑 8 小时四、市场不会说谎:中转站冒充是 GLM 战力的最硬证据五、唯一的破绽:GLM-5.2 是"瞎子"六、把 GLM-5.2 放到国产开源模型的演化线上看七、GLM-5.2 vs Claude vs GPT-5.5:架构师视角的横向对比八、从架构师视角看 GLM-5.2 落地的几个工程取舍九、给一线技术人的 GLM-5.2 切换决策清单1. 这周可以做的:跑一次最小验证2. 这个月可以做的:把团队最痛的非视觉任务切到 GLM-5.2 试点3. 这个季度可以做的:建立团队级双模型路由规范4. 长期需要建立的:从「闭源全家桶依赖」转向「开源多模型组合」的能力总结前言这两天技术圈被一篇稿子刷屏了——标题叫《GLM-5.2 强到了什么程度?它能冒充 Claude,而你看不出来》。讲的是智谱 6 月开源的 GLM-5.2,在纯文本编程任务上已经追到了 Anthropic 旗舰 Claude 一个身位以内,狠到塞进中转站贴上 Claude 标签,普通用户察觉不出来。说实话,看到这种"国产模型又追上了"的论调,我第一反应是抵触的。过去两年这类稿子太多,每次都是"对标 GPT-4"“逼平 Claude”,真用起来还是写个 README 都得改三轮。 benchmark 排行榜刷得再高,落到生产环境里的体感差距,谁用谁知道。但这次把原文、KingBench 3 排行榜、中转站实测数据都扒了一遍之后,我的判断变了。这不是又一篇"国产模型赢了"的公关稿,是市场已经用脚投了票——GitHub 上的中转站评测指南直接写"有的站长拿低价模型(如 GLM)冒充 Claude",B 站专门出了"如何识别你买的 Claude 是真是假"的教学视频。一个"教你怎么不被骗"的品类能成立,说明被骗的人已经多到形成市场了。这种事不会发生在差距明显的两个模型之间。核心观点先放这儿:GLM-5.2 在纯文本 coding 上已经追到 Claude 一个身位以内,"国产开源不行"这个默认假设可以扔了;但它的两个物理短板——不支持视觉输入、API 算力下午紧张——决定了它没法全面替代 Claude,选型要看场景。本文不写"国产模型又赢了"的鸡汤,从架构师视角拆三件事:GLM-5.2 真实战力到哪了、中转站冒充现象说明了什么、什么场景该切什么场景别切。