36氪 · 站内详情

Token大战中，华为云选择了第三条路｜最前线

2026/6/5 16:28:25 · 基础设施 / 国内 AI

作者 | 邓咏仪编辑 | 张雨忻 “在当前国产化算力正在成长的情况下，华为云现在不太在乎Token总量是多少，也不太在乎收入的总量是多少，在乎的是国产化的算力系统所生产出来的Tokens的健康度，并且要代表着生产力提升，而不仅仅是情绪价值。” 6月5日，2026华为云 INSP...

正文

作者 | 邓咏仪

编辑 | 张雨忻

“在当前国产化算力正在成长的情况下，华为云现在不太在乎Token总量是多少，也不太在乎收入的总量是多少，在乎的是国产化的算力系统所生产出来的Tokens的健康度，并且要代表着生产力提升，而不仅仅是情绪价值。”

6月5日，2026华为云 INSPIRE 创想者大会在上海开幕，华为云CEO周跃峰表示。

他举了个例子：一个人闲来无事在手机上问 AI 一个问题，也会产生 Token，但这种 Token 的价值有多大很难说明。在他看来，衡量一朵云做得好不好，不该强调它跑出了多少万亿 Token，而该看这些 Token 替企业提了多少效率。

华为云CEO周跃峰

过去两年，中国云厂商围绕 Token 打了一场旷日持久的价格战：2024年5月，在DeepSeek V2打响降价的第一枪后，火山引擎豆包以0.0008元/千 Token 的定价点燃战火，而后阿里，百度、腾讯、讯飞相继入场，自此开始了模型厂商的第一场战事。

这套打法的内核，是用低价模型引流、带动背后的公有云销售，代价则是推理算力的毛利率一度被压到为负。一直到DeepSeek R1打开推理时代范式之后，Coding和视频模型再度激起了真正的Token大战。

而在这次发布会上，华为云这次并没有出降价牌，而是提出一个名为“Agentic Infra”的新范式，瞄准国产算力。所有人都比谁的Token更便宜、谁的调用量更大时，华为云在 Token 经济中选的第三条路——不拼单价和调用量，赌的是国产算力的自主可控，以及是否能够帮助企业提升真实的生产力。

要达到 Agentic Infra的建设目标，华为云端出了一整套底层设施。

而要具体拆解华为云所定义的Agentic Infra，则包括四个方面：高效的Token 工厂、可持续学习、通智一体化调度、安全自治，华为云也对应发布了四款新品。

最核心的是 AICS 灵衢智算集群。它基于灵衢网络，支持10万卡级集群规模，总算力200EFLOPS，把 Token 生成时延压到10毫秒以内，千卡每秒吞吐达到500万 Token，在线服务可用性99.95%——华为云称之为“Token 工厂”。

而配套的 CCE Volcano Next 调度引擎，则通过“训推共池+碎片整合”的形式，把通用算力和智能算力混合调度，使得资源利用率能提升30%以上；AMS 记忆存储方案用 NPU 直通硬件做出 PB 级记忆空间，AgentSphere 则提供100毫秒级启动的智能体安全运行环境。

而在模型层面，华为云同步发布了新一代训推平台 ModelArts Next。其中，MaaS 模型路由能够按请求特征，自动调度最合适的模型，目前接入15余款 SOTA 模型，官方称调度精准率超过95%、调用成本平均降低20%。

华为云也在在自己优势的企业场景，推出了一系列客户刚需的功能。比如，ModelArts Next还将强化学习封装成企业级 RLaaS 服务，并提供机密推理能力，让金融、编码等高敏感场景的数据“只进不出”。

之所以能够通过这套基础设施走出第三条路，前提在昇腾生态。今年初 DeepSeek 爆火时，华为云与硅基流动曾在昇腾 CloudMatrix 384超节点上部署 DeepSeek-R1/V3，当时的推理效率可追平英伟达 H800。这意味着，国产算力已经能在主流大模型的推理上拿出可用的性能。

本站展示来自正式来源同步的内容摘录与本地观察，不默认跳转外网；需要核验上下文时可查看来源记录。