36氪 · 站内详情

Token大战中,华为云选择了第三条路|最前线

2026/6/5 16:28:25 · 基础设施 / 国内 AI

作者 | 邓咏仪 编辑 | 张雨忻 “在当前国产化算力正在成长的情况下,华为云现在不太在乎Token总量是多少,也不太在乎收入的总量是多少,在乎的是国产化的算力系统所生产出来的Tokens的健康度,并且要代表着生产力提升,而不仅仅是情绪价值。” 6月5日,2026华为云 INSP...

来源
36氪
时间
2026/6/5 16:28:25
标签
基础设施 / 国内 AI
分类
AI 基础设施

正文

作者 | 邓咏仪

编辑 | 张雨忻

“在当前国产化算力正在成长的情况下,华为云现在不太在乎Token总量是多少,也不太在乎收入的总量是多少,在乎的是国产化的算力系统所生产出来的Tokens的健康度,并且要代表着生产力提升,而不仅仅是情绪价值。”

6月5日,2026华为云 INSPIRE 创想者大会在上海开幕,华为云CEO周跃峰表示。

他举了个例子:一个人闲来无事在手机上问 AI 一个问题,也会产生 Token,但这种 Token 的价值有多大很难说明。在他看来,衡量一朵云做得好不好,不该强调它跑出了多少万亿 Token,而该看这些 Token 替企业提了多少效率。

华为云CEO周跃峰

过去两年,中国云厂商围绕 Token 打了一场旷日持久的价格战:2024年5月,在DeepSeek V2打响降价的第一枪后,火山引擎豆包以0.0008元/千 Token 的定价点燃战火,而后阿里,百度、腾讯、讯飞相继入场,自此开始了模型厂商的第一场战事。

这套打法的内核,是用低价模型引流、带动背后的公有云销售,代价则是推理算力的毛利率一度被压到为负。一直到DeepSeek R1打开推理时代范式之后,Coding和视频模型再度激起了真正的Token大战。

而在这次发布会上,华为云这次并没有出降价牌,而是提出一个名为“Agentic Infra”的新范式,瞄准国产算力。所有人都比谁的Token更便宜、谁的调用量更大时,华为云在 Token 经济中选的第三条路——不拼单价和调用量,赌的是国产算力的自主可控,以及是否能够帮助企业提升真实的生产力。

不打价格战,把 Token 工厂建在国产硬件上

要达到 Agentic Infra的建设目标,华为云端出了一整套底层设施。

而要具体拆解华为云所定义的Agentic Infra,则包括四个方面:高效的Token 工厂、可持续学习、通智一体化调度、安全自治,华为云也对应发布了四款新品。

最核心的是 AICS 灵衢智算集群。它基于灵衢网络,支持10万卡级集群规模,总算力200EFLOPS,把 Token 生成时延压到10毫秒以内,千卡每秒吞吐达到500万 Token,在线服务可用性99.95%——华为云称之为“Token 工厂”。

而配套的 CCE Volcano Next 调度引擎,则通过“训推共池+碎片整合”的形式,把通用算力和智能算力混合调度,使得资源利用率能提升30%以上;AMS 记忆存储方案用 NPU 直通硬件做出 PB 级记忆空间,AgentSphere 则提供100毫秒级启动的智能体安全运行环境。

而在模型层面,华为云同步发布了新一代训推平台 ModelArts Next。其中,MaaS 模型路由能够按请求特征,自动调度最合适的模型,目前接入15余款 SOTA 模型,官方称调度精准率超过95%、调用成本平均降低20%。

华为云也在在自己优势的企业场景,推出了一系列客户刚需的功能。比如,ModelArts Next还将强化学习封装成企业级 RLaaS 服务,并提供机密推理能力,让金融、编码等高敏感场景的数据“只进不出”。

之所以能够通过这套基础设施走出第三条路,前提在昇腾生态。今年初 DeepSeek 爆火时,华为云与硅基流动曾在昇腾 CloudMatrix 384超节点上部署 DeepSeek-R1/V3,当时的推理效率可追平英伟达 H800。这意味着,国产算力已经能在主流大模型的推理上拿出可用的性能。

从算力底座到行业落地,押注“最开放的云”

来源说明

本站展示来自正式来源同步的内容摘录与本地观察,不默认跳转外网;需要核验上下文时可查看来源记录。