36氪深度文章 · 站内详情

基流科技:实现GPU集群长距离联网联训世界级创新

2026/6/5 17:04:21 · 基础设施

基流科技获Pre-A轮融资,做开放算力网络提供商。

来源
36氪深度文章
时间
2026/6/5 17:04:21
标签
基础设施
分类
AI 基础设施

正文

以下文章来源于 Z计划支持大模型创业

基流科技在今年年初完成了 Pre-A 轮融资,由光速光合领投。

此前,「基流科技」曾先后获得来自奇绩创坛、微梦传媒、卓源亚洲、水木清华校友基金、智谱 AI、卓源资本、方信资本、启迪之星创投及知名战投方投资。

基流科技是一家开放算力网络提供商,基流科技的产品包括 GPU-RDMA 网络通信框架及高速无损网络交换机等。

基流科技的网络通信方案可以提升超 20%的性能,在千卡环境中节省成本上千万元,在万卡环境中节省数亿元。

打造高算力超级系统

1967 年,IBM 公司计算机架构师吉恩·阿姆达尔提出了一个经验公式,表明系统性能提升的潜力受到系统中可并行化部分的限制,即使并行处理器的数量无限增加,整体性能提升的上限也受到很大程度的制约。

简单来说,算力集群的计算速度并不能随着 GPU 数量的增长而无限叠加,就像 1 个人 10 天可以盖一栋房子,10 个人只需要 1 天,但 100 个人仍然需要 1 天的时间——其他 90 个人可能因为挤不进工地只能闲着。

训练大模型也是这样。据 Gartner 的一份报告称, GPT-3.5 的训练过程中,使用了由一万个英伟达 A100 GPU 组成的高性能算力集群,在 GPT-4 上则提高到了约 25000 个 A100 GPU,但其算力利用率仅为 32%至 36%,算力浪费严重。

基流科技的工作就是设计出一套系统,能够组织几千人,甚至上万人尽可能快地盖好更多房子。

基流科技 CEO 胡效赫表示,基流科技的产品主要面向三个维度,包括算力管控调度平台、算力调优运维平台和高速互联硬件。 目前,公司除了整套算力集群建设解决方案外,在集群管理、计算引擎和高速网络三个层次上都进行了产品化并有逐步落地,帮助 AI 企业将 GPU 合理的组织起来,并尽可能地提高交付效率和 GPU 利用率。

目前,基流科技的算力集群方案可以为 GPU 集群提升超 20%的性能,帮助客户在千卡环境中节省成本上千万元。

聚焦开创性工作,专注大规模计算机系统的建设

在清华一路从本科、博士到博后,胡效赫师从李军研究员,于网络安全实验室进行了十年高性能网络系统研究。

他在加州大学伯克利分校作为访问学者期间曾师从于 Scott Shenker 院士,后者是 SDN 网络的提出者。

他非常精通于分布式计算及高性能网络,在创业前就已经落地了全国首个运营商级 Tbps 可编程网络产品,并在超算环境跑通国产千卡大模型。

专注大规模计算机系统的建设,是胡效赫创业之初就定下的目标。今天基流科技正在开发的,正是针对人工智能设计的分布式 GPU 系统,也被称为算力集群。

“创业一年半以来,基流科技建设了国内最大的私有化单体算力集群。”胡效赫说,“我们打破了行业里很多既定的共识,比如证明 AI 训练并非时延敏感型,而是带宽敏感型;我们跨 30 公里实现了广域网的大模型训练而没有带来算力损失,在跨 50 公里时能保持 98%-99%的算力。”这在世界范围内都是开创性的。

来源说明

本站展示来自正式来源同步的内容摘录与本地观察,不默认跳转外网;需要核验上下文时可查看来源记录。