大模型需要什么样的智算中心？7位大咖谈AIGC时代算力挑战与风口丨GACS2023

发布日期：2023/10/12 13:51:27 浏览：

U和普惠算力在数智系统中的重要性。随着大模型和智能计算的崛起，传统的算力底座已不再满足需求成为瓶颈，AI大模型应用需要新型算力底座进行支撑。硬件架构突破以CPU为中心的体系，应用维度从芯片内、节点内向系统级分布式异构延伸，CPU GPU DPU FPGA的异构计算成为主流趋势。在新的算力架构中，云、边、端共同构成了多层立体的泛在计算架构，通过与DPU的深度融合，构成新型算力底座。

▲中科驭数高级副总裁张宇

张宇谈道，大带宽、低时延，已成为AI大模型算力底座的核心诉求，而DPU可以提供这两项必须的能力，异构算力、三U一体成为算力底座主流的趋势。他认为对于所有的算力芯片而言，上层软件生态是最重要的，有时甚至会超出芯片本身设计的重要性。

中科驭数践行“IaaSonDPU”，从标准化的基础设施到客制化的业务应用均进行产品布局，历时五年打磨了开放DPU软件开发平台HADOS，具备丰富的算力能力接口，接口数量超过2000个，具有完备的生态兼容能力、多种开发维护工具，支持丰富的应用场景。

七、趋动科技刘渝：在业界率先提出GPU资源池化，软件定义优化AI算力供给

在AI大模型时代，英伟达的高端先进芯片难以采购，价格也是水涨船高。在巨大需求和AI算力供不应求情况下，趋动科技华南区技术总监刘渝认为应该优化GPU，也就是AI芯片和AI算力的供给模式。

传统的供给模式是物理卡挂载给AI应用使用，无论是基于物理机、容器或虚拟机，通过软件对GPU做简单的虚拟化切分，没有办法使算力资源动态满足不同AI应用的弹性需求。AI开发、训练、推理，这些不同的工作任务对于GPU资源的需求是不一样的。

▲趋动科技华南区技术总监刘渝

软件定义AI算力的解决方案，总体来说包含了六大典型应用场景：1、“隔空取物”，进行vGPU资源的远程调用；2、“化零为整”，通过软件进行GPU资源的聚合，节省算法人员的时间；3、“化整为零”，将GPU切分为多份，让多个AI任务叠加使用，比如推理场景；4、“显存扩展”，调用内存补显存；5、“随需应变”，通过软件进行资源动态伸缩，无需重启；6、“动态超卖”，资源高效轮转使用。

刘渝称，趋动科技在业界首提GPU资源池化的定义。趋动科技的OrionXGPU池化（GPUPooling）软件处在驱动程序以上，属于标准化软件；对于AI应用和框架来说，不需要修改任何代码，就可以使用OrionX池化之后的GPU，对于用户来说也不需要改变任何的使用习惯。OrionX对GPU资源进行池化后共享，每人按需动态进行GPU挂载和释放，GPU硬件采购成本平均节省70以上，GPU综合利用率平均提升4倍以上。

结语：算力结构变化催生新型智算中心

正如智一科技联合创始人、CEO龚伦常作为主办方在致辞中所言，在人工智能进入新阶段之后，全球对算力的需求与日俱增。随着社会智能化、数字化快速演进，未来，每个大一点的企业都需要智算中心。

▲智一科技联合创始人、CEO龚伦常

一方面，大模型时代下，传统的算力中心面临着与大模型匹配度较低、缺乏行业统一标准、竖井式发展、缺乏全局协同等多方面的挑战。另一方面，国内企业已经发起冲锋，从基础设施、液冷技术、芯片协同等方面，重新定义新型智算中心，为构建更加健康、高效和可持续的AI生态系统铺设了道路。