关于我们

强劲算力,源源动力

GPU虚拟化与池化
发布时间:2023-03-15 20:55:18    来源:吴锡洪

目前来说外界一直在对怎样更大优化地利用好GPU资源进行科学的探索。但是现阶段还是大部分的解决方案都没有解决到最关键的问题。


1、简单虚拟化:直接是把物理GPU服务器按固定比例分切成几个虚拟GPU,每个虚拟GPU的显存是相同的,算力轮询。


2、GPU任意虚拟化:目前依旧是以单机GPU服务器虚拟化为目标,但是可以通过某一些技术手段可以支持物理GPU服务器的从算力和显存两个方面进行灵活切分,可以达到自定义大小,满足AI智能应用场景的不同需求。


3、远程调用:在一些重要技术突破是在于支持GPU服务器的跨节点调用,AI智能应用场景是可以直接可以部署到数据中心的任何一个位置,无论有没有在节点上的GPU服务器。在远程调用这个阶段中,从资源纳管的范围从单个节点扩展到由网络互联起来的整个数据中心,是从GPU服务器虚拟化向GPU服务器资源池化进化重要一个体现。


4、资源池化:很重要点内容是在于按需调用、动态伸缩、用完释放。借助池化能力,AI智能应用场景可以根据不同的负载需求,可以直接调用不同大小的GPU,甚至也可以直接聚合多个物理节点的GPU服务器上,在容器或者虚机创建好之后,依旧是可以直接调整虚拟GPU的数量和大小。而在AI智能应用场景停止的时候,就可以马上释放出GPU资源回到整个GPU资源池,这样可以实现GPU资源高效流转得到充分的利用起来。


从上面分析可以看出,从传统的GPU虚拟化技术或者是GPU切片技术,都还是依旧基于硬件的条件,这样只能够对本地物理机上的GPU进行虚拟切割。而在基于整个数据中心范围的GPU资源池化,不仅可以支持本地GPU虚拟化,而且还能突破了单机资源调度的物理边界,让用户可以直接透明地使用任意物理机上、任意数量的GPU资源,可以达到需灵活调用的状态,可以在用完就立即释放资源,这样可以更好地提升GPU的利用率和业务使用范围度。