AWS新一代G3实例分析

背景

AWS在今年7月份推出了新一代的GPU实例G3, 主要面向3D 可视化、图形密集型远程工作站、3D 渲染、应用程序流式处理、视频编码以及其他服务器端图形工作负载。该实例的主要卖点主要强调了对NVidia Grid Workstagion的支持：

启用 NVIDIA GRID 虚拟工作站功能，其中包括支持分辨率高达 4096x2160 的 4 台监控器。实例中包含的每个 GPU 均已针对一位“并行连接用户”进行授权。
每个 GPU 均配备板载硬件视频编码器，旨在支持多达 10 个 H.265 (HEVC) 1080p30 流和多达 18 个 H.264 1080p30 流，从而实现低延迟帧捕获和编码并带来高品质的流式互动体验。

G3提供三种不同的配置，具体规格如下：

CPU

G3采用Intel Xeon E5-2686 v4 (Broadwell) 处理器，这应该是AWS专门定制的一款处理器，根据wikichip 的数据，这款CPU有18核心36线程，主频2.3G, Turbo到2.7G。

网络

4xlarge: 10G共享
8xlarge: 10G独享
16xlarge: ENA 20G独享

服务器

2P服务器，一共36核心72线程.
Dom 0预留72-64=8线程.
插2块全宽M60卡，每卡2显示核心。
至少1块Intel 10G网卡和1块ENA 20G网卡。
G3实例不支持本地磁盘

显卡

M60目前在淘宝上售价是¥23500.00，作为参考，该网站的p100报价是¥33800.00。

M60的单精度性能为7.4TFLOPS，不支持双精度(或者可以忽略), 也不支持INT8; 作为对比，P100的单精度性能约10 TFLOPS，双精度约5 TFLOPS, 再考虑到P100超高的显存带宽，M60卡如果用来做AI的性价比实在是太差了，这也是AWS将G3实例定位为桌面图形图像渲染的主要原因。

每个M60核心均配备板载硬件视频编码器，旨在支持多达 10 个 H.265 (HEVC) 1080p30 流和多达 18 个 H.264 1080p30 流。

M60是一块全宽的pciex16卡，每卡有两个核心，根据AWS的实例规格推断，这样刚好可以完成实例向服务器的完美装箱。

8xlarge: 1显示核心
16xlarge: 2显示核心(1卡)
32xlarge: 4显示核心(2卡）

NVIDIA GRID

目前pascal架构的N卡还不支持grid, 所以M60是当前性能最好的能支持grid的N卡。我简单的总结了下Nvida Grid技术的特点：

支持GPU虚拟化，允许多用户。Grid 4.x仅支持按显存切分，最小支持512M显存，即一个M60 (16G)可以支持最多32个虚拟机，每个vGPU都共享所有的stream multiprocessor(SM)。
支持Grid驱动，但是需要单独购买license, 很多桌面软件(pcoip, citrix…)和桌面软件可以通过该驱动进行server side渲染，正如G3实例所宣传的：

启用 NVIDIA GRID 虚拟工作站功能，其中包括支持分辨率高达 4096x2160 的 4 台监控器。实例中包含的每个 GPU 均已针对一位“并行连接用户”进行授权。

AWS没有采用Grid虚拟化来把GPU切分为更小的颗粒，G3实例的价格已经包含了GRID的license费用, 不知道是不是因为每个grid的license太贵，切小了反而性价比下降；也有可能是由于AWS销售的桌面形态是Windows Server, 而Windows Server本身已经包括了多用户访问，不像Win7, Win10等桌面，必须采用VDI虚拟化方式。

AWS新一代G3实例分析

背景

CPU

网络

服务器

显卡

NVIDIA GRID

NVidia Grid的产品类型和差异：

FEATURED TAGS