深圳市添添有彩科技有限公司

NVIDIA Volta架構面世英偉達産品叠代爲啥這(zhè)麽快(kuài)！

日期：2017-05-16 12:22:55 / 點擊： 684

收藏
評論（0）

NVIDIA Volta架構，一個(gè)在幾年前便已經被曝光(guāng)的(de)次世代架構，于上周的(de)GTC 2017大(dà)會上正式與大(dà)家見面。正如老黃(huáng)去年所說的(de)，NVIDIA未來(lái)會大(dà)幅提高(gāo)産品的(de)叠代速度以推動GPU界的(de)發展，Volta架構的(de)發布時(shí)間正好距Pascal架構的(de)發布過了(le)一年。在這(zhè)短短的(de)一年時(shí)間裏，老黃(huáng)将整個(gè)Pascal家族悉數抖落，以大(dà)家最熟悉的(de)GeForce系列遊戲卡爲例，從GT 1030到GTX 1080 Ti可(kě)謂是高(gāo)中低檔應有盡有，比Maxwell 2家族的(de)集體亮相整整快(kuài)了(le)約一年。下(xià)面就随嵌入式小編一起來(lái)了(le)解一下(xià)相關内容吧。

NVIDIA Volta架構面世英偉達産品叠代爲啥這(zhè)麽快(kuài)！

爲什(shén)麽NVIDIA能夠做(zuò)到短短一年便推出新架構産品?因爲與AMD的(de)拖延相比，NVIDIA嚴格按照(zhào)自家的(de)産品路線圖發布産品，雖然受限于HBM顯存的(de)産能，NVIDIA在Maxwell和(hé)Volta之間加了(le)一個(gè)Pascal作爲過渡，但Pascal的(de)表現卻不敷衍，完全稱得(de)上是GPU史上的(de)一個(gè)裏程碑，因爲NVIDIA的(de)Pascal顯卡讓GPU的(de)頻(pín)率首次突破2GHz大(dà)關，在超頻(pín)大(dà)師的(de)手中甚至可(kě)以超過3GHz，追上了(le)CPU的(de)主頻(pín)，這(zhè)在以前是完全不敢想象的(de)。

NVIDIA Volta架構面世英偉達産品叠代爲啥這(zhè)麽快(kuài)！

采用(yòng)Volta架構的(de)首款産品是NVIDIA Xavier SOC

現在GPU講究的(de)是能耗比，不再像以前一樣單純追求絕對(duì)性能，而采用(yòng)了(le)TSMC全新12nm的(de)Volta讓我們看到了(le)能耗比的(de)新高(gāo)度：首發産品Tesla V100同P100相比，在TDP同爲300W的(de)情況下(xià)，單精度浮點運算(suàn)性能提升了(le)41.5%，實際HPC應用(yòng)性能提升了(le)40-70%，憑借架構中新引入的(de)Tensor單元，在深度學習(xí)方面的(de)性能甚至可(kě)以達到後者的(de)12倍!

NVIDIA Volta架構面世英偉達産品叠代爲啥這(zhè)麽快(kuài)！

NVIDIA Tesla V100

我們上周在第一時(shí)間報道了(le)有關Tesla V100的(de)相關消息，但大(dà)家能看到的(de)隻是諸如815平方毫米的(de)核心面積、210億個(gè)晶體管、5120個(gè)CUDA核心、15TFLOPS單精度性能這(zhè)樣的(de)專業數據，但我相信大(dà)家都很好奇Volta同Pascal相比究竟有了(le)哪些設計方面的(de)提升和(hé)改變，接下(xià)來(lái)吉吉我就用(yòng)相對(duì)通(tōng)俗易懂(dǒng)的(de)語言來(lái)給大(dà)家細細道來(lái)，讓大(dà)家看看老黃(huáng)的(de)“新核彈”究竟是怎樣一個(gè)構造。

外觀：PCI-E版身材迷你

同采用(yòng)Pascal架構的(de)Tesla P100一樣，Volta P100也(yě)有2種版本，一種是用(yòng)在DGX-1上的(de)NVLink版，還(hái)有一種是标準的(de)PCI-E版，兩種版本的(de)規格是一模一樣的(de)。首先我們看一下(xià)NVLink版的(de)V100和(hé)P100對(duì)比：

上圖爲Tesla V100，下(xià)圖爲Tesla P100

由于V100和(hé)P100的(de)TDP均爲300W，并且都是使用(yòng)了(le)16GB的(de)HBM2顯存，所以NVLink版的(de)PCB的(de)設計幾乎是一模一樣的(de)，僅僅是料件型号和(hé)排布上有些微區(qū)别。另外，需要強調的(de)是，V100使用(yòng)的(de)是全新的(de)NVLink 2接口，比NVLink多(duō)了(le)2組通(tōng)道，雙向總帶寬達300GB/s，比NVLink提升了(le)87.5%。接下(xià)來(lái)我們看一下(xià)PCI-E版的(de)對(duì)比：

上圖爲Tesla V100，下(xià)圖爲Tesla P100

PCI-E版的(de)Tesla V100同P100相比，體積可(kě)謂是大(dà)大(dà)縮小，不僅從雙槽厚度變成了(le)單槽，PCB也(yě)從标準長(cháng)度縮到了(le)巴掌大(dà)小，比NVLink版的(de)大(dà)不了(le)多(duō)少。真是不知道老黃(huáng)是如何做(zuò)到用(yòng)這(zhè)麽“寒酸”的(de)被動散熱(rè)壓制住TDP高(gāo)達300W的(de)“性能巨獸”的(de)，隻能期待NVIDIA後續的(de)詳細介紹了(le)。

如果不出意外，NVIDIA未來(lái)還(hái)會推出基于GV100核心的(de)Quadro顯卡，到時(shí)候不知道在外觀上是否會采用(yòng)Quadro GP100的(de)渦輪式散熱(rè)器，當然據吉吉我推測，可(kě)能性是很大(dà)的(de)。

規格：晶體管數量史上之最

Volta架構的(de)首款産品Tesla V100采用(yòng)12nm FFN工藝，核心代号GV100，核心面積爲驚人(rén)的(de)815平方毫米，共包含211億個(gè)晶體管。GV100核心共有5120個(gè)CUDA處理(lǐ)器，運算(suàn)單元數量爲80個(gè)，核心頻(pín)率爲1455MHz，搭載4096-bit 16GB HBM2顯存，單精度浮點性能高(gāo)達驚人(rén)的(de)15 TFLOPS，雙精度浮點7.5 TFLOPS，顯存帶寬900GB/s。

NVIDIA曆代大(dà)核心計算(suàn)卡參數對(duì)比

Tesla V100首次使用(yòng)了(le)TSMC的(de)12nm FFN工藝，該工藝其實是TSMC自家16nm FFC工藝的(de)改進版，性能是後者的(de)1.1倍，功耗隻有後者的(de)70%，核心面積則可(kě)以縮小20%。憑借更爲先進的(de)工藝，Tesla V100的(de)計算(suàn)單元數量增加了(le)43%，但核心面積卻隻增加了(le)33%。

身材堪比Nano的(de)Tesla V100

計算(suàn)單元增加了(le)43%，但理(lǐ)論單精度性能隻增加了(le)42%，這(zhè)說明(míng)同Pascal相比，Volta的(de)性能提升靠的(de)就是計算(suàn)單元的(de)增加，而不像從Maxwell進化(huà)到Pascal那樣因工藝提升頻(pín)率激增而帶來(lái)的(de)性能質的(de)飛(fēi)躍。說到頻(pín)率，從上表可(kě)以看出V100的(de)頻(pín)率照(zhào)比P100略有下(xià)降，其可(kě)能的(de)原因有兩個(gè)，一是由于規模大(dà)幅增加，爲了(le)控制功耗而輕微降頻(pín);二是12nm FFN工藝在性能上照(zhào)比成熟的(de)16nm FinFET Plus工藝略有差距，所以頻(pín)率達不到這(zhè)麽高(gāo)的(de)數值。

核心面積高(gāo)達815平方毫米

此外，Tesla V100的(de)二級緩存及寄存器大(dà)小也(yě)有所增加，L2緩存由Tesla P100的(de)4MB增加到了(le)6MB，每組SM單元的(de)寄存器文件大(dà)小總數從14MB增加到了(le)20MB。顯存方面，使用(yòng)的(de)HBM2的(de)位寬及容量都沒變化(huà)，還(hái)是16GB 4096-bit，不過頻(pín)率有所提升，帶寬從前代的(de)720GB/s提升到了(le)900GB/s，更接近HBM 2顯存1024GB/s的(de)理(lǐ)論值。

架構：爲AI設計的(de)Tensor單元

從架構整體設計上看，Volta核心同Pascal和(hé)Maxwell一樣，采用(yòng)了(le)6組GPC的(de)設計，隻不過是每組GPC内的(de)SM單元呈遞進式增長(cháng)：Maxwell每組GPC的(de)内部有8組SM單元，Pascal增加到10組，而最新的(de)Volta則是增加到14組。有一點需要說明(míng)，由于單雙精度比的(de)不同，GP100核心每組SM單元内的(de)CUDA核心數量與GP102是不同的(de)，前者爲64個(gè)，後者爲128個(gè)，所以我們隻看GP100。

GV100核心架構圖

GV100同GP100每組SM單元内的(de)CUDA數量一樣，均爲64個(gè)，而CUDA處理(lǐ)器的(de)總數理(lǐ)應爲64*14*6=5376個(gè)，但GV100核心的(de)CUDA處理(lǐ)器數量爲5120個(gè)，少了(le)的(de)256個(gè)正是因爲NVIDIA關閉了(le)4組SM單元，這(zhè)一做(zuò)法同GP100如出一轍。

GP100核心架構圖

前面說到的(de)64是FP32單精度運算(suàn)單元數量，在單雙精度單元數量比上，GV100同GP100一樣爲2:1，也(yě)就是說每組SM單元中有32個(gè)FP64雙精度單元，理(lǐ)論值應爲32*14*6=2688個(gè)，但由于關閉了(le)4組SM單元，所以總數爲2560個(gè)。

Tensor單元工作流程圖

由于NVIDIA現在已經轉型爲一家AI公司，因此其GPU産品也(yě)開始著(zhe)力于AI、DP等領域的(de)優化(huà)發掘，在Pascal中NVIDIA開始強調FP16半精度，因爲深度學習(xí)對(duì)精度的(de)要求并不高(gāo)，甚至FP8就夠了(le)，其更需要的(de)是更強大(dà)的(de)運算(suàn)性能。在Volta中，NVIDIA帶來(lái)了(le)革命性的(de)Tensor運算(suàn)單元，該單元是繼FP16和(hé)FP8後爲AI設計的(de)全新利器。其能夠提供高(gāo)達120 TFLOPS的(de)超強運算(suàn)性能，而且效率高(gāo)且非常省電。

V100中SM單元設計

在GV100核心中，每組SM單元中包含8個(gè)Tensor單元，其能夠提供高(gāo)達120 TFLOPS的(de)超強運算(suàn)性能。相比于在P100的(de)FP32單元上，Tesla V100的(de)深度學習(xí)訓練能力是前者的(de)12倍，而相比于在P100的(de)FP16單元的(de)深度學習(xí)推理(lǐ)能力上，V100是前者的(de)6倍。

性能：DP方面能力提升迅猛

由于Volta同Pascal相比架構僅僅是小幅改動，因此V100的(de)理(lǐ)論性能提升同P100相比僅僅是規格增加而帶來(lái)的(de)，但實際運行方面，其提升還(hái)是相對(duì)可(kě)觀的(de)，尤其是人(rén)工智能和(hé)深度學習(xí)能力。首先我們來(lái)看一下(xià)在HPC運算(suàn)方面的(de)性能提升：

Volta HPC應用(yòng)性能提升

官方給出了(le)V100與P100在6款HPC應用(yòng)中的(de)性能對(duì)比，其中最低增長(cháng)了(le)42%左右，最高(gāo)增長(cháng)了(le)76%左右，平均提升幅度約爲50%，可(kě)見提升還(hái)是比較明(míng)顯的(de)，但我們也(yě)能看出，由于V100的(de)頻(pín)率與P100基本相當，所以實際性能并沒有從M40到P100那種翻天覆地的(de)提升。接下(xià)來(lái)我們看看Tensor單元的(de)引入會對(duì)V100的(de)深度學習(xí)性能帶來(lái)怎樣的(de)影(yǐng)響：

ResNet-50深度神經網絡訓練任務中的(de)速度對(duì)比

從圖中可(kě)以看出，Tesla V100使用(yòng)Tensor單元在ResNet-50深度神經網絡訓練任務中的(de)速度是Tesla P100使用(yòng)FP32單元進行運算(suàn)的(de)2.4倍;如果每張圖像的(de)目标延遲是7ms，那麽Tesla V100使用(yòng)Tensor核心在ResNet-50深度神經網絡進行推理(lǐ)的(de)速度是使用(yòng)FP16單元的(de)P100的(de)3.7倍(參與測試的(de)V100爲原型卡)。

Tesla V100 Tensor單元和(hé)CUDA 9對(duì)GEMM運算(suàn)的(de)性能提升

矩陣-矩陣乘法運算(suàn)(BLAS GEMM)是神經網絡訓練和(hé)推理(lǐ)的(de)核心，被用(yòng)來(lái)獲得(de)輸入數據和(hé)權重的(de)大(dà)型矩陣的(de)乘積。從上圖我們可(kě)以看出，相比于基于Pascal的(de)GP100，Tesla V100中的(de)Tensor單元把這(zhè)些運算(suàn)的(de)性能最高(gāo)提升了(le)8倍多(duō)。

不同平台深度學習(xí)訓練時(shí)間對(duì)比

還(hái)是得(de)益于Tensor單元強大(dà)的(de)實力，8路V100的(de)深度學習(xí)訓練時(shí)間僅爲8路P100的(de)三分(fēn)之一左右，而雙路E5 2699V4的(de)耗時(shí)是8路V100的(de)56倍，這(zhè)種差距是非常懸殊的(de)。

以上就是Volta架構分(fēn)析的(de)全部内容，其主要特性無非爲三點：1、史上最大(dà)規模的(de)GPU;2、首款采用(yòng)12nm工藝的(de)GPU;3、全新加入的(de)Tensor單元讓GV100的(de)DP性能達到了(le)史無前例的(de)新高(gāo)。在GTC 2017大(dà)會上，老黃(huáng)表示NVIDIA在研發Tesla V100的(de)過程中投入了(le)30億美(měi)元的(de)巨資，這(zhè)是迄今爲止NVIDIA投資的(de)最大(dà)的(de)單個(gè)項目，比Pascal還(hái)多(duō)花了(le)10億刀(dāo)。這(zhè)30億刀(dāo)讓NVIDIA整整領先了(le)AMD一代，AMD這(zhè)邊甭說Navi，就連Vega也(yě)遲遲不見蹤影(yǐng)，正是如此，NVIDIA在下(xià)半年還(hái)不準備放出消費級的(de)Volta，就讓我們期待明(míng)年初的(de)消費級Volta吧，4K被徹底征服不是夢。

以上是關于嵌入式中-NVIDIA Volta架構面世英偉達産品叠代爲啥這(zhè)麽快(kuài)！的(de)相關介紹，如果想要了(le)解更多(duō)相關信息，請多(duō)多(duō)關注eeworld，eeworld電子工程将給大(dà)家提供更全、更詳細、更新的(de)資訊信息。

上一篇：威聯通(tōng)獨家首創Qsirch快(kuài)速搜索NAS内文件下(xià)一篇：

新聞中心

NVIDIA Volta架構面世 英偉達産品叠代爲啥這(zhè)麽快(kuài)！

NVIDIA Volta架構面世英偉達産品叠代爲啥這(zhè)麽快(kuài)！