新聞中心

當前位置: 主頁> 新聞中心> 公司新聞>

NVIDIA Volta架構面世 英偉達産品叠代爲啥這(zhè)麽快(kuài)!

日期:2017-05-16 12:22:55 / 點擊: 684

 
 

NVIDIA Volta架構,一個(gè)在幾年前便已經被曝光(guāng)的(de)次世代架構,于上周的(de)GTC 2017大(dà)會上正式與大(dà)家見面。正如老黃(huáng)去年所說的(de),NVIDIA未來(lái)會大(dà)幅提高(gāo)産品的(de)叠代速度以推動GPU界的(de)發展,Volta架構的(de)發布時(shí)間正好距Pascal架構的(de)發布過了(le)一年。在這(zhè)短短的(de)一年時(shí)間裏,老黃(huáng)将整個(gè)Pascal家族悉數抖落,以大(dà)家最熟悉的(de)GeForce系列遊戲卡爲例,從GT 1030到GTX 1080 Ti可(kě)謂是高(gāo)中低檔應有盡有,比Maxwell 2家族的(de)集體亮相整整快(kuài)了(le)約一年。下(xià)面就随嵌入式小編一起來(lái)了(le)解一下(xià)相關内容吧。

NVIDIA Volta架構面世 英偉達産品叠代爲啥這(zhè)麽快(kuài)!

爲什(shén)麽NVIDIA能夠做(zuò)到短短一年便推出新架構産品?因爲與AMD的(de)拖延相比,NVIDIA嚴格按照(zhào)自家的(de)産品路線圖發布産品,雖然受限于HBM顯存的(de)産能,NVIDIA在Maxwell和(hé)Volta之間加了(le)一個(gè)Pascal作爲過渡,但Pascal的(de)表現卻不敷衍,完全稱得(de)上是GPU史上的(de)一個(gè)裏程碑,因爲NVIDIA的(de)Pascal顯卡讓GPU的(de)頻(pín)率首次突破2GHz大(dà)關,在超頻(pín)大(dà)師的(de)手中甚至可(kě)以超過3GHz,追上了(le)CPU的(de)主頻(pín),這(zhè)在以前是完全不敢想象的(de)。

NVIDIA Volta架構面世 英偉達産品叠代爲啥這(zhè)麽快(kuài)!

 

采用(yòng)Volta架構的(de)首款産品是NVIDIA Xavier SOC

現在GPU講究的(de)是能耗比,不再像以前一樣單純追求絕對(duì)性能,而采用(yòng)了(le)TSMC全新12nm的(de)Volta讓我們看到了(le)能耗比的(de)新高(gāo)度:首發産品Tesla V100同P100相比,在TDP同爲300W的(de)情況下(xià),單精度浮點運算(suàn)性能提升了(le)41.5%,實際HPC應用(yòng)性能提升了(le)40-70%,憑借架構中新引入的(de)Tensor單元,在深度學習(xí)方面的(de)性能甚至可(kě)以達到後者的(de)12倍!

NVIDIA Volta架構面世 英偉達産品叠代爲啥這(zhè)麽快(kuài)!

 

NVIDIA Tesla V100

我們上周在第一時(shí)間報道了(le)有關Tesla V100的(de)相關消息,但大(dà)家能看到的(de)隻是諸如815平方毫米的(de)核心面積、210億個(gè)晶體管、5120個(gè)CUDA核心、15TFLOPS單精度性能這(zhè)樣的(de)專業數據,但我相信大(dà)家都很好奇Volta同Pascal相比究竟有了(le)哪些設計方面的(de)提升和(hé)改變,接下(xià)來(lái)吉吉我就用(yòng)相對(duì)通(tōng)俗易懂(dǒng)的(de)語言來(lái)給大(dà)家細細道來(lái),讓大(dà)家看看老黃(huáng)的(de)“新核彈”究竟是怎樣一個(gè)構造。

外觀:PCI-E版身材迷你

同采用(yòng)Pascal架構的(de)Tesla P100一樣,Volta P100也(yě)有2種版本,一種是用(yòng)在DGX-1上的(de)NVLink版,還(hái)有一種是标準的(de)PCI-E版,兩種版本的(de)規格是一模一樣的(de)。首先我們看一下(xià)NVLink版的(de)V100和(hé)P100對(duì)比:

 

上圖爲Tesla V100,下(xià)圖爲Tesla P100

由于V100和(hé)P100的(de)TDP均爲300W,并且都是使用(yòng)了(le)16GB的(de)HBM2顯存,所以NVLink版的(de)PCB的(de)設計幾乎是一模一樣的(de),僅僅是料件型号和(hé)排布上有些微區(qū)别。另外,需要強調的(de)是,V100使用(yòng)的(de)是全新的(de)NVLink 2接口,比NVLink多(duō)了(le)2組通(tōng)道,雙向總帶寬達300GB/s,比NVLink提升了(le)87.5%。接下(xià)來(lái)我們看一下(xià)PCI-E版的(de)對(duì)比:

 

 

上圖爲Tesla V100,下(xià)圖爲Tesla P100

PCI-E版的(de)Tesla V100同P100相比,體積可(kě)謂是大(dà)大(dà)縮小,不僅從雙槽厚度變成了(le)單槽,PCB也(yě)從标準長(cháng)度縮到了(le)巴掌大(dà)小,比NVLink版的(de)大(dà)不了(le)多(duō)少。真是不知道老黃(huáng)是如何做(zuò)到用(yòng)這(zhè)麽“寒酸”的(de)被動散熱(rè)壓制住TDP高(gāo)達300W的(de)“性能巨獸”的(de),隻能期待NVIDIA後續的(de)詳細介紹了(le)。

如果不出意外,NVIDIA未來(lái)還(hái)會推出基于GV100核心的(de)Quadro顯卡,到時(shí)候不知道在外觀上是否會采用(yòng)Quadro GP100的(de)渦輪式散熱(rè)器,當然據吉吉我推測,可(kě)能性是很大(dà)的(de)。

規格:晶體管數量史上之最

Volta架構的(de)首款産品Tesla V100采用(yòng)12nm FFN工藝,核心代号GV100,核心面積爲驚人(rén)的(de)815平方毫米,共包含211億個(gè)晶體管。GV100核心共有5120個(gè)CUDA處理(lǐ)器,運算(suàn)單元數量爲80個(gè),核心頻(pín)率爲1455MHz,搭載4096-bit 16GB HBM2顯存,單精度浮點性能高(gāo)達驚人(rén)的(de)15 TFLOPS,雙精度浮點7.5 TFLOPS,顯存帶寬900GB/s。

 

NVIDIA曆代大(dà)核心計算(suàn)卡參數對(duì)比

Tesla V100首次使用(yòng)了(le)TSMC的(de)12nm FFN工藝,該工藝其實是TSMC自家16nm FFC工藝的(de)改進版,性能是後者的(de)1.1倍,功耗隻有後者的(de)70%,核心面積則可(kě)以縮小20%。憑借更爲先進的(de)工藝,Tesla V100的(de)計算(suàn)單元數量增加了(le)43%,但核心面積卻隻增加了(le)33%。

 

身材堪比Nano的(de)Tesla V100

計算(suàn)單元增加了(le)43%,但理(lǐ)論單精度性能隻增加了(le)42%,這(zhè)說明(míng)同Pascal相比,Volta的(de)性能提升靠的(de)就是計算(suàn)單元的(de)增加,而不像從Maxwell進化(huà)到Pascal那樣因工藝提升頻(pín)率激增而帶來(lái)的(de)性能質的(de)飛(fēi)躍。說到頻(pín)率,從上表可(kě)以看出V100的(de)頻(pín)率照(zhào)比P100略有下(xià)降,其可(kě)能的(de)原因有兩個(gè),一是由于規模大(dà)幅增加,爲了(le)控制功耗而輕微降頻(pín);二是12nm FFN工藝在性能上照(zhào)比成熟的(de)16nm FinFET Plus工藝略有差距,所以頻(pín)率達不到這(zhè)麽高(gāo)的(de)數值。

 

核心面積高(gāo)達815平方毫米

此外,Tesla V100的(de)二級緩存寄存器大(dà)小也(yě)有所增加,L2緩存由Tesla P100的(de)4MB增加到了(le)6MB,每組SM單元的(de)寄存器文件大(dà)小總數從14MB增加到了(le)20MB。顯存方面,使用(yòng)的(de)HBM2的(de)位寬及容量都沒變化(huà),還(hái)是16GB 4096-bit,不過頻(pín)率有所提升,帶寬從前代的(de)720GB/s提升到了(le)900GB/s,更接近HBM 2顯存1024GB/s的(de)理(lǐ)論值。

架構:爲AI設計的(de)Tensor單元

從架構整體設計上看,Volta核心同Pascal和(hé)Maxwell一樣,采用(yòng)了(le)6組GPC的(de)設計,隻不過是每組GPC内的(de)SM單元呈遞進式增長(cháng):Maxwell每組GPC的(de)内部有8組SM單元,Pascal增加到10組,而最新的(de)Volta則是增加到14組。有一點需要說明(míng),由于單雙精度比的(de)不同,GP100核心每組SM單元内的(de)CUDA核心數量與GP102是不同的(de),前者爲64個(gè),後者爲128個(gè),所以我們隻看GP100。

 

GV100核心架構圖

GV100同GP100每組SM單元内的(de)CUDA數量一樣,均爲64個(gè),而CUDA處理(lǐ)器的(de)總數理(lǐ)應爲64*14*6=5376個(gè),但GV100核心的(de)CUDA處理(lǐ)器數量爲5120個(gè),少了(le)的(de)256個(gè)正是因爲NVIDIA關閉了(le)4組SM單元,這(zhè)一做(zuò)法同GP100如出一轍。

 

GP100核心架構圖

前面說到的(de)64是FP32單精度運算(suàn)單元數量,在單雙精度單元數量比上,GV100同GP100一樣爲2:1,也(yě)就是說每組SM單元中有32個(gè)FP64雙精度單元,理(lǐ)論值應爲32*14*6=2688個(gè),但由于關閉了(le)4組SM單元,所以總數爲2560個(gè)。

 

Tensor單元工作流程圖

由于NVIDIA現在已經轉型爲一家AI公司,因此其GPU産品也(yě)開始著(zhe)力于AI、DP等領域的(de)優化(huà)發掘,在Pascal中NVIDIA開始強調FP16半精度,因爲深度學習(xí)對(duì)精度的(de)要求并不高(gāo),甚至FP8就夠了(le),其更需要的(de)是更強大(dà)的(de)運算(suàn)性能。在Volta中,NVIDIA帶來(lái)了(le)革命性的(de)Tensor運算(suàn)單元,該單元是繼FP16和(hé)FP8後爲AI設計的(de)全新利器。其能夠提供高(gāo)達120 TFLOPS的(de)超強運算(suàn)性能,而且效率高(gāo)且非常省電。

 

V100中SM單元設計

在GV100核心中,每組SM單元中包含8個(gè)Tensor單元,其能夠提供高(gāo)達120 TFLOPS的(de)超強運算(suàn)性能。相比于在P100的(de)FP32單元上,Tesla V100的(de)深度學習(xí)訓練能力是前者的(de)12倍,而相比于在P100的(de)FP16單元的(de)深度學習(xí)推理(lǐ)能力上,V100是前者的(de)6倍。

性能:DP方面能力提升迅猛

由于Volta同Pascal相比架構僅僅是小幅改動,因此V100的(de)理(lǐ)論性能提升同P100相比僅僅是規格增加而帶來(lái)的(de),但實際運行方面,其提升還(hái)是相對(duì)可(kě)觀的(de),尤其是人(rén)工智能和(hé)深度學習(xí)能力。首先我們來(lái)看一下(xià)在HPC運算(suàn)方面的(de)性能提升:

 

Volta HPC應用(yòng)性能提升

官方給出了(le)V100與P100在6款HPC應用(yòng)中的(de)性能對(duì)比,其中最低增長(cháng)了(le)42%左右,最高(gāo)增長(cháng)了(le)76%左右,平均提升幅度約爲50%,可(kě)見提升還(hái)是比較明(míng)顯的(de),但我們也(yě)能看出,由于V100的(de)頻(pín)率與P100基本相當,所以實際性能并沒有從M40到P100那種翻天覆地的(de)提升。接下(xià)來(lái)我們看看Tensor單元的(de)引入會對(duì)V100的(de)深度學習(xí)性能帶來(lái)怎樣的(de)影(yǐng)響:

 

ResNet-50深度神經網絡訓練任務中的(de)速度對(duì)比

從圖中可(kě)以看出,Tesla V100使用(yòng)Tensor單元在ResNet-50深度神經網絡訓練任務中的(de)速度是Tesla P100使用(yòng)FP32單元進行運算(suàn)的(de)2.4倍;如果每張圖像的(de)目标延遲是7ms,那麽Tesla V100使用(yòng)Tensor核心在ResNet-50深度神經網絡進行推理(lǐ)的(de)速度是使用(yòng)FP16單元的(de)P100的(de)3.7倍(參與測試的(de)V100爲原型卡)。

 

Tesla V100 Tensor單元和(hé)CUDA 9對(duì)GEMM運算(suàn)的(de)性能提升

矩陣-矩陣乘法運算(suàn)(BLAS GEMM)是神經網絡訓練和(hé)推理(lǐ)的(de)核心,被用(yòng)來(lái)獲得(de)輸入數據和(hé)權重的(de)大(dà)型矩陣的(de)乘積。從上圖我們可(kě)以看出,相比于基于Pascal的(de)GP100,Tesla V100中的(de)Tensor單元把這(zhè)些運算(suàn)的(de)性能最高(gāo)提升了(le)8倍多(duō)。

 

不同平台深度學習(xí)訓練時(shí)間對(duì)比

還(hái)是得(de)益于Tensor單元強大(dà)的(de)實力,8路V100的(de)深度學習(xí)訓練時(shí)間僅爲8路P100的(de)三分(fēn)之一左右,而雙路E5 2699V4的(de)耗時(shí)是8路V100的(de)56倍,這(zhè)種差距是非常懸殊的(de)。

以上就是Volta架構分(fēn)析的(de)全部内容,其主要特性無非爲三點:1、史上最大(dà)規模的(de)GPU;2、首款采用(yòng)12nm工藝的(de)GPU;3、全新加入的(de)Tensor單元讓GV100的(de)DP性能達到了(le)史無前例的(de)新高(gāo)。在GTC 2017大(dà)會上,老黃(huáng)表示NVIDIA在研發Tesla V100的(de)過程中投入了(le)30億美(měi)元的(de)巨資,這(zhè)是迄今爲止NVIDIA投資的(de)最大(dà)的(de)單個(gè)項目,比Pascal還(hái)多(duō)花了(le)10億刀(dāo)。這(zhè)30億刀(dāo)讓NVIDIA整整領先了(le)AMD一代,AMD這(zhè)邊甭說Navi,就連Vega也(yě)遲遲不見蹤影(yǐng),正是如此,NVIDIA在下(xià)半年還(hái)不準備放出消費級的(de)Volta,就讓我們期待明(míng)年初的(de)消費級Volta吧,4K被徹底征服不是夢。

以上是關于嵌入式中-NVIDIA Volta架構面世 英偉達産品叠代爲啥這(zhè)麽快(kuài)!的(de)相關介紹,如果想要了(le)解更多(duō)相關信息,請多(duō)多(duō)關注eeworld,eeworld電子工程将給大(dà)家提供更全、更詳細、更新的(de)資訊信息。