NVIDIA 不久前在今年舉辦的國際超級電腦會議(ISC)中,發表了以最新的 Volta 架構所製作的新運算卡 Volta V100 運算卡 ,這張卡將在人工智慧運算上,以卓越的效率提供相當高規格的性能表現。這張運算卡基於 NVIDIA Volta 架構的 Tesla V100 GPU,令人期待它的表現:
NVIDIA 推出基於 Tesla V100 GPU 與 PCI Express 介面的 Volta V100 運算卡

不久前的 GTC 2017 大會上,我們知道 NVIDIA 推出了 Tesla V100 GPU 。這顆 GPU 雖然不像我們期待的那樣作為遊戲顯卡,但在人工智慧運算方面, Tesla V100 可是目前最強的處理器。

從 SXM2 到 PCIe , Volta V100 帶來深度學習強悍效能

Tesla V100 採用 TSMC 12nm FFNFinFET NVIDIA)製程,擁有 21 億個電晶體,在 NVIDIA 歷年來的 GPU 中稱得上是相當驚人的成就。GTC 2017 當時所看到的是採用 SXM2 的外觀,但這回 NVIDIA 改用大家比較熟悉的 PCI Express 介面:
NVIDIA 推出基於 Tesla V100 GPU 與 PCI Express 介面的 Volta V100 運算卡

PCI Express NVIDIA Volta V100 具有與 SXM2 版本相同的 Tesla V100 GPU,他們的 GPU 尺寸都是 815mm2,這個 GPU 晶片也是目前為止最大的晶片。

Tesla V100 GPU 晶片本身使用了全新的架構,只是原始規格看起來就很狂。 GPU 6 GPC 組成,它總共有 84 Volta 串流多重處理單元,42 TPC ,而每個 TPC 內包含兩個 SM
NVIDIA 推出基於 Tesla V100 GPU 與 PCI Express 介面的 Volta V100 運算卡

在總共 84 SM 中,每個 SM 都有 64 CUDA Core,所以在整個晶片上共有 5376 CUDA Core 。這些 CUDA 內核都可用於 FP32 INT32 程式指令,同時還有 2688 FP64(雙精度)運算核心。

除此之外,還有 672 Tensor 處理單元,336 個紋理單元。 Boost 時脈可達 1370 MHz。

運算效能方面, FP16 可達 28 TFLOPsFP32 可達 14 TFLOPsFP64 則達到 7.0 TFs

該晶片更提供 112 DLOPDeep Learning Teraflops),這是目前最快的晶片,透過致力於深度學習任務的獨立 Tensor 核心實現。

雖說 PCIe 版的時脈與運算效能略低於 SXM2 版,但 TDP 250W,對比 SXM2 版的 300W 還是省了點電跟廢熱。也因此可以稱得上是一件壯舉:
NVIDIA 推出基於 Tesla V100 GPU 與 PCI Express 介面的 Volta V100 運算卡
▲Tesla 運算卡效能比較表(內容來源,大圖請點此

記憶體架構更新了 8 512 位元記憶體控制器,這樣能達到 4096 位元的匯流排介面,能支援高達 16GB HBM2 顯示記憶體。

記憶體頻寬在 boost 時擁有 878 MHz 的時脈。每個記憶體控制器都連結到 768KB L2 快取。總共有 6MB L2 快取供整個晶片使用。

另外, NVIDIA Volta V100 PCIe 版不會向 SXM2 版那樣有 NVLINK 支援,它配備一個被動式散熱的雙槽散熱器,散熱器將有金色與黑色的配色方案。與競爭對手相比, NVIDIA 以相對較低的瓦數提供更好的運算效能,在效率上有很高的評價。

另外在雙精度、單精度、半精度與 INT8 運算效能上,都比目前競爭對手未發表的運算卡高得多。 NVIDIA 公司目前已經將 Tesla V100 GPU 運送給合作夥伴與製造商,不久以後相信會看到更多採用這顆 GPU 的運算卡出現。

閱讀全文