GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

3370 人參與      分類 : 遊戲  

從目前的遊戲生態來看,具有實時光線追蹤畫面已然是3A大作的開發方向,這是將遊戲畫面真實度帶上新台階的一項重要技術,而它的起點就是率先支持實時光線追蹤的英偉達圖靈架構顯卡。除此之外,實現更好的遊戲畫面還有一個簡單的方法就是以更高解析度運行,在宣傳了多年「4K遊戲」的概念之後,在圖靈顯卡上也終於可以在4K解析度下流暢運行絕大部分的3A大作。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

但是,玩家對於更好的遊戲畫面的追求並不是二選一,如果要同時以4K解析度和實時光線追蹤畫面流暢運行遊戲的話,圖靈顯卡還是顯得有些吃力。但是不可否認,圖靈仍然是一款劃時代的產品,它是從0到1個跨越,而現在,玩家需要的是從這個基礎上騰飛,讓4K光追遊戲從夢想照進現實,成為可能並且進入尋常百姓家,做到真正的普及,英偉達新一代Ampere(安培)架構顯卡的推出,就是為了完成這一使命。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

基於NVIDIA安培架構的A100計算卡


其實早在5月份的時候,英偉達發布新一代的A100加速計算卡時,新一代的英偉達安培架構就算已經問世了,我們也知道了英偉達安培架構下的最大核心GA100核心的架構圖,完整版的GA100擁有128組SM,每組SM中擁有4個最新的第三代Tensor Cores,仍然是64個CUDA Cores/SM的結構。

完整的GA100有著8192個CUDA核心和512個第三代Tensor Cores,因為它是面向純計算領域的核心,所以沒有RT Core,可以說是Volta架構的直屬繼承者,面積高達826mm2,比GV100核心還要大,這還是換用了台積電的7nm工藝才達成的。在A100加速計算卡上見識到新架構之後,玩家都很期待基於新架構的遊戲卡能儘快推出。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

2020年9月2日凌晨,NVIDIA終於推出了大家盼望已久的新一代GeForce RTX 30系顯卡,首發的顯卡有三個型號,分別為RTX 3090、RTX 3080和RTX 3070,其中最先上市也就是最先能與玩家見面的,是其中的RTX 3080。

同時,遊戲卡方向的Ampere GPU的面紗也被揭開,雖然同樣是基於NVIDIA Ampere架構,但遊戲卡和專業卡的NVIDIA Ampere架構與計算卡(也就是之前已經發布的A100)上面的NVIDIA Ampere架構有很大的區別點,只不過共享了部分特性而已。接下來,我們從面向遊戲的安培架構看起,然後通過首發的RTX 3080,來看看新一代的GeForce RTX 30系列顯卡到底能帶給我們什麼驚喜。

英偉達安培架構解析

RTX 30系遊戲顯卡中最大的核心:GA102核心

NVIDIA對Ampere核心的命名延續了自家的一貫傳統,使用了GA的前綴,A代表的就是Ampere,紀念的是發現安培定律的安德烈-馬里·安培。在字母后面跟了三位代表核心等級的數字,其中GA100是計算卡專用的核心,遊戲卡/專業卡則是使用GA102和GA104等核心。在首批發布的三張RTX 30系顯卡中,有RTX 3080和RTX 3090兩張顯卡使用了GA102這枚核心,它是NVIDIA Ampere遊戲分支架構中規模最大的核心,也是最為完整的Ampere遊戲核心。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GA102核心面積高達628mm2,使用三星為NVIDIA定製的8nm工藝打造,集成有280億個晶體管。單從晶體管數量上我們已經可以感受到這顆核心在規模上膨脹了不少(TU102為186億個)。將NVIDIA的三代最大規模的GPU放在一起對比,可以發現Samsung 8N工藝在晶體管密度這一指標上較上代使用的TSMC 12FFN工藝有較大的提升。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

NVIDIA目前已經給出了GA102核心的完整架構示意圖(上圖),它仍然沿用了從NVIDIA Pascal架構開始定下的GPC-TPC-SM層級架構,擁有7組GPC,每組GPC包含6組TPC,每組TPC包含2組SM。所以一枚完整的GA102核心擁有84個SM單元。我們再來對比一下它和上代最大核心——TU102之間的區別。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

從圖中我們很明顯可以看到GA102多了一組GPC,也就是比TU102要多出12組SM單元,如果SM單元沒有發生大的變化的話,那它的計算規模就已經大了1/6,完整版的GA102應該是擁有10752個FP32 ALU(CUDA核心)。另外,我們還可以看到新的Ampere GPU支持PCIe 4.0匯流排,在x16寬度下它的速率為16GT/s,每秒可傳輸約31.5GB/s的數據。當然,完整版GA102仍然支持NVIDIA獨家的GPU互聯技術——NVLink,與A100計算卡類似的是,GA102核心上的NVLink有顯著升級,另外它現在是4x4的排布,而不是原來8x2的分配,也就是說,能夠連接更多的GPU。

從宏觀層面上看完GA102,我們再進入到NVIDIA GPU的最小計算組——SM單元中,看看Ampere的SM單元為我們帶來了哪些不一樣的東西。

2倍性能的第二代RTX SM

2018年8月份,NVIDIA在推出RTX 20系列顯卡的時候著重介紹了他們的RTX概念,將實時光線追蹤和AI計算引入到了GPU中,其SM單元可以說是發生了翻天覆地的變化。NVIDIA在NVIDIA Ampere架構上則是著重提升了整個SM的性能表現,雖然在結構上沒有做出太大的修改,但SM單元的性能已經不可同日而語。主要提升有三點,針對傳統圖形計算的FP32單元加倍、引入第二代RT Core和第三代Tensor Core。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍


NVIDIA Ampere架構SM的性能兩倍於Turing架構SM

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍


GA100 SM(左)對比GA102 SM(右)

雙倍的FP32單元,雙倍的快樂

在NVIDIA Turing架構上面,NVIDIA引入了分數據類型計算的理念,將整數型(INT32)和單精度浮點型(FP32)兩種不同的數據類型交給兩種不同的ALU進行計算,大大提高了SM單元的並行計算效率。不過現代遊戲應用中最為常見的還是FP32,也就是單精度浮點類型的計算,INT32 ALU的使用率是要比FP32 ALU的低的。為了提升計算效率,NVIDIA引入了可同時支持INT32和FP32兩種數據類型的新ALU,取代了原本只支持INT32計算的ALU。也就是說,現在有兩條不同的數據路徑(Datapath),一條能夠處理整數或單精度浮點,另一條只能處理單精度浮點計算。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

原本一個SM單元又被劃分成四個更小的區塊,每個區塊有自己的調度器和寄存器,能夠調度16個INT32 ALU和16個FP32 ALU,整個SM單元同時可以處理64個INT32計算指令和64個FP32計算指令。到了Ampere上則是變成128個FP32計算指令或64個INT 32計算指令和64個FP32計算指令。在遇到以FP32為主的圖形計算時,其計算吞吐量最高可以提高到原本的兩倍。

另外NVIDIA也更新了CUDA核心的計數方式,現在以一個FP32 ALU為一個CUDA核心,所以在NVIDIA Ampere架構上,每個SM單元擁有的CUDA核心數倍增到了128個。

為了配合規模有一定擴張的計算單元,NVIDIA對每個SM的緩存系統也進行了一定的改良。Ampere SM的共享緩存/L1數據緩存容量從96KB增長到了128KB,同時其帶寬變為原來的兩倍,實現容量帶寬雙增長。

第二代RT Core帶來光追效率的顯著提升

在NVIDIA Turing架構上,NVIDIA首次引入了能夠針對實時光線追蹤運算進行加速的RT Core。在執行實時光線追蹤相關的計算時,現代的基於SIMD的CUDA核心在進行光線和物體表現碰撞點等計算時表現出來的效率太低,反而是基於MIMD架構的特定用途計算模塊更為高效。NVIDIA的RT Core就是這樣一種專門為實時光線追蹤計算進行加速處理的專用硬體單元。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

Ampere GPU上的RT Core主要是增加了對動態模糊的加速運算支持。在非光追情況下的動態模糊往往只是對畫面套用後處理濾鏡,其效果並不真實。在實時光追情況下,動態模糊則是通過實時計算物體與光線的交互情況所產生的,其運算非常複雜,就算是Turing上面的RT Core也難以承載。到了NVIDIA Ampere架構,其第二代RT Core中加入了NVIDIA設計的插值演算法,在保證動態模糊精確性的同時提高了該情況下的實時光線追蹤效率,官方稱最高可以實現8倍於前代的速度。另外,在基礎的BVH計算上面,新一代RT Core也能夠快上2倍。

第三代Tensor Core讓AI性能出現飛躍

從NVIDIA Volta架構開始,NVIDIA就在SM單元中引入為AI計算優化的Tensor Core,這些張量計算單元能夠提高顯卡在機器學習計算上的效率。在NVIDIA Ampere架構上,Tensor Core已經進化到了第三代,之前發布的A100計算卡上已經用上了新的第三代Tensor Core,它能夠提供比第二代Tensor Core高出4倍的效能。不過遊戲卡上面的Tensor Core進行了一定的精簡,其FP16 FMA計算的吞吐量只有GA100核心中的Tensor Core的一半。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

第三代Tensor Core除了在效能方面有提升之外,還對稀疏矩陣運算提供了支持,詳細的介紹可以看我們之前對計算卡方向的NVIDIA Ampere架構的解析:《NVIDIA新一代Ampere架構簡單解讀:一次有改良有革命的架構升級》。總的來說,即便是面向遊戲的NVIDIA Ampere架構將每SM的Tensor Core數量從8個減到了4個,它的整體效能仍然是有很大提升。

又進一大步的DLSS 8K

新的Tensor Core帶來的更強勁的AI算力將會為DLSS助力,在今年早些時候,NVIDIA開始全面推廣DLSS 2.0技術,相比起初代DLSS,DLSS 2.0不管是在畫面質量還是在渲染效率上都有很大的提升,已經不再是所謂的雞肋功能,而是能夠有效地讓中端顯卡在3A大作中跑出4K60這樣的表現。Ampere GPU並沒有帶來更新的「DLSS 3.0」,不過仍然是將這項技術往前推了一步——DLSS 8K,顧名思義,它就是通過深度學習技術將畫面解析度拉伸至8K的新版DLSS。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

雖然NVIDIA並沒有用DLSS 3.0這樣的命名,但是DLSS 8K在技術上仍然有一定的突破,具體一點就是它將會使用1440p解析度的實際渲染圖像,去推導8K解析度的輸出圖像,其像素數量跨越了整整9倍(2560x1440=>7680x4320)。此前在DLSS上面,最高也就是實現4倍的畫面拉伸(1920x1080=>3840x2160),現在這一數字直接跳至9倍,顯示了AI升頻技術那巨大的潛力。

並行程度更高的渲染管線

將不同類型的計算交給不同的單元去處理是從NVIDIA Volta架構就開始採納的一種理念,當時引入的Tensor Core分流了很多AI相關的運算,而在其後引入的RT Core又將實時光線追蹤相關的計算給分流了。那麼它們可以並行執行嗎?可以,但並不是全部運算都能夠並行執行。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

如上圖所示,Turing GPU在開啟實時光追和DLSS時,其RT Core和Tensor Core並不是並行工作的,Tensor Core被調用的時間點已經接近整個渲染流程的末尾,它沒有和RT Core同時運行。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

在NVIDIA Ampere架構上,NVIDIA提升了GPU內部各種單元之間的並行性,現在傳統計算單元、RT Core和Tensor Core這三大單元可以同時工作,在原本基礎上繼續縮短幀渲染時間。

GDDR6X顯存讓帶寬起飛

我們知道,GPU非常依賴高速緩存,不僅僅是GPU內部的各種緩存系統,更是對外部作為「倉庫」使用的顯存系統有著非常高的要求,在渲染解析度越來越高的如今,GPU不僅需要更大的顯存供它存放各種渲染素材,還需要帶寬更大的顯存供它實現更快的數據讀取。從最早的3D加速卡一路走來,顯存從使用與傳統DDR區別不大的GDDR2,到使用GDDR3、GDDR5,再到使用專為超高帶寬設計的HBM,其類型更換、升級的速度遠比傳統的DDR內存來的快。

NVIDIA在2018年的Turing顯卡上面首次應用了GDDR6顯存,在當時,GDDR6顯存能夠提供比疲態盡顯的GDDR5高的多的帶寬,也讓GDDR5X黯然失色。但在RTX 30系顯卡核心規模暴增的情況下,原來的GDDR6顯存已經有些不夠用了,於是NVIDIA攜手美光,推出了GDDR6的升級版——GDDR6X顯存。別看它只多了一個X的後綴,但它在底層信號傳輸方面有著非常重大的變化,並首次將GDDR系列的顯存帶寬推高到了1TB/s的高度。

GDDR6X顯存上出現重大變化的地方是它的信號傳輸機制。原本的GDDR系顯存使用的是非常原始的二進位信號,再具體一點,該系列顯存使用的是NRZ(Non-Return-to-Zero)調製,這種信號調製方式很簡單,它用高電平代表1,低電平代表0。如果要提高它的數據帶寬,那麼提高顯存的時鐘頻率即可。但現在由於受到製程工藝等各方面因素的影響,顯存的時鐘頻率在現階段已經很難再攀高,那麼該怎麼辦呢?廠商想到了用新的信號調製機制來提高信號傳輸的效率,他們選擇了已經有較為廣泛的PAM4。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

PAM是一種用模擬信號脈衝編碼信息的信號調製方式,PAM4是其中較為簡單的一種。與NRZ這種僅有高和低兩種狀態的二進位信號不同的是,PAM4有4種不同的電平值,也就是它有4種不同的狀態,而每種狀態對應著一種0和1的組合,也就是說,它的每個狀態對應了2個bit的數據量,較NRZ是翻倍的。

如果這麼說還有些模糊的話,這裡可以將PAM4信號類比成MLC快閃記憶體存放數據的方式。我們知道,MLC快閃記憶體的每個單元可以存放2-bit的數據,在電信號層面上它表現為4種不同的電平,每個電平之間有固定的間隔,主控在讀取和寫入的時候都按照固定的規則將數據和電信號進行轉換。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

那麼GDDR6X也是如此,根據NVIDIA公布出來的信息,GDDR6X有四種不同的電平信號,每個電平信號之間的電壓差為250mV。另外NVIDIA還配套引入了MTA編碼,在信號傳輸層面上減少損耗,保證穩定性。

在GA102應用的RTX 3090和RTX 3080上,NVIDIA都使用了GDDR6X顯存,RTX 3080的顯存帶寬是760GB/s,RTX 3090的顯存帶寬還要高,為936GB/s,已經接近1000GB/s大關,不排除未來會有使用更高頻率顯存的產品出現。

支持HDMI 2.1輸出和AV1解碼

在視頻編解碼和視頻輸出方面,Ampere也緊隨時代潮流做了升級。首先是加入了對近期大熱的HDMI 2.1的支持,該介面主要以8K輸出為噱頭,能夠更好地配合新一代的8K電視。我們之前對HDMI 2.1做過簡單介紹,有興趣的可以閱讀:《有問有答:除了更高的帶寬外,HDMI 2.1還有哪些新東西值得關注?》一文。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

在視頻編解碼方面,Ampere仍然沿用了Turing的NVENC單元,沒有任何提升。不過它的視頻解碼單元有升級,支持了AV1的硬體解碼,因為它早於Tiger Lake一天發布,所以也順利成為首個支持AV1硬體解碼的GPU(Xe也支持),最高支持的視頻規格可到8K60。關於AV1這個視頻編碼,我們此前的文章中有過簡單的介紹,可以參閱:《超能課堂(220):數字視頻編碼的發展歷程》一文。

不過很遺憾的是,Ampere GPU似乎是完全砍掉了對USB-C的支持,這其中有部分原因是VirtualLink聯盟的各大成員已經放棄採用該協議。對AIC來說,在顯卡上少設計一個USB-C介面也能夠節省一定的成本。

GPU與SSD間的VIP通道RTX IO

經過多年的推廣,SSD已經成為現今PC用戶的裝機首選。對於遊戲應用,SSD能夠很直接的提升遊戲的載入速度,降低玩家的等待時間。Sony和微軟也不約而同地在他們的次世代主機上引入了高性能的NVMe SSD,不僅如此,兩家還在軟體層面上予以創新,更好的利用SSD的方方面面,比如說,微軟提出的DirectStorage API就能夠讓遊戲以更自由的方式讀取自己所需要的數據。

由於歷史問題和兼容性需求等等原因,目前很多操作系統給軟體提供的存儲方面的API都是延續了數十年的老介面,面向的還是傳統的HDD,並沒有給SSD這種存儲介質做優化。SSD的多線程讀寫、4K隨機性能強和持續讀寫速度超高等等特點並沒有被很好的利用起來,也就是說,現在系統軟體在一定程度上限制住了遊戲的發展。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

舉例而言,現在遊戲在載入時會把存放於HDD/SSD上的數據讀入內存,如果是與圖形計算相關的資源,則會通過PCIe匯流排傳給顯卡寫入顯存,這個流程非常常見,但對於GPU來說,它所需要的資源繞行了CPU,產生了不必要的開銷,將會增加數據讀取的時間和延遲。

對現在的PC架構來說,最為理想的模式是GPU直接從SSD裡面讀數據,但以往的系統並沒有開放相關的介面,硬體就是想做也做不到。但現在有了DirectStorage API,未來的Windows將會提供硬體直接讀取SSD數據的介面,讓遊戲開發者對數據載入有了更強的控制能力。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

而NVIDIA也很適時地推出了RTX IO技術,簡單地說,它就是讓GPU直接讀取SSD數據的一項技術,如果開發者選擇使用RTX IO,那麼在遊戲載入時,GPU需要的數據就不會再繞道CPU,而是直接被GPU獲取,寫入到顯存中。RTX IO將以「插件」形式與DirectStorage API相整合,另外,它將會提供基於GPU的硬體解壓縮能力,在遇到經過壓縮的材質時,它能夠非常顯著的降低CPU的佔用率,讓數據載入更為高效。

需要說明的是,由於RTX IO需要依靠Windows的DirectStorage API,並且還需要遊戲開發商做針對性的優化,所以最快最快我們也要等到明年才能看到這項技術的具體應用。

RTX 3080公版顯卡產品解析

首發的安培顯卡有三張,分別是RTX 3090、RTX 3080和RTX 3070,而其中最早與我們見面的是RTX 3080。

RTX 3080公版顯卡規格

接下來我們具體看下RTX 3080的規格,除了前面提到的由於採用了相比上代更先進的Samsung 8N工藝,即使RTX 3080的這顆GA102核心晶體管數量暴漲到280億個,相比上代的旗艦RTX 2080 Ti還要多將近100億,但是核心面積卻要更加的小,僅為628平方毫米。而與上代定位同樣等級的RTX 2080和RTX 2080 SUPER來比較來看的話,會發現晶體管數量暴漲了一倍有餘,提升非常明顯。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

這一代的英偉達安培架構仍然採用將特定組數的CUDA單元、RT核心、Tensor核心封裝為一個SM單元,然後將一定組數的SM單元封裝為一個GPC這樣的層級結構,最後將幾組GPC單元和內部緩存等其他硬體部分組成我們看到的GPU核心。

與上代的RTX 2080和RTX 2080 SUPER一樣,RTX 3080也是具有6組GPC,不過每個GPC含有的SM單元不是RTX 2080和RTX 2080 SUPER那樣的8個,而是跟RTX 2080 Ti一樣,每個GPC中具有12組SM單元。並且與RTX 2080 Ti一樣,這6組GPC並不都是滿血的,其中兩組GPC的SM單元僅啟用了10組,所以RTX 3080一共具有68組SM單元,與上代旗艦RTX 2080 Ti一樣。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

具體到SM單元中,安培這一代每個SM單元所具有的CUDA單元和Tensor核心相比上代圖靈都有變化。如前面所述,NVIDIA引入了可同時支持INT32和FP32兩種數據類型的新ALU,取代了原本只支持INT32計算的ALU,在面對FP32類數據的運算時,這部分ALU也能參與運算,所以處理FP32數據的效率是上代的兩倍。

現代遊戲應用中最為常見的數據類型就是FP32,簡單來說你可以理解為,在調用CUDA單元進行運算的場景下,安培每個SM單元的效率是上代圖靈的兩倍。所以在以一個FP32 ALU為一個CUDA核心這樣的計數方式下,現在的安培每個SM單元中所含有的CUDA單元是上代的2倍,也就是每個SM單元具有128個CUDA單元,具有68組SM單元的RTX 3080一共具有8704組CUDA單元。

Tensor核心方面,現在英偉達安培架構上的是第三代Tensor核心,相比上代圖靈的第二代Tensor核心有巨大的提升,英偉達安培架構將每SM單元的Tensor核心數量從上代的8個減少到4個,具有68組SM單元的RTX 3080一共具有272個Tensor核心,得益於效率的巨大提升,雖然數量有所減少,但是該部分性能仍然是提升了的。

至於加速處理實時光線追蹤的RT核心方面,仍然是每個SM單元中配有一個RT核心,具有68組SM單元的RTX 3080一共具有68個RT核心。但是採用英偉達安培架構的RTX 3080上的是第三代RT核心,所以同樣的該部分性能相比上代也是提升了。

RTX 3080的頻率仍然沒有超過2GHz的大關,畢竟頻率的設定還是得考慮到發熱,並且它們之間並不是線性的關係,在超過一定的頻率之後,輕微的頻率上升會帶來巨大的發熱量增加,非常不划算。但是與RTX 2080 Ti比較可以看到,RTX 3080具有遠多於RTX 2080 Ti的晶體管數量,但是頻率相比仍然還有提升,這裡面更先進的Samsung 8N工藝功不可沒。

顯存部分,RTX 3080是問世的第一張採用最先進的GDDR6X顯存的顯卡,GDDR6X顯存的數據速率可以達到史上最高的19Gbps,配合320bit的位寬,顯存帶寬已經達到760.3GB/s,同樣遠超同級別定位的RTX 2080和RTX 2080 SUPER。

而顯存容量部分,RTX 3080為10GB,與其他各方面的巨大提升相比,這方面似乎顯得提升相對較小,不過這卻是基於定價的考量下的結果。越大的顯存容量總是越好的,但是卻會帶來成本的增加,這一代的RTX 30系顯卡在帶來巨大性能提升的同時力求保持與上代同樣的定價,所以RTX 3080選擇了配備10GB顯存這樣一個體量,即足以滿足其定位的遊戲需求,也可以將價格控制在玩家可以接受的範圍之內。

介面方面相比上代高端顯卡比較明顯的變化就是RTX 3080取消了USB-C介面,並且電源介面採用了最新的12Pin供電介面。而需要注意的是,雖然兩代顯卡都只配備了一個HDMI介面,但是RTX 3080的HDMI介面是2.1版本的,帶寬提升2.67倍,最高可支持10K解析度的顯示輸出。並且金手指部分也進步為支持PCI-E 4.0,相比上代帶寬翻倍。

最後就是功耗方面了,RTX 3080的功耗增加還是很明顯的,TGP達到了320W,比RTX 2080 Ti還要高不少,推薦電源也達到了750W的新高。英偉達的創始人版RTX 3080仍然做到了雙槽的體型,不過這可能是很長時間內唯一的一款雙槽RTX 3080顯卡了,從目前非公的情況來看,幾乎都是清一色的三槽體型,個人是希望非公後續能推出雙槽的RTX 3080的,不過即使會推出,看起來也得等一段時間。

RTX 3080公版卡設計:創新的雙軸流推挽式散熱

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

公版RTX 3080的外觀之前我們的開箱視頻已經有對它進行過介紹和點評,這一代的公版卡在外觀方面相比歷代公版變化還是很大的。正面只可以看到一個導風風扇,然後其他部分幾乎都是裸露的散熱鰭片,不過由於做的相當精緻,看著毫無違和感,背面有依然質感上乘的金屬背板,關鍵在於,背面也還有一個風扇,非常創新式的設計,正面風扇吹風,背面風扇抽風,構成了獨特散熱設計。

新型散熱設計

除了外觀好看之外,公版卡其實在散熱設計上一直很花心思,僅最近幾代,就經歷了渦輪式風扇散熱、上代的「煤氣灶」造型的雙軸流式風扇散熱,然後到這一代又進化了,英偉達為這個創新性的散熱設計取了個名字叫雙軸流推挽式風扇散熱設計。

現在的這個散熱方案上面有渦輪式散熱和軸流式風扇散熱的影子,但又都不一樣。渦輪式散熱我們知道,是直接通過檔板那裡將顯卡的廢熱排出機箱之外,其好處是不會將廢熱弄到機箱裡面,相對來說機箱的選擇對於顯卡散熱的影響也小,但是壞處是畢竟這樣就導致了風道狹小受限,渦輪式散熱的風扇轉速都需要比較高,但是卻出現了噪音大但散熱並不算優秀的情況。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

在這張RTX 3080公版卡上,我們可以看到正面有一個軸流式風扇,雖然是軸流式風扇,但是經過特殊的風道設計,這個軸流式風扇吸入冷風之後是會將廢熱通過檔板那裡排出機箱之外,很像渦輪式散熱,所以它具有了渦輪式散熱的優點——減少廢熱在機箱內的停留,儘快將廢熱直接排出機箱之外。由於並不完全靠這一個風扇散熱,所以風扇轉速也不需太大,不會出現噪音困擾。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

另一個風扇是在顯卡背面,也是一個軸流式風扇,通過位置就可以看到,它不是之前顯卡軸流風扇通過安裝在顯卡正面,將冷空氣吹到散熱鰭片的設計,而是通過抽風讓冷空氣流經散熱鰭片,然後通過機箱的後置排風扇排出機箱之外,通過這種方式能更好的將廢熱定向的引導到機箱風扇的風道,避免了機箱風道的凌亂,也讓機箱內部整個系統的散熱效率相比上一代排風式的軸流式風扇散熱要好一些,當然這種方式對CPU散熱會有一定的影響。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

上圖為官方給出的RTX 30系列顯卡風流模擬圖,關於這一部分,我們會在此文之後作出更詳盡的測試,來探尋這種散熱設計對整體機箱散熱體系的影響。

新的供電介面

另一個創新性的設計是供電介面的設計,現在的高端顯卡普遍需要雙8 Pin的傳統供電設計,但是傳統的雙8 Pin供電介面著實有一定體積,這阻礙了性能型科技產品小型化的進步方向。所以英偉達設計了全新的12 Pin供電介面,這個介面比標準的PCIe供電介面小,但能夠承載更大的電流,也就是能夠獲取更大瓦數的外部供電。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

但是由於PC電源方面還未及時跟上新方案,所以公版卡也附送有一條轉接線,用於將標準PCIe供電介面轉換成新的12 Pin供電介面。

不易察覺的介面變化

其他介面方面的變化就不像新的供電介面變化那麼明顯了。其中之一是RTX 3080公版卡取消了USB-C介面,現在僅有3個DP介面和1個HDMI介面。不過這個應該對絕大部分玩家都沒有任何影響,畢竟上一代的RTX 2080這些非公卡很多也沒有USB-C介面,並不影響大部分玩家對於顯卡的選擇。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

其次,雖然都是一個HDMI介面,不過RTX 3080公版卡上這個HDMI介面是2.1標準的,可以支持8K 60FPS乃至10K 30FPS的視頻輸出,與採用HDMI 2.1介面的顯示器或者電視連接使用的話,只需要一根線材就可以實現8K 60FPS的視頻輸出,而不像之前需要兩根DP線或者4根HDMI線。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

最後就是顯卡的PCIE介面升級為支持PCIE 4.0,可以提供更高的帶寬。這個對於之後的RTX IO的應用和普及比較重要,可以盡量減少系統的帶寬瓶頸。

性能測試

由於RTX 3080支持PCIE 4.0,為了鼓勵整個行業全面向更新的介面前進,所以我們選擇了AMD平台來進行這次首發評測。為了盡量減少其他硬體的瓶頸,選用了一套適合遊戲的高端平台。

考慮到還是有很多玩家用的是英特爾平台,還不支持PCIE 4.0,會好奇RTX 3080這張性能來到新高度的顯卡在PCIE 3.0上是否會出現性能不能完全發揮?所以我們也是做了對比測試的,得到的結果是,即使RTX 3080目前在PCIE 3.0和PCIE 4.0上在遊戲性能上基本沒有差異的。

測試平台


GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

本次首發評測對比顯卡包括了:RTX 2080公版、RTX 2080 SUPER公版、RTX 2080 Ti公版卡和AMD陣營的RX 5700 XT公版卡。操作系統為最新的2004版本,系統的電源選項為高性能模式,在BIOS開啟XMP,讓內存運行在3600的頻率,其他方面不做過多改變,均採用默認設置。

基準性能測試:平均相比RTX 2080提升70%

我們以3DMark作為顯卡基準性能測試,測試項目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六個項目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三個項目分別測試的是顯卡在DX11遊戲中的1080p解析度、2K解析度和4K解析度下的性能指數,Time Spy、Time Spy Extreme兩個項目則是顯卡在DX12遊戲中的2K解析度和4K解析度下的性能指數,Port Royal是測試的顯卡實時光線追蹤的性能指數,具體成績見下表,表中所列成績均為3DMark顯卡單項的得分

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍


可以看到以上一代的RTX 2080為基準的話,採用新英偉達安培架構的RTX 3080確實性能暴增。由於RTX 3080主要面向4K遊戲環境推出,我們主要關注Fire Strike Ultra和Time Spy Extreme這兩個子項目的性能對比,可以看到RTX 3080相比RTX 2080提升了70%左右,相比上代旗艦RTX 2080 Ti提升30%。

光追性能方面,RTX 3080是跟RTX 2080 Ti一樣具有68個用於加速光線追蹤渲染的RT核心,但是由於RTX 3080是第三代的RT核心,所以光線追蹤性能也有提升,測試結果相比RTX 2080 Ti提升27%。

至於AMD這邊,雖然就性能來說RX 5700XT並不是AMD陣營最高的,但是Radeon VII實在架構太老了,而採用新架構的Navi顯卡目前最高的就是RX 5700XT。但是RX 5700XT確實很難稱得上高端卡,它自己的官方宣傳也是面向2K解析度的遊戲環境,性能本來也距離N卡的RTX 2080差距甚遠,面對RTX 3080更是完全不在一個量級,更別說它還不支持實時光線追蹤技術。

一言以蔽之,AMD急需拿出新的高端卡來與英偉達競爭,不然在高端顯卡這塊玩家可能會要忘了AMD的存在。而且不僅要堆高性能,而且還需要支持面向新世代的實時光線追蹤技術,畢竟從當下的遊戲大環境來看,這項技術是接下來提升遊戲畫面真實感帶來更好遊戲體驗的最主要的一項技術。

4K解析度遊戲實測

由於RTX 3080的定位,在單機大作的遊戲實測部分只測試4K解析度,由於對比的RX 5700XT並不支持實時光線追蹤,故將十多款遊戲測試分為兩組,分別設置為傳統光柵化遊戲畫面(即沒有光線追蹤效果)和開啟實時光追遊戲畫面的測試。

傳統光柵化遊戲測試:相比RTX 2080提升50%

傳統光柵化遊戲畫面測試這部分均將遊戲畫質設置為預設裡面的最高畫質設置(《地鐵:離去》選擇Ultra畫質),默認不是全屏的手動改為全屏,默認開啟了垂直同步的手動關閉垂直同步,除此之外其他選項均為默認設置,均採用遊戲自帶的Benchmark輸出結果。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

通過上面11款遊戲在傳統光柵化遊戲畫面下的性能測試對比可以看到,RTX 3080相比RTX 2080平均有50%的遊戲幀數提升,即使在《刺客信條:奧德賽》這款著名的「眾生平等」遊戲中,RTX 3080也能相比RTX 2080提升多達42.5%,而在《無主之地3》中提升幅度跟是多達80%,提升相當之大。

上一代圖靈顯卡的時候,英偉達以讓遊戲能以4K這樣的極致細膩畫面流暢運行為其高端顯卡的設計目標,從發布當時的結果來看,英偉達確實做到了。但是遊戲開發商總是會不斷推出新的遊戲, 帶來更好的畫面,所以在圖靈顯卡的後半生階段,不斷有玩家的聲音在說「要向暢玩4K還得看下一代顯卡怎麼樣了」。

現在看來確實是這樣,即使面對《無主之地3》、《地鐵:離去》這樣在最高畫質下非常吃性能的新遊戲大作,RTX 3080也能實現在4K解析度下流暢運行,RTX 3080證明了遊戲體驗完全可以全面向4K挺進。

雖然遊戲實測沒有理論測試的70%提升那麼高,但是客觀來講,對於高端顯卡來說,這個提升量是非常大了,因為高端顯卡是站在很高的基數上提升,上一代的RTX 2080 Ti相對GTX 1080 Ti提升才27%。

至於AMD這邊,RX 5700XT只有RTX 3080一半的幀數表現,用RX 5700XT跑4K確實有點為難它,還是期待AMD早點出新顯卡吧。

實時光追遊戲測試:暢玩4K光追

光追遊戲的測試部分就沒有RX 5700XT什麼事兒了,並且為了更簡明的說明和體現RTX 3080顯卡所採用的英偉達安培架構在光追性能和DLSS效率相比上代英偉達圖靈架構的提升,這裡只用上代旗艦RTX 2080 Ti來對比。所測幾款遊戲仍然採用預設最高畫質(《地鐵:離去》選擇Ultra畫質),光追效果選項可選的均開為「高」設置,開DLSS的測試中DLSS選項可選的均開為「性能」設置。《光明記憶》和《邊境》均為獨立的Benchmark測試結果。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

在4K解析度並且開啟遊戲預設最高畫質的前提下,還要體驗高質量的實時光線追蹤效果,大多數情況下即使上代旗艦RTX 2080 Ti開DLSS也難以實現(除了《古墓麗影:暗影》和《德軍總部:新血脈》)。但是搭載了第二代RT核心和第三代Tensor核心的RTX 3080讓4K光追遊戲流暢運行成為可能。

在《邊境》這款遊戲充滿了大量光線追蹤畫面的Benchmark測試中,RTX 2080顯卡開啟光追後僅能有11幀,遊戲畫面看起來就像幻燈片一樣一張一張的緩慢播放,但是RTX 3080就可以實現將近30幀左右的流暢及格線,並且在開啟DLSS之後,已經可以算較為流暢的運行。

由於RTX 2080 Ti和RTX 3080具有同樣個數的RT核心,但是區別在於一個是第一代RT核心,一個是第二代RT核心。開光追之後RTX 3080的遊戲幀數比RTX 2080 Ti要高,這意味著在同樣的時間內RTX 3080要運算更多幀畫面的光線追蹤渲染。雖然RTX 3080的傳統光柵化性能也要比RTX 2080 Ti高,但是通過之前英偉達帕斯卡架構與英偉達圖靈架構的光追遊戲測試我們知道,傳統光柵化性能對於光追遊戲畫面幀數的提升是很艱難的,主要還是靠RT核心進行光線追蹤加速計算。

RTX 3080開光追比RTX 2080 Ti開光追提升的比例不小,這也主要靠RT核心進行加速計算,RTX 3080用同樣多的RT核心做到如此大的提升,就是第二代RT核心進步的表現。並且同一遊戲中開光追效果下幀數的提升幅度還只是說明了第二代RT核心效率提升的最低值,畢竟最終幀數還受制於非光線追蹤效果的運算。

接著我們再看用於DLSS的Tensor核心,對於DLSS來說,同一代同樣多的Tensor核心對於不同幀數下開啟DLSS後其幀數的提升幅度是不一樣的,原因很簡單,原始幀數越高,DLSS所要進行的AI運算量就越大,所以隨著原始幀數的提高,其開啟DLSS後提升的幅度會越來越小。

但是我們看《光明記憶》的測試結果,原始15幀的RTX 2080 Ti開DLSS提升了160%的幀數,但是原始幀數更高的RTX 3080開DLSS卻提升了更多的171%。並且RTX 3080上所具有的Tensor核心數量僅只有RTX 2080 Ti的一半,以一半的Tensor核心數目進行更大的AI運算量,這也是第三代Tensor核心相比第二代Tensor核心效率提升巨大的體現。

電競遊戲方向

除了以高解析度帶來極致畫面體驗為主的3A大作方向之外,遊戲生態還有另外一個以高幀率為主的電競遊戲方向,它們一般會選擇適當降低解析度乃至降低畫質以獲得更高的幀數,目的就是為了儘可能的降低系統延遲,而英偉達這次與RTX 30系顯卡一起發布的也有NVIDIA Reflex技術。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

這個NVIDIA Reflex是分為兩部分的,一部分是硬體,一部分是軟體。硬體部分叫Reflex Latency Analyzer,是直接預安裝在部分經過英偉達認證的高端顯示器里的,可以用來測量玩家從點擊滑鼠直到畫面出現變化之間的時間差,也就是整套系統的所有延遲。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

軟體部分則是NVIDIA Reflex SDK。這個NVIDIA Reflex SDK的作用是降低以及測量渲染延遲的,開發者可以直接整合到遊戲內。而在開啟其低延遲模式後,可以讓CPU與顯卡同步,大幅度減少渲染序列,從而降低渲染延遲。

對於RTX 3080在這個方向的表現,可以點此鏈接閱讀我們獨立出來的文章。

超頻性能測試:約為7%

將功耗上限和溫度上限解鎖到最高之後,經過多番手動超頻嘗試,RTX 3080最終在核心頻率+120MHz,GDDR6X顯存數據速率+1.5Gbps下完成超頻。這個狀態下,這張RTX 3080公版卡能順利通過3DMark 模擬4K DX12遊戲的TimeSpy Extreme項目測試並且分數最高, 此時這張RTX 3080公版卡的Boost頻率為1830MHz,顯存等效頻率為20.5Gbps。這張RTX 3080公版卡在超頻狀態下運行3DMark TimeSpy Extreme項目的顯卡得分與默頻狀態下顯卡得分的對比如下表所示。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

隨著英偉達的GPU Boost技術推出後,顯卡實際運行的時候都會在功耗上限和溫度上限範圍內自動往更高的頻率上跑,並且上一代圖靈顯卡的時候GPU Boost已經來到4.0版本,可以更加智能和極限釋放顯卡的最大性能。並且由於各型號出廠的時候其頻率設定已經在性能功耗曲線偏上的位置,即使解鎖功耗上限和溫度上限,在這點上限的空間增加之內,性能也不會有較大的提升。

所以圖靈顯卡那一代我們也看到,現在的顯卡超頻空間並不會很多,RTX 3080也是一樣,極限超頻大概也僅在7%左右,考慮到能耗比和顯卡運行時本身有智能的GPU Boost技術加持,筆者也不建議玩家再對顯卡進行手動超頻。

溫度測試

我們的顯卡散熱測試均在裸機狀態(如果安裝在機箱內,GPU溫度會高出5℃左右)下進行測試,測試環境溫度約為26.2℃。待機溫度是開機以後記錄10分鐘,滿載溫度則是完成3DMark Fire Strike壓力測試後記錄下,數據通過GPU-Z的Log to File功能記錄,以下為溫度測試曲線。(針對於RTX 3080這種特殊的散熱設計,我們後續會進行詳細的裝箱等不同環境下的測試,受於篇幅所限,並未加入到此次首發文章,讀者可以留意我站後續的評測文章)

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

待機溫度看著是RTX 3080要比RTX 20系的幾張顯卡要高,但是其實RTX 20系的幾張顯卡即使待機時風扇也是不停轉的,而RTX 3080待機時風扇停轉,所以顯得待機溫度會高一些,但是都在30攝氏度左右,都算很清涼了。

滿載溫度方面,RTX 3080最高也僅到77攝氏度,與幾張對比顯卡的差距最多也只有2攝氏度,單看溫度的話可以認為幾乎在一個水準。不過RTX 3080的TGP為320W,比其他幾個要高不少,更高的功耗意味著更大的發熱,所以這個滿載溫度表現說明RTX 3080的散熱設計確實很厲害。

此外,噪音方面,在裸機平台上可以顯著感知到RTX 3080在滿載時候的噪音要比幾張對比卡都明顯的低一些。

功耗測試

通過我們專用的顯卡功耗測試儀器,可以分別精確地測量顯卡PCI-E、外接電源介面瓦特數,顯卡最大功耗在3DMark Fire Strike壓力測試中獲得,待機功耗則是在進入系統後記錄1分鐘取平均值。

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

待機功耗方面,RTX 2080、RTX 2080 SUPER、RTX 2080 Ti、RTX 3080和RX 5700XT的待機功耗均值依次為15.4、17.2、20.6、21.6、18.0,具有更多晶體管的RTX 3080相對來說待機功耗還是要高一點點。

滿載功耗方面,RTX 2080、RTX 2080 SUPER、RTX 2080 Ti、RTX 3080和RX 5700XT的滿載功耗均值依次為235、244、273、331、220,RTX 3080實測的滿載功耗略超過標稱的320W,並且其瞬時功耗最高到過415W,考慮到CPU等其他硬體的功耗,一個750W的電源確實是打底的了,預算充裕的話搭配更高規格的電源也是更好的。

此外,英偉達此次也給了我們全國唯二的顯卡專用功耗測試工具PCAT,原理與我們一直用的專用的顯卡功耗測試儀器一樣。對PCAT這個儀器感興趣的讀者可以點此跳轉連接閱讀我們的詳細體驗文章。

總結:史詩級飛躍,讓4K光追真正普及

先說NVIDIA Ampere架構方面,不像是AMD把面向專業計算市場和遊戲市場的架構分開,NVIDIA仍然對自己的GPU架構採用了統一化的命名,不過兩個方向的架構在內部還是有很大差異的。從Pascal開始,NVIDIA就已經將自己的GPU架構細分為計算架構和圖形架構兩種了,經過Volta和Turing的分立,現在又在這代Ampere上面合併了。但整個發展趨勢還是很明顯——計算卡有完整的雙精度計算單元,有更大的緩存系統和更快的內存系統;而圖形卡則是有強悍的單精度計算能力,同時還具備計算卡沒有的RT Core,能夠加速遊戲或渲染應用中的光線追蹤計算。

顯卡迷你天梯榜 (完整顯卡天梯榜)

GeForce RTX 3080顯卡天梯榜評測:史詩級飛躍

遊戲方面,這代NVIDIA Ampere架構藉助新的工藝,大幅強化了自己的圖形計算能力,暴增的FP32吞吐量能夠為傳統遊戲應用和渲染應用提供不小幅度的性能增益,而新一代的RT Core和Tensor Core則是為NVIDIA目前獨有的實時光追支持和AI算力插上了更寬廣的翅膀。毫無疑問,NVIDIA目前是PC端遊戲圖形市場的領軍者,短時間內能夠超越它的也就只有它自己,這次新的Ampere GPU讓我們看到NVIDIA在堆性能這件事上的實力,時隔兩年之後推出的新架構雖然沒有像Turing那樣有大幅度的創新,但它的性能提升實在是讓人震撼。

遊戲NVIDIA Ampere架構也代表著NVIDIA在圖形發展道路上抱持的態度和看法,他們認為實時光線追蹤是遊戲圖形下一階段的重點,而在實時渲染中運用AI技術來提升效率是未來應對高解析度應用的優秀手段。他們用業界領導者的身份在不斷地輸出自己的理念,也成功地影響了整個業界。

再說具體的RTX 3080這顆GPU,雖然從廣泛的實際測試來看,RTX 3080並沒有官方發布時說的2倍於RTX 2080的性能表現,但是我們也看到在個別遊戲比如《無主之地3》中確實得到了驚人的80%提升,並且多數遊戲中都有50%以上的提升,考慮到它是高端顯卡之間的進步,這依然是史詩級飛躍。

上一代的NVIDIA圖靈架構RTX顯卡實現了實時光線追蹤從0到1的跨越,讓電子遊戲的畫面擬真度上升到一個新的高度,而這一代的英偉達安培架構RTX顯卡則是開始將這種次時代的遊戲畫面徹徹底底的讓玩家能全方位的體驗到,RTX 3080不僅帶來巨大的性能提升,而且價格也能控制在一個主流的水準,成為玩家真正能享受得起的4K光追遊戲顯卡。

RTX 3080不僅讓4K光追遊戲來到暢玩的水準,並且RTX 3080還是第一款使用GDDR6X的GPU,顯存帶寬又迎來一次飆升;它也是第一款支持HDMI 2.1的GPU,並且支持AV1解碼,之後用戶可以只需要一條HDMI 2.1線就可以在線觀看高達8K 60FPS的HDR內容。4K光追遊戲和8K HDR視頻距離成為主流已經不再遙遠,而這一切將從售價僅699美元的RTX 3080開始。