終于到了GeForce RTX 4090性能測(cè)試解禁的日子,這款NVIDIA新一代GPU采用了全新的Ada Lovelace架構(gòu)并且用上了先進(jìn)的TSMC 4N NVIDIA定制工藝,在架構(gòu)設(shè)計(jì)和制程工藝上都迎來(lái)了巨大的飛躍。而驚喜還不止于此,此次與GeForce RTX 4090一起推出的還有新一代的DLSS 3技術(shù),在游戲流暢度、系統(tǒng)延遲和畫(huà)面質(zhì)量上全方位提升游戲體驗(yàn)。

那么GeForce RTX 4090的性能提升是否真如發(fā)布會(huì)所描述的那樣巨大?實(shí)際的游戲畫(huà)面又能達(dá)到什么樣的水平呢?巨大的散熱器可以給GPU核心的溫度控制在什么程度呢?這些問(wèn)題,本篇內(nèi)容將一一為你解答。
我們也準(zhǔn)備了RTX 4090顯卡的視頻版評(píng)測(cè),希望大家也能喜歡:

Ada Lovelace架構(gòu)的創(chuàng)新大體上可以分為三個(gè)板塊,分別是帶來(lái)了新的全景光線追蹤、著色器執(zhí)行重排序(SER)和DLSS 3,這是一個(gè)大致的認(rèn)識(shí),而這些還可以往下細(xì)分,比如新的全景光線追蹤的實(shí)現(xiàn)就包含有新的RT核心、更多的著色器以及新的Tensor核心,而DLSS 3更是一系列技術(shù)的結(jié)合。
全景光線追蹤游戲畫(huà)面

全景光線追蹤,從名字就能看出來(lái)它對(duì)于光線追蹤的計(jì)算要求有了巨大的提高,拿《賽博朋克2077》來(lái)說(shuō),NVIDIA發(fā)布會(huì)演示的《賽博朋克2077》是將要發(fā)布的最新版,添加了"Overdrive"這一究極畫(huà)質(zhì)模式,大家可以欣賞一下這個(gè)畫(huà)質(zhì)下的畫(huà)面魅力。


對(duì)比的話會(huì)更加明顯,以《逆水寒》為例可以看到現(xiàn)在的全景光線追蹤相對(duì)比沒(méi)有光線追蹤的畫(huà)面觀感,明顯讓游戲體驗(yàn)上升好幾個(gè)檔次。


全景光線追蹤通過(guò)Path Tracing追蹤場(chǎng)景中的每一個(gè)像素上的光照信息,提供像素級(jí)完美的陰影、令人驚嘆的反射和之前看不到的水面折射,在《逆水寒》拂云庭場(chǎng)景中提供令人難以置信、如照片般逼真的細(xì)節(jié),晝夜都有自然的全局光照,由 NVIDIA 基于儲(chǔ)層的時(shí)空重要性重采樣全局光照 (ReSTIR GI) 構(gòu)建,光線準(zhǔn)確無(wú)誤。


表面和紋理?yè)碛辛钊梭@嘆的基于物理效果的細(xì)節(jié),可確保這些效果能夠以自然、逼真的方式交互,從而增強(qiáng)畫(huà)質(zhì)和沉浸感。為了對(duì)光線追蹤結(jié)果進(jìn)行降噪,《逆水寒》利用了 NVIDIA Real Time Denoiser (NRD)。

而要實(shí)現(xiàn)這樣的畫(huà)面表現(xiàn),這個(gè)畫(huà)質(zhì)模式下游戲畫(huà)面的每個(gè)像素會(huì)執(zhí)行約635次光線追蹤計(jì)算來(lái)確定光照,4年前的《戰(zhàn)地5》首次引入實(shí)時(shí)光線追蹤技術(shù)只會(huì)對(duì)畫(huà)面的每個(gè)像素執(zhí)行約39次光線追蹤計(jì)算,等于說(shuō)現(xiàn)在可以實(shí)現(xiàn)的游戲畫(huà)面相比4年前提高了16倍的計(jì)算要求。

理論上要實(shí)現(xiàn)這樣的計(jì)算要求,在技術(shù)沒(méi)有革新的情況下,GPU的晶體管數(shù)目也需要增長(zhǎng)16倍才能滿足需求,這顯然不現(xiàn)實(shí),事實(shí)上,芯片的晶體管數(shù)目每?jī)赡昴茉黾右槐毒鸵呀?jīng)很不錯(cuò)了。

而Ada Lovelace架構(gòu)的技術(shù)革新就解決了這個(gè)問(wèn)題,在晶體管數(shù)目?jī)H增加約4倍的情況下,卻可以輸出計(jì)算需求量遠(yuǎn)超4倍的游戲畫(huà)面。那么它是怎么做到的呢?這我們就要深入到其架構(gòu)核心圖里面去深究了。
GPC規(guī)模暴漲

我們還是先從完整的核心圖來(lái)看,它仍然沿用了從NVIDIA Pascal架構(gòu)開(kāi)始定下的GPC-TPC-SM層級(jí)架構(gòu),這也讓我們可以很明顯的看到其規(guī)模相比上一代顯著增大了,GPC從Ampere的最大7個(gè)猛增到12個(gè),增幅為71.4%,就算其他部分沒(méi)有技術(shù)革新,僅僅這個(gè)暴漲的GPC規(guī)模就已經(jīng)能帶來(lái)很強(qiáng)的性能提升了。
除此之外,與上代的架構(gòu)核心圖對(duì)比的話,會(huì)很明顯的發(fā)現(xiàn)二級(jí)緩存部分的變化可以說(shuō)是最大、最明顯的,Ada Lovelace的二級(jí)緩存規(guī)模暴漲——是上一代的16倍。另外一個(gè)從完整核心圖上也很容易看到的區(qū)別就是Ada Lovelace沒(méi)有了NVLink總線模塊,這個(gè)設(shè)計(jì)方向其實(shí)之前早有痕跡。
GPC架構(gòu)圖

深入到GPC里面,會(huì)發(fā)現(xiàn)這一代仍然是每組GPC包含6組TPC、一個(gè)獨(dú)立光柵引擎、兩個(gè)ROP分區(qū)(每個(gè)包含8個(gè)ROP單元),而每組TPC又包含2組SM。這樣的組成是與上一代Ampere一模一樣的,所以相應(yīng)的Ada Lovelace的TPC和SM單元也分別增長(zhǎng)到最多72個(gè)和144個(gè)。
SM架構(gòu)圖

再繼續(xù)深入到SM單元里面,會(huì)發(fā)現(xiàn)其整體的結(jié)構(gòu)也是與上一代Ampere架構(gòu)一模一樣,分為四個(gè)一樣的主要計(jì)算模塊,一個(gè)RT光追核心,以及128KB一級(jí)數(shù)據(jù)緩存/共享內(nèi)存等。
而且每個(gè)主要的計(jì)算模塊內(nèi)的結(jié)構(gòu)也和Ampere架構(gòu)一樣,有64KB寄存器文件、零級(jí)指令緩存、一個(gè)Warp調(diào)度器、一個(gè)分配單元、16個(gè)FP32單精度浮點(diǎn)CUDA核心、16個(gè)FP32/INT32單精度浮點(diǎn)和整數(shù)混合CUDA核心、一個(gè)Tensor Core張量核心、四個(gè)載入存儲(chǔ)單元、一個(gè)特殊功能單元(SFU)用于執(zhí)行圖形差值指令。
而差別也很明顯,那就是RT Core光追核心從之前的第二代升級(jí)到第三代,Tensor Core張量核心也從第三代升級(jí)到第四代。
第三代RT Core有效光追算力是上代3倍


全新的第三代RT Core可以提供2倍的光線與三角形求交性能,并且加入了兩個(gè)全新的重要硬件單元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。
Opacity Micro-Map引擎將光線追蹤的Alpha-Test幾何性能提升2倍;而全新的Displaced Micro-Mesh引擎可動(dòng)態(tài)生成微網(wǎng)格,以產(chǎn)生額外的幾何圖形。Displaced Micro-Mesh引擎可在提升幾何圖形豐富度的同時(shí),不以傳統(tǒng)復(fù)雜幾何圖形處理的性能和存儲(chǔ)成本為代價(jià)。
Displaced Micro-Mesh引擎

我們知道光線追蹤的計(jì)算是以光線射向一個(gè)平面這樣的模型來(lái)計(jì)算的,而實(shí)際的渲染中物體幾乎不會(huì)是簡(jiǎn)單的平面型,而是各種曲面,所以就需要將曲面分解成許多個(gè)小的三角形平面,然后計(jì)算光線與三角形求交。在Ampere架構(gòu)上,面對(duì)一個(gè)復(fù)雜的曲面,如果想得到逼真的光線追蹤效果,那么分解的三角形平面是非常多的,多個(gè)三角形平面帶來(lái)非常復(fù)雜的BVH,這就非常難以計(jì)算。

而Ada Lovelace架構(gòu)的處理方式就不一樣,通過(guò)Displaced Micro-Mesh引擎,它將這些三角形平面僅通過(guò)一個(gè)三角形然后加上不同的位移圖來(lái)表達(dá),顯著縮短了BVH的構(gòu)建時(shí)間,同時(shí)BVH的存儲(chǔ)空間需求也減小了很多,而最終仍然能實(shí)現(xiàn)一樣的光線追蹤最終渲染效果。

實(shí)際應(yīng)用中由于Displaced Micro-Mesh引擎的存在,面對(duì)復(fù)雜物體的渲染,BVH的構(gòu)建速度可以超過(guò)15倍,而存儲(chǔ)空間的需求卻可以小20倍之多,越是復(fù)雜的物體該引擎的優(yōu)勢(shì)就越能體現(xiàn)。

而且Displaced Micro-Mesh引擎不止可以應(yīng)用在游戲領(lǐng)域,對(duì)于創(chuàng)作領(lǐng)域的用戶來(lái)說(shuō),也有軟件會(huì)支持,目前Adobe、Simplygon這兩家企業(yè)已經(jīng)確認(rèn)得到了支持。
Opacity Micro-Map引擎
接下來(lái)我們說(shuō)Opacity Micro-Map引擎。

Opacity Micro-Map引擎則是可以對(duì)游戲中常見(jiàn)的樹(shù)葉這類(lèi)物體加速光線追蹤計(jì)算,Ampere架構(gòu)面對(duì)這種場(chǎng)景的Alpha-Test需要多個(gè)著色器來(lái)進(jìn)行計(jì)算,而Opacity Micro-Map引擎對(duì)于這種不透明的對(duì)象進(jìn)行了不透明度的編碼,可以更準(zhǔn)確的對(duì)物體邊緣進(jìn)行光線追蹤計(jì)算,簡(jiǎn)化了葉子輪廓之外完全透明和葉子輪廓之內(nèi)完全不透明的區(qū)域的計(jì)算,耗費(fèi)更少的著色器就可以實(shí)現(xiàn)真實(shí)的光線追蹤渲染。

以《傳送門(mén)》RTX版這個(gè)游戲?yàn)槔琌pacity Micro-Map引擎可以讓Gbuffer填充速度加快30%,游戲幀率提高10%。
而最終,這些改進(jìn)下的第三代RT Core可以使完整的Ada Lovelace架構(gòu)核心具有200 TFLOPS的有效光線追蹤計(jì)算能力(最先上市的RTX 4090達(dá)到191 TFLOPS),幾乎是上代產(chǎn)品的三倍。
第四代Tensor核心性能超上代5倍

對(duì)于第四代Tensor Core,最主要的變化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的張量處理性能,可以說(shuō)深度學(xué)習(xí)性能得到了巨大的飛躍,這也意味著通過(guò)它可以實(shí)現(xiàn)新的技術(shù)想法,后面的DLSS 3我們會(huì)再次提到Tensor Core的功勞。(最先上市的RTX 4090具有1.32 Petaflops的張量處理性能)
說(shuō)到DLSS 3,作為這次NVIDIA大力宣傳的重點(diǎn),相信大家都急不可耐想深入的了解這個(gè)技術(shù),但是為了更清楚的了解DLSS 3,我們還得說(shuō)兩個(gè)新東西,那就是著色器執(zhí)行重排序(SER)和Optical Flow Accelerator光流加速器。
著色器執(zhí)行重排序(SER)提高光追并行效率

著色器執(zhí)行重排序技術(shù)的重大作用是可以極大的提升光線追蹤性能,這是與CPU的亂序執(zhí)行一樣的重大創(chuàng)新。
由于光線追蹤的特性,它很難并行處理,因?yàn)楣饩€會(huì)向各個(gè)方向反射,并與各種類(lèi)型的表面相交,所以光線追蹤的工作負(fù)載需要不同的線程處理,需要不同的著色器,并且需要不同的顯存來(lái)存取中間的計(jì)算過(guò)程。

而我們知道GPU的特點(diǎn)就是適合并行處理,只有面對(duì)并行處理的任務(wù)才可以發(fā)揮GPU的特點(diǎn)獲得更好的計(jì)算效率,而著色器執(zhí)行重排序就是可以通過(guò)實(shí)時(shí)重新調(diào)度任務(wù),即時(shí)重新安排著色器負(fù)載來(lái)提高執(zhí)行效率,從而更好地利用GPU資源,以實(shí)現(xiàn)更佳的光線追蹤性能,據(jù)稱,SER可以為光線追蹤帶來(lái)最高可達(dá)3倍的性能提升,整體游戲性能提升可高達(dá)25%。

應(yīng)用了著色器執(zhí)行重排序(SER)之后,《賽博朋克2077》在全景光線追蹤模式下可以提高44%的性能,《傳送門(mén)》RTX版可以提高29%的性能,《Racer RTX》可以提高20%的性能。
Ada光流加速器算力可超300 TFLOPS

回看前面的完整核心圖,可以看到左上角清晰的標(biāo)出了Optical Flow Accelerator,也就是光流加速器,而盡管之前的Ampere架構(gòu)中沒(méi)有提到這個(gè)東西,但其實(shí)Ampere架構(gòu)也是有的,不同的是,Ada Lovelace架構(gòu)中大大增加了光流加速器的運(yùn)算性能,從之前Ampere架構(gòu)的126 TFLOPS增加到現(xiàn)在的300 TFLOPS(詳細(xì)值是305 TFLOPS)。
Ada的光流加速器帶來(lái)的巨大的性能提升,具有實(shí)用性了,使DLSS 3能夠預(yù)測(cè)場(chǎng)景中的運(yùn)動(dòng),使神經(jīng)網(wǎng)絡(luò)能夠在保持圖像質(zhì)量的同時(shí)提高幀率。前面提到的第四代Tensor Core的1400 TFLOPS的張量處理性能,加上這里Ada Lovelace光流加速器300 TFLOPS的光流運(yùn)算性能,再加上后方的NVIDIA超級(jí)計(jì)算機(jī)提供的超過(guò)1 ExaFLOPS的AI計(jì)算性能,這三者就組成了這一代DLSS 3的硬件層面的保障,而前面講了那么多基礎(chǔ)性的東西,現(xiàn)在我們終于可以講到通過(guò)這些東西能實(shí)現(xiàn)的直接與玩家接觸的技術(shù)——DLSS 3。
DLSS 3全方位提升流暢度、延遲和畫(huà)質(zhì)
新一代的DLSS 3包括全新的幀生成技術(shù)、DLSS 2超分辨率技術(shù)和NVIDIA Reflex技術(shù),與之對(duì)應(yīng)的就是目前在游戲中,DLSS 3對(duì)應(yīng)了這三個(gè)選項(xiàng)——幀生成技術(shù)、DLSS 2超分辨率技術(shù)和NVIDIA Reflex技術(shù)——這三個(gè)都啟用才算是完整的開(kāi)啟了DLSS 3。

而這其中,幀生成必須RTX 40系列才能支持,超分辨率則是RTX 40/30/20系列都支持,Reflex的要求最低——GTX 900系列及以后的都支持。
總得來(lái)說(shuō),DLSS 3是提升游戲體驗(yàn)的一整套解決方案,也就是說(shuō)對(duì)于游戲體驗(yàn)的三要素——流暢度、延遲和畫(huà)質(zhì)——進(jìn)行全方位的提升,而不是拆東墻補(bǔ)西墻的那種,接下來(lái)我們一個(gè)一個(gè)說(shuō)。

DLSS 3的幀率
先說(shuō)它如何提升幀率。

之前的DLSS 2,提升幀率的方式簡(jiǎn)單說(shuō)就是以低分辨率渲染,然后通過(guò)AI訓(xùn)練重建高分辨率畫(huà)面返回輸出,比如我們將游戲設(shè)置成4K,打開(kāi)DLSS,那么實(shí)際的計(jì)算過(guò)程是先以1080p分辨率渲染幀畫(huà)面,然后AI學(xué)習(xí)經(jīng)過(guò)訓(xùn)練的更高分辨率的幀再將這個(gè)幀畫(huà)面壓縮到4K最終輸出,中間相差的這3/4部分的像素信息是通過(guò)AI計(jì)算來(lái)添加的(本地主要是Tensor Core來(lái)計(jì)算)。由于以低分辨率渲染,所以在AI補(bǔ)充像素的性能足夠的情況下,幀率自然可以提高了。
但是這樣無(wú)法突破CPU性能的瓶頸,畢竟降低原始渲染分辨率可以使得GPU每一幀的計(jì)算量更少,但是CPU每一幀的計(jì)算量是不變化的(因?yàn)镃PU負(fù)責(zé)計(jì)算的部分與分辨率并無(wú)關(guān)系),實(shí)際上,由于幀率提高,CPU的計(jì)算量其實(shí)還增大了。
那么DLSS 3是怎么做的呢?

首先,還是與DLSS 2一樣,比如輸出4K游戲畫(huà)面的話,它也是先降低原始渲染分辨率到1080p,然后通過(guò)AI計(jì)算來(lái)添加像素再壓縮成4K畫(huà)面。在連續(xù)的游戲畫(huà)面中,我們就可以通過(guò)這樣得到連續(xù)的4K幀畫(huà)面,第1幀、第2幀、第3幀等等。

然后這樣的每?jī)蓭g,DLSS 3通過(guò)光流加速器為神經(jīng)網(wǎng)絡(luò)提供像素級(jí)的幀到幀的運(yùn)動(dòng)方向和速度信息,然后通過(guò)分析前一幀和當(dāng)前幀幾何圖形和像素的運(yùn)動(dòng)矢量并將其輸入至神經(jīng)網(wǎng)絡(luò),就能計(jì)算出兩幀中間的幀畫(huà)面了。
實(shí)現(xiàn)超越CPU限制的幀數(shù)

這樣連續(xù)下去的話,原本的第1幀、第2幀、第3幀中間都會(huì)有一個(gè)新的幀,等于實(shí)際最終輸出的幀畫(huà)面中,有1/2是沒(méi)有CPU參與的,完全是GPU計(jì)算出來(lái)的,所以理論上可以將原本受限于CPU性能的游戲幀率提高一倍。

另外,我們?nèi)リP(guān)注像素的話,會(huì)發(fā)現(xiàn)靠傳統(tǒng)渲染方式計(jì)算的像素其實(shí)只有1/8,最終輸出的游戲畫(huà)面7/8的像素其實(shí)都是通過(guò)DLSS 3的一系列AI計(jì)算填補(bǔ)上的,這極大的提升了效率。
DLSS 3的畫(huà)質(zhì)
然后我們說(shuō)下畫(huà)質(zhì)。

其實(shí)看我們的網(wǎng)站的網(wǎng)友評(píng)論可以看到還是有很多網(wǎng)友對(duì)DLSS技術(shù)很抗拒,認(rèn)為不是原始渲染出的畫(huà)面就不好,筆者認(rèn)為這一觀念是需要改變了。且不說(shuō)網(wǎng)友有這一觀念可能是由于初代DLSS技術(shù)確實(shí)效果不佳,形成了刻板印象,即便之后的DLSS 2超分辨率技術(shù)已經(jīng)有很好的畫(huà)面也很難摒棄已經(jīng)形成的觀念,我們可以比較一下這幾幀畫(huà)面,完全看不出區(qū)別。

對(duì)于DLSS 3的生成幀這方面大家不免想到已經(jīng)問(wèn)世好久的各種插幀技術(shù),DLSS 3的生成幀確實(shí)也可以算作插幀的一種,但是又與其他的插幀技術(shù)完全不一樣。

簡(jiǎn)單的插幀技術(shù)利用兩幀之間像素的位移來(lái)確定中間幀的圖像,這樣其實(shí)非常容易出現(xiàn)明顯令人覺(jué)得視覺(jué)異常的畫(huà)面,特別是對(duì)于陰影這種需要計(jì)算的畫(huà)面效果,當(dāng)主體移動(dòng)之后,正確的陰影是需要經(jīng)過(guò)復(fù)雜計(jì)算的,單單根據(jù)像素的位移來(lái)確定的畫(huà)面幾乎肯定違反客觀世界的物理規(guī)律。

而DLSS 3它使用光流加速器分析兩幀連續(xù)的游戲圖像,計(jì)算幀到幀之間物體、元素的運(yùn)動(dòng)矢量數(shù)據(jù),綜合游戲中的一對(duì)超級(jí)分辨率幀,以及引擎和光流運(yùn)動(dòng)矢量,并將其輸入至卷積神經(jīng)網(wǎng)絡(luò),計(jì)算生成出新的一幀,大大提高了畫(huà)面的準(zhǔn)確性。
DLSS 3的延遲
最后我們?cè)僬f(shuō)延遲。

通過(guò)前面的梳理大家會(huì)發(fā)現(xiàn)DLSS 3盡管提高了幀速率,也保證了畫(huà)質(zhì),但是對(duì)于延遲是沒(méi)有縮短的,因?yàn)槊恳粋€(gè)新生成的幀都是需要后一幀渲染出來(lái)之后才可以準(zhǔn)確生成的。更高的幀率提升了游戲的順滑程度,但延遲會(huì)影響游戲的響應(yīng)度,如果延遲太高,游戲的體驗(yàn)也不會(huì)好,而為此,DLSS 3也集成了NVIDIA Reflex技術(shù)來(lái)降低延遲提高響應(yīng)速度。

所以總得來(lái)說(shuō),DLSS 3是包括了基于AI的超分辨率提升技術(shù)、基于AI的幀生成技術(shù)以及NVIDIA Reflex低延遲技術(shù)這些軟件層面以及第四代Tensor Core的1400 TFLOPS的張量處理性能、Ada Lovelace光流加速器300 TFLOPS的光流運(yùn)算性能以及NVIDIA超級(jí)計(jì)算機(jī)提供的超過(guò)1 ExaFLOPS的AI計(jì)算性能組成的硬件層面綜合實(shí)現(xiàn)的一項(xiàng)新技術(shù),對(duì)于游戲體驗(yàn)的提升也不是單方面的,而是全方位的提升。
游戲以及應(yīng)用支持

對(duì)于游戲開(kāi)發(fā)者這一邊來(lái)說(shuō),從支持DLSS 2到支持DLSS 3很容易,大部分引擎開(kāi)發(fā)接口是相通的,DLSS 3還可以通過(guò)Streamline這一NVIDIA發(fā)布的開(kāi)源平臺(tái)進(jìn)行集成,極大的簡(jiǎn)化了游戲開(kāi)發(fā)者對(duì)新技術(shù)的集成工作,可以預(yù)期未來(lái)的DLSS 3集成速度一定不會(huì)慢。
首批宣布即將支持DLSS 3的游戲及應(yīng)用等有35款,包括了《巫師3:狂獵》、《黑神話: 悟空》、《賽博朋克2077》、《逆水寒》、《殺手3》、《微軟模擬飛行》等熱門(mén)游戲以及寒霜引擎、Unity 、虛幻引擎4 & 5 這些游戲引擎,有了這些知名游戲引擎的支持,未來(lái)的DLSS 3游戲數(shù)量可以說(shuō)不用擔(dān)心。
實(shí)現(xiàn)4倍性能提升

至于DLSS 3對(duì)于游戲幀數(shù)的提升,NVIDIA給出的數(shù)據(jù)如上,可以將游戲分為兩類(lèi),一類(lèi)是今天之前的游戲畫(huà)面,這部分的提升平均在2倍左右,而另一類(lèi)則是之后的游戲畫(huà)面,可以理解為全景光線追蹤的游戲畫(huà)面,對(duì)于這樣的游戲畫(huà)面,提升平均可達(dá)4倍,當(dāng)然,關(guān)于性能提升部分我們后面還會(huì)實(shí)際測(cè)試的。

游戲玩家中除了單機(jī)類(lèi)游戲玩家還有電競(jìng)類(lèi)游戲玩家,新一代GPU也將這方面的體驗(yàn)推到了新高度,現(xiàn)在已經(jīng)可以在1440p分辨率下普遍達(dá)到360幀,而且系統(tǒng)延遲低至10ms之內(nèi)。

電競(jìng)類(lèi)游戲玩家首要看重幀率及延遲,所以之前大都會(huì)在1080p分辨率下進(jìn)行對(duì)戰(zhàn),以獲取高幀率及低延遲,而新一代GPU將360FPS@1440p成為現(xiàn)實(shí)后,玩家照樣可以在1440p下獲取高幀率及低延遲,而通過(guò)統(tǒng)計(jì),在27英寸1440p的顯示器上進(jìn)行游戲相比25英寸1080p的顯示器平均成績(jī)會(huì)提高3%,對(duì)于毫厘之爭(zhēng)的電競(jìng)對(duì)戰(zhàn)來(lái)說(shuō),這也是很重要的。
全新第八代NVENC支持AV1編碼和雙編碼器

Ada Lovelace架構(gòu)相比Ampere架構(gòu)的另一項(xiàng)重要升級(jí)就是NVIDIA 編碼器 (NVENC)升級(jí)到了第八代,開(kāi)始支持AV1編碼了。AV1的效率比H.264高40%,這意味著在傳輸同樣質(zhì)量的畫(huà)面時(shí)候只需要大約70%的數(shù)據(jù)量,或者說(shuō)在同樣的帶寬下可以實(shí)現(xiàn)更清晰的畫(huà)面質(zhì)量,并且由于AV1是免費(fèi)、開(kāi)放的,可以讓廠商節(jié)省相當(dāng)一筆費(fèi)用,AV1已經(jīng)明顯將要取代H.264成為主流格式。

而在中國(guó)的備受歡迎的視頻編輯應(yīng)用"剪映專(zhuān)業(yè)版"、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 較為流行的 Voukoder 插件均支持 AV1,且均可通過(guò)編碼預(yù)設(shè)使用NVENC AV1編碼器。此外,OBS、Discord以及更多的公司都已在采用NVENC AV1編碼器。

首發(fā)的RTX 4090給開(kāi)放了兩個(gè)NVENC編碼器,這兩個(gè)NVENC可實(shí)現(xiàn)協(xié)同工作,并自動(dòng)分配以實(shí)現(xiàn)雙路輸出。全新的雙編碼器可將視頻導(dǎo)出時(shí)間縮短至原來(lái)的一半,未來(lái),主播用戶可借助第八代編碼器中 AV1 雙編碼器的優(yōu)勢(shì)提升直播體驗(yàn),還可以通過(guò)OBS Studio 錄制高達(dá) 8K60 的內(nèi)容。
TSMC 4N NVIDIA定制工藝帶來(lái)能耗比的飛躍

這部分我是特意留著作為壓軸好戲來(lái)講的。
先回顧一下幾個(gè)數(shù)據(jù),2018年的TU102是754mm2,擁有186億個(gè)晶體管;2020年的GA102是628.4mm2,擁有283億個(gè)晶體管;而如今2022年的AD102是608.5mm2,擁有763億個(gè)晶體管。
可以清楚的看到核心面積一直在減小,而晶體管數(shù)目則保持非常高的增長(zhǎng)速度,當(dāng)然,面對(duì)制程在進(jìn)步,這其實(shí)也很正常,但是今年的Ada Lovelace架構(gòu)GPU實(shí)在這方面漲的太恐怖了,AD102晶體管差不多是GA102的2.7倍!

而在先進(jìn)的TSMC 4N NVIDIA定制工藝的加持下,RTX 4090的功耗則與RTX 3090 Ti一樣保持在450W,這足以令人意識(shí)到Ada Lovelace架構(gòu)GPU的能耗比的巨大飛躍,事實(shí)上,新的Ada Lovelace架構(gòu)相比Ampere架構(gòu)實(shí)現(xiàn)了巨大的飛躍,同功耗下的性能可達(dá)2倍。
在能耗比方面,之前Ampere架構(gòu)相比Turing架構(gòu)的提升并不大,這個(gè)我們還專(zhuān)門(mén)做過(guò)測(cè)試——《Ampere、Turing、RNDA比一比:三大架構(gòu)顯卡能耗比對(duì)比測(cè)試》,測(cè)試的結(jié)果是相對(duì)于上一代的Turing架構(gòu)桌面顯卡,Ampere架構(gòu)在能耗比方面具有了12%的提升,并不算出眾,而這一代直接來(lái)了個(gè)2倍的能耗比,讓人感覺(jué)說(shuō)直接進(jìn)步了兩代都不為過(guò)。
首發(fā)的Ada Lovelace顯卡有三張,分別是RTX 4090、RTX 4080 (16GB)和RTX 4080 (12GB),而其中最早與我們見(jiàn)面的是RTX 4090。
RTX 4090公版顯卡規(guī)格
接下來(lái)我們具體看下RTX 4090的規(guī)格。首先,大家需要知道的是,RTX 4090并不是完整的AD102核心,這幾乎可以肯定的意味著后面還會(huì)有更強(qiáng)大的RTX 4090 Ti這樣的超級(jí)怪獸,當(dāng)然具體出不出?什么時(shí)候出?就有可能會(huì)看競(jìng)爭(zhēng)對(duì)手AMD這邊給不給力了,目前可以肯定英偉達(dá)是留了一手的。
所以對(duì)比方面,盡管英偉達(dá)官方宣傳都是拿RTX 3090 Ti來(lái)對(duì)比(因?yàn)榧词箤?duì)比RTX 3090 Ti,RTX 4090也是足夠稱得上飛躍性的),但是筆者還是加入了RTX 3090的對(duì)比,嚴(yán)格來(lái)說(shuō),它們之間才是同樣定位的產(chǎn)品。

前面架構(gòu)部分講到過(guò),這一代的英偉達(dá)Ada Lovelace架構(gòu)仍然采用將特定組數(shù)的CUDA單元、RT核心、Tensor核心封裝為一個(gè)SM單元,然后將一定組數(shù)的SM單元封裝為一個(gè)GPC這樣的層級(jí)結(jié)構(gòu),最后將幾組GPC單元和內(nèi)部緩存等其他硬件部分組成我們看到的GPU核心。
而RTX 4090相比RTX 3090 Ti和RTX 3090的一個(gè)很直接的增強(qiáng)就是增大了GPC的數(shù)量,從7個(gè)猛增到11個(gè),不過(guò)RTX 4090的7個(gè)GPC也不是完整的7個(gè)GPC,它與RTX 3090一樣,略微閹割了一點(diǎn)點(diǎn),其中一組GPC屏蔽了兩組TPC,所以只有64組TPC,對(duì)應(yīng)的具有128個(gè)SM單元、16384個(gè)CUDA核心。

具體到SM單元中,每個(gè)單元所配備的Tensor Core和RT Core與上代是一樣的——即每個(gè)SM單元中配備4個(gè)Tensor Core和1個(gè)RT Core,故而RTX 4090的Tensor Core和RT Core數(shù)量很好算出來(lái),分別是512個(gè)和128個(gè)。RTX 4090的Tensor Core和RT Core與上一代可不一樣,已經(jīng)分別是第四代和第三代了,單獨(dú)的性能都有增長(zhǎng),這個(gè)前面已經(jīng)講過(guò)了。
紋理單元和光柵單元方面RTX 4090也有較大的進(jìn)步,分別來(lái)到了512個(gè)和176個(gè)。
L2緩存的增加這次是非常的明顯,RTX 4090的L2緩存已經(jīng)達(dá)到了73728kb,是RTX 3090 Ti的12倍。說(shuō)到緩存就順帶這里說(shuō)一下顯存容量的事兒,這次的RTX 4090也是24GB GDDR6X,與RTX 3090 Ti和RTX 3090一樣,大家可能覺(jué)得沒(méi)什么進(jìn)步,但是因?yàn)長(zhǎng)2緩存的巨大進(jìn)步,實(shí)際的數(shù)據(jù)通信性能是要好很多的。
RTX 4090的顯存帶寬與上代最頂級(jí)的規(guī)格是持平的,其顯存頻率為10501MHz,有效顯存速度21Gbps,顯存位寬384bit,所以最終總的最大顯存帶寬達(dá)到了1008 GB/s,超過(guò)了1TB/s。
頻率也是RTX 4090的亮點(diǎn),上代的RTX 3090Boost頻率只有1695MHz,即使后面三星的工藝技術(shù)更成熟了,到了最后的RTX 3090 Ti也只是做到了1860MHz,而RTX 4090直接暴漲到了2520MHz,相比RTX 3090提高了825MHz!
至于NVIDIA NVLink,從之前其在游戲卡上逐漸縮減支持就可以看到設(shè)計(jì)趨勢(shì),上一代僅僅是RTX 3090 Ti和RTX 3090才有,而這一代則是完全取消了。其實(shí)從我們之前的測(cè)試來(lái)看,現(xiàn)在NVLink對(duì)于游戲性能的提升并不劃算,很多游戲設(shè)計(jì)商也不做支持了,所以這個(gè)取消筆者并沒(méi)有感到可惜。
至于其他的顯示器接口規(guī)格、FE版顯卡占用的PCIE插槽位置的數(shù)量、TDP、推薦電源、供電接口和PCIe接口方面,RTX 4090和RTX 3090 Ti是一樣的,不過(guò)雖然都需要占用3個(gè)PCIE插槽位置,但是顯卡本身的厚度還是不一樣的,其實(shí)RTX 4090要更厚一點(diǎn),這個(gè)我們看下面的RTX 4090公版卡設(shè)計(jì)解析就可以清楚看到了。
另外,筆者要提醒一下的是最低850W的系統(tǒng)電源其實(shí)是英偉達(dá)基于配置Ryzen 9 5900X處理器的PC所作出的建議,所以如果是其他更高功耗的處理器的話,電源要求是要相應(yīng)增加的。
RTX 4090公版卡設(shè)計(jì)







與上一代相比,這一代的NVIDIA RTX 4090 Founder Edition顯卡在包裝上面明顯升級(jí),不僅包裝體積增大,而且禮盒包裝的精致感也相比上代大大提升。NVIDIA RTX 4090 Founder Edition顯卡的包裝設(shè)計(jì)非常獨(dú)特,將一個(gè)長(zhǎng)方體做對(duì)稱的切割,打開(kāi)方式是向上翻開(kāi),翻開(kāi)后NVIDIA RTX 4090 Founder Edition顯卡就以45度角垂直于平面的樣子展示在眼前,而向上翻開(kāi)的包裝盒部分可以直接翻到后方,整個(gè)包裝盒由于對(duì)稱性可以形成一個(gè)規(guī)則的三棱柱。


包裝盒背面可以看到NVIDIA RTX 4090 Founder Edition顯卡的一些規(guī)格信息,這里注明該卡尺寸為304×137×61mm,最低需要850W的系統(tǒng)電源,輔助電源接口是一個(gè)450W的第五代PCIE供電接口或者4個(gè)傳統(tǒng)的PCIE 8pin接口(包裝盒中有轉(zhuǎn)接線)。

NVIDIA RTX 4090 Founder Edition顯卡的整體外觀風(fēng)格延續(xù)了上代的設(shè)計(jì),不過(guò)還是可以明顯的看到不同——顯卡鈦灰色的邊緣出現(xiàn)了曲線。這是由于這一代的風(fēng)扇尺寸增大了,所以與邊緣相交了,于是這一代鈦灰色的邊緣需要留出空間容納這更大尺寸的風(fēng)扇。至于為什么風(fēng)扇增大,顯然是為了更好的散熱效果,據(jù)稱這一代的風(fēng)扇可以多提供20%的風(fēng)量(同噪音下可以多提供15%的風(fēng)量)。





另外,或許是為了呼應(yīng)這里的流線型設(shè)計(jì),NVIDIA RTX 4090 Founder Edition顯卡的周邊一側(cè)現(xiàn)在也進(jìn)行了流線型設(shè)計(jì),是向內(nèi)凹陷的那一種曲面,與上一代對(duì)比的話就會(huì)明顯看出來(lái)。此外,還可以明顯的看到NVIDIA RTX 4090 Founder Edition顯卡相比上一代厚了很多,而長(zhǎng)度則稍微還短了一點(diǎn),但是總的來(lái)說(shuō),這個(gè)散熱器的規(guī)模是要比上代顯著增大的,可以應(yīng)對(duì)更高的發(fā)熱功耗。





對(duì)于生產(chǎn)力系統(tǒng)來(lái)說(shuō),顯卡也就是加速卡,NVIDIA RTX 4090 Founder Edition顯卡尾端仍然有螺絲孔用來(lái)在工作站等環(huán)境中安裝顯卡支架,不過(guò)與上一代外露的設(shè)計(jì)相比,這一代特別設(shè)計(jì)了一個(gè)磁吸式的擋片來(lái)遮蓋住,很有特點(diǎn)。

NVIDIA RTX 4090 Founder Edition顯卡其實(shí)非常沉重,重量來(lái)到了2.187kg,拿在手里沉甸甸的,不過(guò)相對(duì)來(lái)說(shuō),NVIDIA RTX 4090 Founder Edition顯卡的外型相比這一代同型號(hào)的非公版產(chǎn)品來(lái)說(shuō)還是更緊湊一些的,外觀設(shè)計(jì)也更加簡(jiǎn)約、大氣,這個(gè)重量于是還是能傳達(dá)出一些"質(zhì)感上乘"的感覺(jué),并不會(huì)全是負(fù)面的體驗(yàn)。圖上也可以看到這一代的NVIDIA RTX 4090 Founder Edition顯卡沒(méi)有了NVLink接口。










NVIDIA RTX 4090 Founder Edition顯卡延續(xù)了上一代的雙軸流推挽式風(fēng)扇散熱設(shè)計(jì)——正面有一個(gè)軸流式風(fēng)扇,雖然是軸流式風(fēng)扇,但是經(jīng)過(guò)特殊的風(fēng)道設(shè)計(jì),這個(gè)軸流式風(fēng)扇吸入冷風(fēng)之后是會(huì)將廢熱通過(guò)檔板那里排出機(jī)箱之外,另一個(gè)風(fēng)扇是在顯卡背面,通過(guò)抽風(fēng)讓冷空氣流經(jīng)散熱鰭片,然后通過(guò)機(jī)箱的后置排風(fēng)扇排出機(jī)箱之外,通過(guò)這種方式能更好的將廢熱定向的引導(dǎo)到機(jī)箱風(fēng)扇的風(fēng)道,避免了機(jī)箱風(fēng)道的凌亂。

NVIDIA RTX 4090 Founder Edition顯卡仍然提供四個(gè)視頻輸出接口,包括三個(gè)DisplayPort 1.4a和一個(gè)HDMI 2.1接口,均可實(shí)現(xiàn)最高4K 120Hz的視頻輸出,并可實(shí)現(xiàn)最多4屏輸出,支持HDCP 2.3,HDMI 2.1接口還支持8K 60Hz HDR以及HDMI 2.1a 接口的可變刷新率功能。
RTX 4090公版卡拆解

RTX 4090公版卡的PCB一直是設(shè)計(jì)典范,在容納所有必須的電子元器件的同時(shí)仍然保持極小的尺寸,這非常考量設(shè)計(jì)技巧,PCB右側(cè)仍然采用了缺口的設(shè)計(jì),這樣可以保證容納了穿透式風(fēng)流設(shè)計(jì)的風(fēng)扇后仍然將整卡的尺寸控制的盡量短,保證較好的兼容性。












PCB的正中心就是RTX 4090的AD102-300 CPU核心,周?chē)?2顆顯存顆粒圍繞,均是美光的GDDR6X顯存,型號(hào)為美光的D8BZC,單顆2GB容量,32-bit位寬,12顆一共組成24GB 384-bit的顯存規(guī)格。















再往遠(yuǎn)一點(diǎn)的周?chē)褪且还?3相對(duì)供電設(shè)計(jì),其中核心供電20相,顯存供電3相,供電部分的mosFET均是芯源系統(tǒng)(MPS) 的MP86957,供電控制方面主要是1顆芯源系統(tǒng)(MPS) 的MP2891來(lái)負(fù)責(zé)。


盡管在這么小尺寸的PCB上放下了23相供電,但是仍然可以清楚的看到不少的空焊位,答案不言自明,這就是為將來(lái)的RTX 4090 Ti預(yù)留的,也就是說(shuō)RTX 4090 Ti將使用同款的PCB,那么也可以預(yù)計(jì)其整卡尺寸大概也會(huì)一樣。


再看散熱器部分,RTX 4090公版卡仍然采用了真空腔均熱板設(shè)計(jì),可以非常高效的將GPU核心的熱量傳導(dǎo)到熱管然后分散到散熱鰭片上,具有6根8mm直徑的熱管,這些熱管上面均覆蓋有鍍層,可以防止日久使用之后表面發(fā)生氧化,鍍層是黑色的也與整體的色調(diào)設(shè)計(jì)搭配,讓顯卡更好看。
測(cè)試平臺(tái)

本次首發(fā)評(píng)測(cè)對(duì)比顯卡包括了:GeForce RTX 3090、GeForce RTX 3090 Ti和AMD陣營(yíng)的Radeon RX 6950 XT,除了Radeon RX 6950 XT沒(méi)有弄到公版卡用了一張技嘉Radeon RX 6950 XT GAMING OC 16G代替之外,其他都是FE公版卡。操作系統(tǒng)為最新的Microsoft Windows 11 22H2 64-bit版,系統(tǒng)的電源選項(xiàng)為高性能模式,在BIOS開(kāi)啟XMP,讓內(nèi)存運(yùn)行在6000的頻率,其他方面不做過(guò)多改變,均采用默認(rèn)設(shè)置。
基準(zhǔn)性能測(cè)試
我們以3DMark作為顯卡基準(zhǔn)性能測(cè)試,測(cè)試項(xiàng)目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六個(gè)項(xiàng)目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三個(gè)項(xiàng)目分別測(cè)試的是顯卡在DX11游戲中的1080p分辨率、2K分辨率和4K分辨率下的性能指數(shù),Time Spy、Time Spy Extreme兩個(gè)項(xiàng)目則是顯卡在DX12游戲中的2K分辨率和4K分辨率下的性能指數(shù),Port Royal是測(cè)試的顯卡實(shí)時(shí)光線追蹤的性能指數(shù),具體成績(jī)見(jiàn)下表,表中所列成績(jī)均為3DMark顯卡單項(xiàng)的得分。

可以看到以上一代的RTX 3090為基準(zhǔn)的話,采用新英偉達(dá)Ada Lovelace架構(gòu)的RTX 4090確實(shí)性能暴增。
FireStrike這種面向1080p分辨率的項(xiàng)目其實(shí)對(duì)于RTX 4090來(lái)說(shuō)CPU的瓶頸很?chē)?yán)重了,而且RTX 4090主要是面向4K游戲環(huán)境推出解決方案,所以我們主要關(guān)注Time Spy Extreme這個(gè)子項(xiàng)目的性能對(duì)比(由于幾乎沒(méi)有新游戲采用DX 11 API了,所以Fire Strike Ultra對(duì)于RTX 4090的意義也不大),可以看到RTX 4090相比RTX 3090提升了92.66%,相比上代旗艦RTX 3090 Ti提升75.08%。
光追性能方面,RTX 4090是跟RTX 3090和RTX 3090 Ti相比不僅RT Core數(shù)量大大增多,而且從第二代RT Core升級(jí)到第三代RT Core,所以總的光追性能提升也非常巨大,RTX 4090相比RTX 3090提升了94.34%,相比上代旗艦RTX 3090 Ti提升75.57%。
至于AMD這邊,本來(lái)對(duì)于這種高端顯卡面向的4K游戲環(huán)境和光追游戲環(huán)境方面RX 6950 XT就不如RTX 3090 Ti,所以RTX 4090相比RX 6950 XT更是直接吊打,其Time Spy Extreme相比RX 6950 XT提升高達(dá)85.38%,而Port Royal相比后者更是提升高達(dá)144.83%。
4K分辨率游戲?qū)崪y(cè)
RTX 4090雖然可以用作8K游戲解決方案,不過(guò)由于時(shí)間有限,加上目前8K的普及率遠(yuǎn)不及4K,所以本次首發(fā)評(píng)測(cè)還是選擇了4K這個(gè)分辨率來(lái)作為測(cè)試分辨率(對(duì)于RTX 4090玩8K游戲感興趣的讀者可以留意我們之后的測(cè)試內(nèi)容)。
由于本次新加入的DLSS 3是提高幀率、降低延遲同時(shí)還保持高畫(huà)質(zhì)水準(zhǔn)的全方位解決方案,這也讓我們?cè)诓煌O(shè)置下進(jìn)行對(duì)比成為了合理選擇,即我們回到影響游戲體驗(yàn)的三大要素(流暢度、延遲和畫(huà)質(zhì))這個(gè)本源上來(lái),通過(guò)綜合的游戲體驗(yàn)來(lái)判斷提升。
故而本次的游戲?qū)崪y(cè)主要分為三個(gè)部分,分別是DLSS 3開(kāi)啟和關(guān)閉的性能對(duì)比,這個(gè)主要是測(cè)試DLSS 3;RTX 4090+DLSS 3對(duì)比RTX 3090 Ti+DLSS 2,這個(gè)是來(lái)看看RTX 4090和RTX 3090各自在自己軟硬件結(jié)合下的最優(yōu)游戲體驗(yàn)相差多少;最后就是較為傳統(tǒng)的同設(shè)置下的平均幀對(duì)比。
同設(shè)置下的平均幀對(duì)比這部分由于之前的RTX 3090 Ti面對(duì)不開(kāi)光追的情況下已經(jīng)能通殺所有游戲獲得流暢的游戲體驗(yàn),并且之后的新單機(jī)大作大概率就是像《賽博朋克2077》和《F1 2022》這樣——預(yù)設(shè)最高畫(huà)質(zhì)就是開(kāi)光線追蹤或者直接光線追蹤就強(qiáng)制開(kāi)啟無(wú)法關(guān)閉——所以本次對(duì)于這種高端顯卡就不測(cè)試傳統(tǒng)光柵化的幀數(shù)對(duì)比了(當(dāng)然,另一個(gè)主要原因也是首發(fā)時(shí)間有限,如果讀者們強(qiáng)烈希望測(cè)試這部分的對(duì)比,我們之后也會(huì)視情況做這方面的測(cè)試內(nèi)容)。
所測(cè)游戲或者DEMO可以調(diào)節(jié)畫(huà)質(zhì)的,均采用最高畫(huà)質(zhì)。
DLSS 3開(kāi)啟和關(guān)閉的性能對(duì)比
我們先來(lái)看看DLSS 3開(kāi)啟和關(guān)閉的畫(huà)質(zhì)對(duì)比,這里列出部分測(cè)試游戲的實(shí)機(jī)截圖對(duì)比。

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON
大家應(yīng)該可以直觀的看到,DLSS 3的開(kāi)啟不但沒(méi)有降低畫(huà)質(zhì),而且提升了畫(huà)質(zhì),這在具有全景光線追蹤的《逆水寒》中尤其明顯,而這正是我們跨畫(huà)質(zhì)對(duì)比的理由,在畫(huà)質(zhì)提升的情況下,平均幀、1%最低幀和系統(tǒng)延遲的對(duì)比到底如何呢?
接下來(lái)就是見(jiàn)證奇跡的時(shí)刻。

在目前具有全景光線追蹤的《逆水寒》"拂云庭"場(chǎng)景中,與關(guān)閉相比,開(kāi)啟的游戲平均幀是后者的5.33倍,1%最低幀是后者的6.57倍,而系統(tǒng)延遲只有后者的15.58%。

在最高畫(huà)質(zhì)的《微軟模擬飛行》中,與關(guān)閉相比,開(kāi)啟的游戲平均幀是后者的2.11倍,1%最低幀是后者的2.31倍,而系統(tǒng)延遲只增大了1ms。

在最高畫(huà)質(zhì)的《賽博朋克2077》中,與關(guān)閉相比,開(kāi)啟的游戲平均幀是后者的4.2倍,1%最低幀是后者的3.71倍,而系統(tǒng)延遲只有后者的59.61%。

在最高畫(huà)質(zhì)的《瘟疫傳說(shuō):安魂曲》中,與關(guān)閉相比,開(kāi)啟的游戲平均幀是后者的2.37倍,1%最低幀是后者的2.69倍,而系統(tǒng)延遲只有后者的90.48%。

在最高畫(huà)質(zhì)的《F1 2022》中,與關(guān)閉相比,開(kāi)啟的游戲平均幀是后者的2.43倍,1%最低幀是后者的2.56倍,系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下除了點(diǎn)未知問(wèn)題,沒(méi)有測(cè)出來(lái)。

在最高畫(huà)質(zhì)的《Unreal Engine 5: Lyra》DEMO中,與關(guān)閉相比,開(kāi)啟的游戲平均幀是后者的2.6倍,1%最低幀是后者的4.44倍,而系統(tǒng)延遲只有后者的81.67%。

在最高畫(huà)質(zhì)的《Unity Enemies》DEMO中,與關(guān)閉相比,開(kāi)啟的游戲平均幀是后者的3.23倍,1%最低幀是后者的3.67倍,而系統(tǒng)延遲只有后者的31.08%。

在4K的《3DMark DLSS Feature Test》中,與關(guān)閉相比,開(kāi)啟的游戲平均幀是后者的2.97倍,1%最低幀是后者的3.07倍,系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下《3DMark》目前無(wú)法讀出數(shù)據(jù)。
總得來(lái)說(shuō),這8個(gè)測(cè)試中,與關(guān)閉DLSS 3相比,開(kāi)啟DLSS 3的游戲平均幀是后者的3.16倍,1%最低幀是后者的3.63倍,系統(tǒng)延遲是后者的59.61%。這里主要還是因?yàn)槟壳暗娜肮饩€追蹤游戲太少,只有《逆水寒》這一個(gè),其他的游戲拉低了這種場(chǎng)景下的提升。
RTX 4090+DLSS 3對(duì)比RTX 3090 Ti+DLSS 2
這里同樣,我們先來(lái)看看RTX 4090+DLSS 3對(duì)比RTX 3090 Ti+DLSS 2的畫(huà)質(zhì),這里列出部分測(cè)試游戲的實(shí)機(jī)截圖對(duì)比。

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3
這里可以看到DLSS 2和DLSS 3的畫(huà)面是看不出什么區(qū)別的,當(dāng)然這里雖然不能保證DLSS 3的畫(huà)面剛好是生成幀的幀畫(huà)面(因?yàn)橹饕且催@部分生成幀的幀畫(huà)面畫(huà)質(zhì)有沒(méi)有降低,因?yàn)槠渌麕?huà)面就是DLSS 2的幀畫(huà)面),所以理論上看視頻對(duì)比更好,不過(guò)由于時(shí)間有限,這次沒(méi)法弄視頻對(duì)比給大家看,而且視頻對(duì)比對(duì)于這樣的4K畫(huà)面我們還需要解決好壓縮方面的問(wèn)題,后續(xù)我們應(yīng)該會(huì)有視頻對(duì)比給大家展示的。
這里筆者說(shuō)一下自己的感受,那就是確實(shí)開(kāi)啟DLSS 3的游戲過(guò)程中并沒(méi)有感覺(jué)到忽好忽差的情況,很穩(wěn)定,而筆者相信人眼是極其敏感的(就算不夠敏感,超出了人眼可以辨別的范圍對(duì)于實(shí)際體驗(yàn)來(lái)說(shuō)也是一樣的意義,對(duì)吧),所以就可以認(rèn)為DLSS 2和DLSS 3的畫(huà)面是沒(méi)有區(qū)別的,這也是我們繼續(xù)對(duì)比平均幀、1%最低幀和系統(tǒng)延遲的理由,因?yàn)檫@就是同畫(huà)質(zhì)的游戲?qū)Ρ取?/p>
那么接著我們看看平均幀、1%最低幀和系統(tǒng)延遲的對(duì)比,結(jié)果如下:

在目前具有全景光線追蹤的《逆水寒》"拂云庭"場(chǎng)景中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.75倍,1%最低幀是后者的3.53倍,而系統(tǒng)延遲只有后者的28.7%。

在最高畫(huà)質(zhì)的《賽博朋克2077》中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.37倍,1%最低幀是后者的2.04倍,而系統(tǒng)延遲只有后者的64.2%。

在最高畫(huà)質(zhì)的《瘟疫傳說(shuō):安魂曲》中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的1.82倍,1%最低幀是后者的2.17倍,系統(tǒng)延遲這里稍微增大一點(diǎn)點(diǎn),增加了7ms。

在最高畫(huà)質(zhì)的《F1 2022》中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的1.69倍,1%最低幀是后者的1.88倍,系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下除了點(diǎn)未知問(wèn)題,沒(méi)有測(cè)出來(lái)。

在最高畫(huà)質(zhì)的《Unreal Engine 5: Lyra》DEMO中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的1.68倍,1%最低幀是后者的1.82倍,系統(tǒng)延遲這里稍微增大一點(diǎn)點(diǎn),增加了12ms。

在最高畫(huà)質(zhì)的《Unity Enemies》DEMO中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.62倍,1%最低幀是后者的2.67倍,系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下除了點(diǎn)未知問(wèn)題,沒(méi)有測(cè)出來(lái)。

在4K的《3DMark DLSS Feature Test》中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.06倍,1%最低幀是后者的2.03倍,系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下《3DMark》目前無(wú)法讀出數(shù)據(jù)。
總得來(lái)說(shuō),這7個(gè)測(cè)試中,與RTX 3090 Ti相比,RTX 4090的游戲平均幀是后者的2.14倍,1%最低幀是后者的2.31倍,系統(tǒng)延遲是后者的87%。
實(shí)時(shí)光追游戲測(cè)試:暢玩4K光追
這部分除了采用最高畫(huà)質(zhì)之外,不開(kāi)啟DLSS,好讓RX 6950 XT公平的參與對(duì)比。

這里測(cè)試的都是游戲的已發(fā)行版本,可以看到對(duì)于目前的光線追蹤游戲,即使不用DLSS,RTX 4090也能大部分完全流暢運(yùn)行,即便是對(duì)于《賽博朋克2077》、《光明記憶》、《邊境》這樣光線追蹤渲染量很大的游戲,也保證超過(guò)30FPS,也就是說(shuō)基本流暢都是可以做到的。
而對(duì)比性能的話,從8款游戲的綜合結(jié)果來(lái)看,RTX 4090相比RTX 3090 Ti提升為70.39%,相比RTX 3090提升為90.23%,相比RX 6950 XT提升為155.76%,越是光線追蹤壓力大的游戲場(chǎng)景越能體現(xiàn)出RTX 4090的優(yōu)勢(shì)。
溫度測(cè)試
我們的GPU散熱測(cè)試均在裸機(jī)狀態(tài)(如果安裝在機(jī)箱內(nèi),GPU溫度會(huì)高出5℃左右)下進(jìn)行測(cè)試,測(cè)試環(huán)境溫度約為25.1℃。待機(jī)溫度是開(kāi)機(jī)以后記錄10分鐘,滿載溫度則是完成3DMark壓力測(cè)試后記錄下,數(shù)據(jù)通過(guò)GPU-Z的Log to File功能記錄,以下為溫度測(cè)試曲線。

RTX 4090公版卡支持風(fēng)扇待機(jī)停轉(zhuǎn),所以待機(jī)溫度都是被動(dòng)散熱下的溫度,經(jīng)過(guò)十分鐘的待機(jī)測(cè)試,從開(kāi)始的29.7攝氏度上升到37.1攝氏度左右,10分鐘待機(jī)過(guò)程中最熱點(diǎn)溫度則是最低是開(kāi)始的38.7攝氏度,偏后段是46.6攝氏度。
滿載狀態(tài)下,最高溫度居然僅僅67.1攝氏度,關(guān)注最熱點(diǎn)溫度的話,最高才75.5攝氏度,而且穩(wěn)定后還要更低一點(diǎn),這可是擁有763億個(gè)晶體管的怪獸,這個(gè)溫度表現(xiàn)令人再一次感嘆該卡散熱設(shè)計(jì)的偉大。
噪音測(cè)試

噪音方面,噪音測(cè)試在我們的消音室中完成,測(cè)試過(guò)程中噪音最低可以達(dá)到18.2dBA,能很好的測(cè)試出樣品的真實(shí)噪音水平。測(cè)試的狀態(tài)為顯卡散熱風(fēng)扇在3DMark壓力測(cè)試中同轉(zhuǎn)速運(yùn)轉(zhuǎn)的狀態(tài),可以視為實(shí)際游戲負(fù)載下的噪音狀態(tài),噪音儀距離聲源處距離為50cm,經(jīng)測(cè)試,該卡此狀態(tài)下運(yùn)轉(zhuǎn)的噪音值為36.4dBA,這個(gè)噪音水平是相當(dāng)?shù)偷模瑢?duì)于玩家實(shí)際使用裝入機(jī)箱里的情況來(lái)說(shuō),更是很難感知到的。
功耗測(cè)試
通過(guò)我們手中的PCAT套件,可以分別精確地測(cè)量顯卡PCI-E、外接電源接口瓦特?cái)?shù),顯卡最大功耗在3DMark壓力測(cè)試中獲得,待機(jī)功耗則是在進(jìn)入系統(tǒng)后記錄1分鐘取平均值。

統(tǒng)計(jì)功耗測(cè)試的結(jié)果算出,這張RTX 4090公版卡的整卡待機(jī)功耗平均為25W,滿載功耗平均為425W,峰值功耗到過(guò)450W。對(duì)于這樣級(jí)別的顯卡功耗來(lái)說(shuō),電源的話如果平臺(tái)其他部件的功耗不高那么可以850W的電源來(lái)帶動(dòng),如果其他部件的功耗也較高建議至少1000W的電源起步。
在上一代RTX 3080首發(fā)的時(shí)候,我們已經(jīng)非常驚嘆于高端卡能相比上代產(chǎn)品平均提高50%,而這一代,沒(méi)人料到NVIDIA的進(jìn)步速度更勝以往,RTX 4090相比RTX 3090在目前的光線追蹤游戲中可以提高90%的性能,幾乎達(dá)到了翻倍,即便是面對(duì)RTX 3090 Ti,也是提升超過(guò)70%,這個(gè)進(jìn)步的速度更是遠(yuǎn)遠(yuǎn)的將競(jìng)爭(zhēng)對(duì)手AMD現(xiàn)在的旗艦型號(hào)甩在了身后。
而RTX 4090最能發(fā)揮其性能的還并不是這些目前的光線追蹤游戲,而是將要到來(lái)的具有全景光線追蹤的游戲,通過(guò)DLSS 3技術(shù)的加持,RTX 4090可以將這些遠(yuǎn)超當(dāng)下技術(shù)能力的畫(huà)面實(shí)時(shí)渲染,并且能同時(shí)獲得流暢度、低延遲和高畫(huà)質(zhì)的完美游戲體驗(yàn)。
例如本次測(cè)試的《逆水寒》拂云庭場(chǎng)景,它讓我們體驗(yàn)到了未來(lái)游戲的初形態(tài),堪比CG動(dòng)畫(huà)的游戲畫(huà)面美不甚收,而最神奇的是,在這樣的游戲場(chǎng)景中打開(kāi)DLSS 3的畫(huà)面質(zhì)量相比原生畫(huà)質(zhì)還要好,并且在這樣的基礎(chǔ)上,DLSS 3還進(jìn)一步提升了游戲幀率和系統(tǒng)延遲,AI的魅力令人難以置信。

在我們對(duì)比的8個(gè)測(cè)試中,與關(guān)閉DLSS 3相比,開(kāi)啟DLSS 3的平均幀是后者的3.16倍,這里主要還是因?yàn)槟壳暗娜肮饩€追蹤游戲太少,還沒(méi)能完全表現(xiàn)出RTX 4090+DLSS 3的強(qiáng)大之處,要看到《逆水寒》拂云庭場(chǎng)景中,這個(gè)提升是5.33倍之多!
再加上與上一代RTX 3090 Ti+DLSS 2的搭配相比,在7個(gè)測(cè)試中,RTX 4090+DLSS 3的平均幀是后者的2.14倍,在《逆水寒》拂云庭場(chǎng)景中更是達(dá)到了2.75倍,從所有這些測(cè)試走下來(lái),筆者最主要的感覺(jué)就是RTX 4090實(shí)在太強(qiáng)大了,強(qiáng)大到對(duì)當(dāng)下的游戲環(huán)境完全是降維打擊,需要未來(lái)的游戲才能真正完全發(fā)揮它的價(jià)值,或許,NVIDIA走的太快了?
現(xiàn)在大家都知道RTX 30系列并不會(huì)馬上退市,而是作為中端和入門(mén)市場(chǎng)的補(bǔ)充與首發(fā)的三張RTX 40系列顯卡同時(shí)在市場(chǎng)銷(xiāo)售,盡管也有其他方面的原因,但正是這樣遠(yuǎn)遠(yuǎn)領(lǐng)先的步伐給了英偉達(dá)采用如此市場(chǎng)策略的資本。
最后說(shuō)一個(gè)有趣的方面——散熱器設(shè)計(jì),從我們的實(shí)測(cè)來(lái)看,似乎這一代顯卡的散熱器設(shè)計(jì)有點(diǎn)超標(biāo)了,讓RTX 4090公版卡的滿載溫度僅僅只有65.3℃,熱點(diǎn)溫度最高才75.7攝氏度,而RTX 4090公版卡的散熱器設(shè)計(jì)其實(shí)已經(jīng)算含蓄的了,AIC廠商的非公版卡散熱器更是夸張。固然更低的滿載溫度是玩家樂(lè)于看到的,但是這樣的散熱器規(guī)模也讓顯卡的體積暴漲,這就涉及到兼容性的問(wèn)題了,筆者建議購(gòu)買(mǎi)新卡的玩家尤其要注意機(jī)箱兼容性的問(wèn)題。
RTX 4090公版卡極有可能是這一代RTX 4090中機(jī)箱兼容性最好的,好消息是,本次NVIDIA將限量推出GeForce RTX 4090 FE版,于北京時(shí)間10月12日晚9點(diǎn)在京東首發(fā)上市。屆時(shí)玩家可以按照喜好選購(gòu)來(lái)自NVIDIA FE版和來(lái)自AIC供應(yīng)商的RTX 4090 GPU標(biāo)頻版和超頻版。
原文地址:http://www.myzaker.com/article/63458af18e9f09258f46b7a2
轉(zhuǎn)載請(qǐng)注明:GeForce RTX 4090天梯榜首發(fā)評(píng)測(cè)“踐踏”摩爾定律,開(kāi)啟未來(lái)游戲畫(huà)卷 | 快導(dǎo)航網(wǎng)