GeForce RTX 4090天梯榜首發(fā)評(píng)測(cè)“踐踏”摩爾定律，開(kāi)啟未來(lái)游戲畫(huà)卷

前沿科技 3年前 (2022) 虛像

終于到了GeForce RTX 4090性能測(cè)試解禁的日子，這款NVIDIA新一代GPU采用了全新的Ada Lovelace架構(gòu)并且用上了先進(jìn)的TSMC 4N NVIDIA定制工藝，在架構(gòu)設(shè)計(jì)和制程工藝上都迎來(lái)了巨大的飛躍。而驚喜還不止于此，此次與GeForce RTX 4090一起推出的還有新一代的DLSS 3技術(shù)，在游戲流暢度、系統(tǒng)延遲和畫(huà)面質(zhì)量上全方位提升游戲體驗(yàn)。

GeForce RTX 4090天梯榜首發(fā)評(píng)測(cè)“踐踏”摩爾定律，開(kāi)啟未來(lái)游戲畫(huà)卷

那么GeForce RTX 4090的性能提升是否真如發(fā)布會(huì)所描述的那樣巨大？實(shí)際的游戲畫(huà)面又能達(dá)到什么樣的水平呢？巨大的散熱器可以給GPU核心的溫度控制在什么程度呢？這些問(wèn)題，本篇內(nèi)容將一一為你解答。

我們也準(zhǔn)備了RTX 4090顯卡的視頻版評(píng)測(cè)，希望大家也能喜歡：

Ada Lovelace架構(gòu)的創(chuàng)新大體上可以分為三個(gè)板塊，分別是帶來(lái)了新的全景光線追蹤、著色器執(zhí)行重排序（SER）和DLSS 3，這是一個(gè)大致的認(rèn)識(shí)，而這些還可以往下細(xì)分，比如新的全景光線追蹤的實(shí)現(xiàn)就包含有新的RT核心、更多的著色器以及新的Tensor核心，而DLSS 3更是一系列技術(shù)的結(jié)合。

全景光線追蹤游戲畫(huà)面

全景光線追蹤，從名字就能看出來(lái)它對(duì)于光線追蹤的計(jì)算要求有了巨大的提高，拿《賽博朋克2077》來(lái)說(shuō)，NVIDIA發(fā)布會(huì)演示的《賽博朋克2077》是將要發(fā)布的最新版，添加了"Overdrive"這一究極畫(huà)質(zhì)模式，大家可以欣賞一下這個(gè)畫(huà)質(zhì)下的畫(huà)面魅力。

對(duì)比的話會(huì)更加明顯，以《逆水寒》為例可以看到現(xiàn)在的全景光線追蹤相對(duì)比沒(méi)有光線追蹤的畫(huà)面觀感，明顯讓游戲體驗(yàn)上升好幾個(gè)檔次。

全景光線追蹤通過(guò)Path Tracing追蹤場(chǎng)景中的每一個(gè)像素上的光照信息，提供像素級(jí)完美的陰影、令人驚嘆的反射和之前看不到的水面折射，在《逆水寒》拂云庭場(chǎng)景中提供令人難以置信、如照片般逼真的細(xì)節(jié)，晝夜都有自然的全局光照，由 NVIDIA 基于儲(chǔ)層的時(shí)空重要性重采樣全局光照 (ReSTIR GI) 構(gòu)建，光線準(zhǔn)確無(wú)誤。

表面和紋理?yè)碛辛钊梭@嘆的基于物理效果的細(xì)節(jié)，可確保這些效果能夠以自然、逼真的方式交互，從而增強(qiáng)畫(huà)質(zhì)和沉浸感。為了對(duì)光線追蹤結(jié)果進(jìn)行降噪，《逆水寒》利用了 NVIDIA Real Time Denoiser (NRD)。

而要實(shí)現(xiàn)這樣的畫(huà)面表現(xiàn)，這個(gè)畫(huà)質(zhì)模式下游戲畫(huà)面的每個(gè)像素會(huì)執(zhí)行約635次光線追蹤計(jì)算來(lái)確定光照，4年前的《戰(zhàn)地5》首次引入實(shí)時(shí)光線追蹤技術(shù)只會(huì)對(duì)畫(huà)面的每個(gè)像素執(zhí)行約39次光線追蹤計(jì)算，等于說(shuō)現(xiàn)在可以實(shí)現(xiàn)的游戲畫(huà)面相比4年前提高了16倍的計(jì)算要求。

理論上要實(shí)現(xiàn)這樣的計(jì)算要求，在技術(shù)沒(méi)有革新的情況下，GPU的晶體管數(shù)目也需要增長(zhǎng)16倍才能滿足需求，這顯然不現(xiàn)實(shí)，事實(shí)上，芯片的晶體管數(shù)目每?jī)赡昴茉黾右槐毒鸵呀?jīng)很不錯(cuò)了。

而Ada Lovelace架構(gòu)的技術(shù)革新就解決了這個(gè)問(wèn)題，在晶體管數(shù)目?jī)H增加約4倍的情況下，卻可以輸出計(jì)算需求量遠(yuǎn)超4倍的游戲畫(huà)面。那么它是怎么做到的呢？這我們就要深入到其架構(gòu)核心圖里面去深究了。

GPC規(guī)模暴漲

我們還是先從完整的核心圖來(lái)看，它仍然沿用了從NVIDIA Pascal架構(gòu)開(kāi)始定下的GPC-TPC-SM層級(jí)架構(gòu)，這也讓我們可以很明顯的看到其規(guī)模相比上一代顯著增大了，GPC從Ampere的最大7個(gè)猛增到12個(gè)，增幅為71.4%，就算其他部分沒(méi)有技術(shù)革新，僅僅這個(gè)暴漲的GPC規(guī)模就已經(jīng)能帶來(lái)很強(qiáng)的性能提升了。

除此之外，與上代的架構(gòu)核心圖對(duì)比的話，會(huì)很明顯的發(fā)現(xiàn)二級(jí)緩存部分的變化可以說(shuō)是最大、最明顯的，Ada Lovelace的二級(jí)緩存規(guī)模暴漲——是上一代的16倍。另外一個(gè)從完整核心圖上也很容易看到的區(qū)別就是Ada Lovelace沒(méi)有了NVLink總線模塊，這個(gè)設(shè)計(jì)方向其實(shí)之前早有痕跡。

GPC架構(gòu)圖

深入到GPC里面，會(huì)發(fā)現(xiàn)這一代仍然是每組GPC包含6組TPC、一個(gè)獨(dú)立光柵引擎、兩個(gè)ROP分區(qū)(每個(gè)包含8個(gè)ROP單元)，而每組TPC又包含2組SM。這樣的組成是與上一代Ampere一模一樣的，所以相應(yīng)的Ada Lovelace的TPC和SM單元也分別增長(zhǎng)到最多72個(gè)和144個(gè)。

SM架構(gòu)圖

再繼續(xù)深入到SM單元里面，會(huì)發(fā)現(xiàn)其整體的結(jié)構(gòu)也是與上一代Ampere架構(gòu)一模一樣，分為四個(gè)一樣的主要計(jì)算模塊，一個(gè)RT光追核心，以及128KB一級(jí)數(shù)據(jù)緩存/共享內(nèi)存等。

而且每個(gè)主要的計(jì)算模塊內(nèi)的結(jié)構(gòu)也和Ampere架構(gòu)一樣，有64KB寄存器文件、零級(jí)指令緩存、一個(gè)Warp調(diào)度器、一個(gè)分配單元、16個(gè)FP32單精度浮點(diǎn)CUDA核心、16個(gè)FP32/INT32單精度浮點(diǎn)和整數(shù)混合CUDA核心、一個(gè)Tensor Core張量核心、四個(gè)載入存儲(chǔ)單元、一個(gè)特殊功能單元(SFU)用于執(zhí)行圖形差值指令。

而差別也很明顯，那就是RT Core光追核心從之前的第二代升級(jí)到第三代，Tensor Core張量核心也從第三代升級(jí)到第四代。

第三代RT Core有效光追算力是上代3倍

全新的第三代RT Core可以提供2倍的光線與三角形求交性能，并且加入了兩個(gè)全新的重要硬件單元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。

Opacity Micro-Map引擎將光線追蹤的Alpha-Test幾何性能提升2倍；而全新的Displaced Micro-Mesh引擎可動(dòng)態(tài)生成微網(wǎng)格，以產(chǎn)生額外的幾何圖形。Displaced Micro-Mesh引擎可在提升幾何圖形豐富度的同時(shí)，不以傳統(tǒng)復(fù)雜幾何圖形處理的性能和存儲(chǔ)成本為代價(jià)。

Displaced Micro-Mesh引擎

我們知道光線追蹤的計(jì)算是以光線射向一個(gè)平面這樣的模型來(lái)計(jì)算的，而實(shí)際的渲染中物體幾乎不會(huì)是簡(jiǎn)單的平面型，而是各種曲面，所以就需要將曲面分解成許多個(gè)小的三角形平面，然后計(jì)算光線與三角形求交。在Ampere架構(gòu)上，面對(duì)一個(gè)復(fù)雜的曲面，如果想得到逼真的光線追蹤效果，那么分解的三角形平面是非常多的，多個(gè)三角形平面帶來(lái)非常復(fù)雜的BVH，這就非常難以計(jì)算。

而Ada Lovelace架構(gòu)的處理方式就不一樣，通過(guò)Displaced Micro-Mesh引擎，它將這些三角形平面僅通過(guò)一個(gè)三角形然后加上不同的位移圖來(lái)表達(dá)，顯著縮短了BVH的構(gòu)建時(shí)間，同時(shí)BVH的存儲(chǔ)空間需求也減小了很多，而最終仍然能實(shí)現(xiàn)一樣的光線追蹤最終渲染效果。

實(shí)際應(yīng)用中由于Displaced Micro-Mesh引擎的存在，面對(duì)復(fù)雜物體的渲染，BVH的構(gòu)建速度可以超過(guò)15倍，而存儲(chǔ)空間的需求卻可以小20倍之多，越是復(fù)雜的物體該引擎的優(yōu)勢(shì)就越能體現(xiàn)。

而且Displaced Micro-Mesh引擎不止可以應(yīng)用在游戲領(lǐng)域，對(duì)于創(chuàng)作領(lǐng)域的用戶來(lái)說(shuō)，也有軟件會(huì)支持，目前Adobe、Simplygon這兩家企業(yè)已經(jīng)確認(rèn)得到了支持。

Opacity Micro-Map引擎

接下來(lái)我們說(shuō)Opacity Micro-Map引擎。

Opacity Micro-Map引擎則是可以對(duì)游戲中常見(jiàn)的樹(shù)葉這類(lèi)物體加速光線追蹤計(jì)算，Ampere架構(gòu)面對(duì)這種場(chǎng)景的Alpha-Test需要多個(gè)著色器來(lái)進(jìn)行計(jì)算，而Opacity Micro-Map引擎對(duì)于這種不透明的對(duì)象進(jìn)行了不透明度的編碼，可以更準(zhǔn)確的對(duì)物體邊緣進(jìn)行光線追蹤計(jì)算，簡(jiǎn)化了葉子輪廓之外完全透明和葉子輪廓之內(nèi)完全不透明的區(qū)域的計(jì)算，耗費(fèi)更少的著色器就可以實(shí)現(xiàn)真實(shí)的光線追蹤渲染。

以《傳送門(mén)》RTX版這個(gè)游戲?yàn)槔琌pacity Micro-Map引擎可以讓Gbuffer填充速度加快30%，游戲幀率提高10%。

而最終，這些改進(jìn)下的第三代RT Core可以使完整的Ada Lovelace架構(gòu)核心具有200 TFLOPS的有效光線追蹤計(jì)算能力（最先上市的RTX 4090達(dá)到191 TFLOPS），幾乎是上代產(chǎn)品的三倍。

第四代Tensor核心性能超上代5倍

對(duì)于第四代Tensor Core，最主要的變化是新增了Hopper FP8 Transformer Engine，可提供1400 TFLOPS的張量處理性能，可以說(shuō)深度學(xué)習(xí)性能得到了巨大的飛躍，這也意味著通過(guò)它可以實(shí)現(xiàn)新的技術(shù)想法，后面的DLSS 3我們會(huì)再次提到Tensor Core的功勞。（最先上市的RTX 4090具有1.32 Petaflops的張量處理性能）

說(shuō)到DLSS 3，作為這次NVIDIA大力宣傳的重點(diǎn)，相信大家都急不可耐想深入的了解這個(gè)技術(shù)，但是為了更清楚的了解DLSS 3，我們還得說(shuō)兩個(gè)新東西，那就是著色器執(zhí)行重排序（SER）和Optical Flow Accelerator光流加速器。

著色器執(zhí)行重排序（SER）提高光追并行效率

著色器執(zhí)行重排序技術(shù)的重大作用是可以極大的提升光線追蹤性能，這是與CPU的亂序執(zhí)行一樣的重大創(chuàng)新。

由于光線追蹤的特性，它很難并行處理，因?yàn)楣饩€會(huì)向各個(gè)方向反射，并與各種類(lèi)型的表面相交，所以光線追蹤的工作負(fù)載需要不同的線程處理，需要不同的著色器，并且需要不同的顯存來(lái)存取中間的計(jì)算過(guò)程。

而我們知道GPU的特點(diǎn)就是適合并行處理，只有面對(duì)并行處理的任務(wù)才可以發(fā)揮GPU的特點(diǎn)獲得更好的計(jì)算效率，而著色器執(zhí)行重排序就是可以通過(guò)實(shí)時(shí)重新調(diào)度任務(wù)，即時(shí)重新安排著色器負(fù)載來(lái)提高執(zhí)行效率，從而更好地利用GPU資源，以實(shí)現(xiàn)更佳的光線追蹤性能，據(jù)稱，SER可以為光線追蹤帶來(lái)最高可達(dá)3倍的性能提升，整體游戲性能提升可高達(dá)25%。

應(yīng)用了著色器執(zhí)行重排序（SER）之后，《賽博朋克2077》在全景光線追蹤模式下可以提高44%的性能，《傳送門(mén)》RTX版可以提高29%的性能，《Racer RTX》可以提高20%的性能。

Ada光流加速器算力可超300 TFLOPS

回看前面的完整核心圖，可以看到左上角清晰的標(biāo)出了Optical Flow Accelerator，也就是光流加速器，而盡管之前的Ampere架構(gòu)中沒(méi)有提到這個(gè)東西，但其實(shí)Ampere架構(gòu)也是有的，不同的是，Ada Lovelace架構(gòu)中大大增加了光流加速器的運(yùn)算性能，從之前Ampere架構(gòu)的126 TFLOPS增加到現(xiàn)在的300 TFLOPS（詳細(xì)值是305 TFLOPS）。

Ada的光流加速器帶來(lái)的巨大的性能提升，具有實(shí)用性了，使DLSS 3能夠預(yù)測(cè)場(chǎng)景中的運(yùn)動(dòng)，使神經(jīng)網(wǎng)絡(luò)能夠在保持圖像質(zhì)量的同時(shí)提高幀率。前面提到的第四代Tensor Core的1400 TFLOPS的張量處理性能，加上這里Ada Lovelace光流加速器300 TFLOPS的光流運(yùn)算性能，再加上后方的NVIDIA超級(jí)計(jì)算機(jī)提供的超過(guò)1 ExaFLOPS的AI計(jì)算性能，這三者就組成了這一代DLSS 3的硬件層面的保障，而前面講了那么多基礎(chǔ)性的東西，現(xiàn)在我們終于可以講到通過(guò)這些東西能實(shí)現(xiàn)的直接與玩家接觸的技術(shù)——DLSS 3。

DLSS 3全方位提升流暢度、延遲和畫(huà)質(zhì)

新一代的DLSS 3包括全新的幀生成技術(shù)、DLSS 2超分辨率技術(shù)和NVIDIA Reflex技術(shù)，與之對(duì)應(yīng)的就是目前在游戲中，DLSS 3對(duì)應(yīng)了這三個(gè)選項(xiàng)——幀生成技術(shù)、DLSS 2超分辨率技術(shù)和NVIDIA Reflex技術(shù)——這三個(gè)都啟用才算是完整的開(kāi)啟了DLSS 3。

而這其中，幀生成必須RTX 40系列才能支持，超分辨率則是RTX 40/30/20系列都支持，Reflex的要求最低——GTX 900系列及以后的都支持。

總得來(lái)說(shuō)，DLSS 3是提升游戲體驗(yàn)的一整套解決方案，也就是說(shuō)對(duì)于游戲體驗(yàn)的三要素——流暢度、延遲和畫(huà)質(zhì)——進(jìn)行全方位的提升，而不是拆東墻補(bǔ)西墻的那種，接下來(lái)我們一個(gè)一個(gè)說(shuō)。

DLSS 3的幀率

先說(shuō)它如何提升幀率。

之前的DLSS 2，提升幀率的方式簡(jiǎn)單說(shuō)就是以低分辨率渲染，然后通過(guò)AI訓(xùn)練重建高分辨率畫(huà)面返回輸出，比如我們將游戲設(shè)置成4K，打開(kāi)DLSS，那么實(shí)際的計(jì)算過(guò)程是先以1080p分辨率渲染幀畫(huà)面，然后AI學(xué)習(xí)經(jīng)過(guò)訓(xùn)練的更高分辨率的幀再將這個(gè)幀畫(huà)面壓縮到4K最終輸出，中間相差的這3/4部分的像素信息是通過(guò)AI計(jì)算來(lái)添加的（本地主要是Tensor Core來(lái)計(jì)算）。由于以低分辨率渲染，所以在AI補(bǔ)充像素的性能足夠的情況下，幀率自然可以提高了。

但是這樣無(wú)法突破CPU性能的瓶頸，畢竟降低原始渲染分辨率可以使得GPU每一幀的計(jì)算量更少，但是CPU每一幀的計(jì)算量是不變化的（因?yàn)镃PU負(fù)責(zé)計(jì)算的部分與分辨率并無(wú)關(guān)系），實(shí)際上，由于幀率提高，CPU的計(jì)算量其實(shí)還增大了。

那么DLSS 3是怎么做的呢？

首先，還是與DLSS 2一樣，比如輸出4K游戲畫(huà)面的話，它也是先降低原始渲染分辨率到1080p，然后通過(guò)AI計(jì)算來(lái)添加像素再壓縮成4K畫(huà)面。在連續(xù)的游戲畫(huà)面中，我們就可以通過(guò)這樣得到連續(xù)的4K幀畫(huà)面，第1幀、第2幀、第3幀等等。

然后這樣的每?jī)蓭g，DLSS 3通過(guò)光流加速器為神經(jīng)網(wǎng)絡(luò)提供像素級(jí)的幀到幀的運(yùn)動(dòng)方向和速度信息，然后通過(guò)分析前一幀和當(dāng)前幀幾何圖形和像素的運(yùn)動(dòng)矢量并將其輸入至神經(jīng)網(wǎng)絡(luò)，就能計(jì)算出兩幀中間的幀畫(huà)面了。

實(shí)現(xiàn)超越CPU限制的幀數(shù)

這樣連續(xù)下去的話，原本的第1幀、第2幀、第3幀中間都會(huì)有一個(gè)新的幀，等于實(shí)際最終輸出的幀畫(huà)面中，有1/2是沒(méi)有CPU參與的，完全是GPU計(jì)算出來(lái)的，所以理論上可以將原本受限于CPU性能的游戲幀率提高一倍。

另外，我們?nèi)リP(guān)注像素的話，會(huì)發(fā)現(xiàn)靠傳統(tǒng)渲染方式計(jì)算的像素其實(shí)只有1/8，最終輸出的游戲畫(huà)面7/8的像素其實(shí)都是通過(guò)DLSS 3的一系列AI計(jì)算填補(bǔ)上的，這極大的提升了效率。

DLSS 3的畫(huà)質(zhì)

然后我們說(shuō)下畫(huà)質(zhì)。

其實(shí)看我們的網(wǎng)站的網(wǎng)友評(píng)論可以看到還是有很多網(wǎng)友對(duì)DLSS技術(shù)很抗拒，認(rèn)為不是原始渲染出的畫(huà)面就不好，筆者認(rèn)為這一觀念是需要改變了。且不說(shuō)網(wǎng)友有這一觀念可能是由于初代DLSS技術(shù)確實(shí)效果不佳，形成了刻板印象，即便之后的DLSS 2超分辨率技術(shù)已經(jīng)有很好的畫(huà)面也很難摒棄已經(jīng)形成的觀念，我們可以比較一下這幾幀畫(huà)面，完全看不出區(qū)別。

對(duì)于DLSS 3的生成幀這方面大家不免想到已經(jīng)問(wèn)世好久的各種插幀技術(shù)，DLSS 3的生成幀確實(shí)也可以算作插幀的一種，但是又與其他的插幀技術(shù)完全不一樣。

簡(jiǎn)單的插幀技術(shù)利用兩幀之間像素的位移來(lái)確定中間幀的圖像，這樣其實(shí)非常容易出現(xiàn)明顯令人覺(jué)得視覺(jué)異常的畫(huà)面，特別是對(duì)于陰影這種需要計(jì)算的畫(huà)面效果，當(dāng)主體移動(dòng)之后，正確的陰影是需要經(jīng)過(guò)復(fù)雜計(jì)算的，單單根據(jù)像素的位移來(lái)確定的畫(huà)面幾乎肯定違反客觀世界的物理規(guī)律。

而DLSS 3它使用光流加速器分析兩幀連續(xù)的游戲圖像，計(jì)算幀到幀之間物體、元素的運(yùn)動(dòng)矢量數(shù)據(jù)，綜合游戲中的一對(duì)超級(jí)分辨率幀，以及引擎和光流運(yùn)動(dòng)矢量，并將其輸入至卷積神經(jīng)網(wǎng)絡(luò)，計(jì)算生成出新的一幀，大大提高了畫(huà)面的準(zhǔn)確性。

DLSS 3的延遲

最后我們?cè)僬f(shuō)延遲。

通過(guò)前面的梳理大家會(huì)發(fā)現(xiàn)DLSS 3盡管提高了幀速率，也保證了畫(huà)質(zhì)，但是對(duì)于延遲是沒(méi)有縮短的，因?yàn)槊恳粋€(gè)新生成的幀都是需要后一幀渲染出來(lái)之后才可以準(zhǔn)確生成的。更高的幀率提升了游戲的順滑程度，但延遲會(huì)影響游戲的響應(yīng)度，如果延遲太高，游戲的體驗(yàn)也不會(huì)好，而為此，DLSS 3也集成了NVIDIA Reflex技術(shù)來(lái)降低延遲提高響應(yīng)速度。

所以總得來(lái)說(shuō)，DLSS 3是包括了基于AI的超分辨率提升技術(shù)、基于AI的幀生成技術(shù)以及NVIDIA Reflex低延遲技術(shù)這些軟件層面以及第四代Tensor Core的1400 TFLOPS的張量處理性能、Ada Lovelace光流加速器300 TFLOPS的光流運(yùn)算性能以及NVIDIA超級(jí)計(jì)算機(jī)提供的超過(guò)1 ExaFLOPS的AI計(jì)算性能組成的硬件層面綜合實(shí)現(xiàn)的一項(xiàng)新技術(shù)，對(duì)于游戲體驗(yàn)的提升也不是單方面的，而是全方位的提升。

游戲以及應(yīng)用支持

對(duì)于游戲開(kāi)發(fā)者這一邊來(lái)說(shuō)，從支持DLSS 2到支持DLSS 3很容易，大部分引擎開(kāi)發(fā)接口是相通的，DLSS 3還可以通過(guò)Streamline這一NVIDIA發(fā)布的開(kāi)源平臺(tái)進(jìn)行集成，極大的簡(jiǎn)化了游戲開(kāi)發(fā)者對(duì)新技術(shù)的集成工作，可以預(yù)期未來(lái)的DLSS 3集成速度一定不會(huì)慢。

首批宣布即將支持DLSS 3的游戲及應(yīng)用等有35款，包括了《巫師3：狂獵》、《黑神話: 悟空》、《賽博朋克2077》、《逆水寒》、《殺手3》、《微軟模擬飛行》等熱門(mén)游戲以及寒霜引擎、Unity 、虛幻引擎4 & 5 這些游戲引擎，有了這些知名游戲引擎的支持，未來(lái)的DLSS 3游戲數(shù)量可以說(shuō)不用擔(dān)心。

實(shí)現(xiàn)4倍性能提升

至于DLSS 3對(duì)于游戲幀數(shù)的提升，NVIDIA給出的數(shù)據(jù)如上，可以將游戲分為兩類(lèi)，一類(lèi)是今天之前的游戲畫(huà)面，這部分的提升平均在2倍左右，而另一類(lèi)則是之后的游戲畫(huà)面，可以理解為全景光線追蹤的游戲畫(huà)面，對(duì)于這樣的游戲畫(huà)面，提升平均可達(dá)4倍，當(dāng)然，關(guān)于性能提升部分我們后面還會(huì)實(shí)際測(cè)試的。

游戲玩家中除了單機(jī)類(lèi)游戲玩家還有電競(jìng)類(lèi)游戲玩家，新一代GPU也將這方面的體驗(yàn)推到了新高度，現(xiàn)在已經(jīng)可以在1440p分辨率下普遍達(dá)到360幀，而且系統(tǒng)延遲低至10ms之內(nèi)。

電競(jìng)類(lèi)游戲玩家首要看重幀率及延遲，所以之前大都會(huì)在1080p分辨率下進(jìn)行對(duì)戰(zhàn)，以獲取高幀率及低延遲，而新一代GPU將360FPS@1440p成為現(xiàn)實(shí)后，玩家照樣可以在1440p下獲取高幀率及低延遲，而通過(guò)統(tǒng)計(jì)，在27英寸1440p的顯示器上進(jìn)行游戲相比25英寸1080p的顯示器平均成績(jī)會(huì)提高3%，對(duì)于毫厘之爭(zhēng)的電競(jìng)對(duì)戰(zhàn)來(lái)說(shuō)，這也是很重要的。

全新第八代NVENC支持AV1編碼和雙編碼器

Ada Lovelace架構(gòu)相比Ampere架構(gòu)的另一項(xiàng)重要升級(jí)就是NVIDIA 編碼器 (NVENC)升級(jí)到了第八代，開(kāi)始支持AV1編碼了。AV1的效率比H.264高40%，這意味著在傳輸同樣質(zhì)量的畫(huà)面時(shí)候只需要大約70%的數(shù)據(jù)量，或者說(shuō)在同樣的帶寬下可以實(shí)現(xiàn)更清晰的畫(huà)面質(zhì)量，并且由于AV1是免費(fèi)、開(kāi)放的，可以讓廠商節(jié)省相當(dāng)一筆費(fèi)用，AV1已經(jīng)明顯將要取代H.264成為主流格式。

而在中國(guó)的備受歡迎的視頻編輯應(yīng)用"剪映專(zhuān)業(yè)版"、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 較為流行的 Voukoder 插件均支持 AV1，且均可通過(guò)編碼預(yù)設(shè)使用NVENC AV1編碼器。此外，OBS、Discord以及更多的公司都已在采用NVENC AV1編碼器。

首發(fā)的RTX 4090給開(kāi)放了兩個(gè)NVENC編碼器，這兩個(gè)NVENC可實(shí)現(xiàn)協(xié)同工作，并自動(dòng)分配以實(shí)現(xiàn)雙路輸出。全新的雙編碼器可將視頻導(dǎo)出時(shí)間縮短至原來(lái)的一半，未來(lái)，主播用戶可借助第八代編碼器中 AV1 雙編碼器的優(yōu)勢(shì)提升直播體驗(yàn)，還可以通過(guò)OBS Studio 錄制高達(dá) 8K60 的內(nèi)容。

TSMC 4N NVIDIA定制工藝帶來(lái)能耗比的飛躍

這部分我是特意留著作為壓軸好戲來(lái)講的。

先回顧一下幾個(gè)數(shù)據(jù)，2018年的TU102是754mm2，擁有186億個(gè)晶體管；2020年的GA102是628.4mm2，擁有283億個(gè)晶體管；而如今2022年的AD102是608.5mm2，擁有763億個(gè)晶體管。

可以清楚的看到核心面積一直在減小，而晶體管數(shù)目則保持非常高的增長(zhǎng)速度，當(dāng)然，面對(duì)制程在進(jìn)步，這其實(shí)也很正常，但是今年的Ada Lovelace架構(gòu)GPU實(shí)在這方面漲的太恐怖了，AD102晶體管差不多是GA102的2.7倍！

而在先進(jìn)的TSMC 4N NVIDIA定制工藝的加持下，RTX 4090的功耗則與RTX 3090 Ti一樣保持在450W，這足以令人意識(shí)到Ada Lovelace架構(gòu)GPU的能耗比的巨大飛躍，事實(shí)上，新的Ada Lovelace架構(gòu)相比Ampere架構(gòu)實(shí)現(xiàn)了巨大的飛躍，同功耗下的性能可達(dá)2倍。

在能耗比方面，之前Ampere架構(gòu)相比Turing架構(gòu)的提升并不大，這個(gè)我們還專(zhuān)門(mén)做過(guò)測(cè)試——《Ampere、Turing、RNDA比一比：三大架構(gòu)顯卡能耗比對(duì)比測(cè)試》，測(cè)試的結(jié)果是相對(duì)于上一代的Turing架構(gòu)桌面顯卡，Ampere架構(gòu)在能耗比方面具有了12%的提升，并不算出眾，而這一代直接來(lái)了個(gè)2倍的能耗比，讓人感覺(jué)說(shuō)直接進(jìn)步了兩代都不為過(guò)。

首發(fā)的Ada Lovelace顯卡有三張，分別是RTX 4090、RTX 4080 (16GB)和RTX 4080 (12GB)，而其中最早與我們見(jiàn)面的是RTX 4090。

RTX 4090公版顯卡規(guī)格

接下來(lái)我們具體看下RTX 4090的規(guī)格。首先，大家需要知道的是，RTX 4090并不是完整的AD102核心，這幾乎可以肯定的意味著后面還會(huì)有更強(qiáng)大的RTX 4090 Ti這樣的超級(jí)怪獸，當(dāng)然具體出不出？什么時(shí)候出？就有可能會(huì)看競(jìng)爭(zhēng)對(duì)手AMD這邊給不給力了，目前可以肯定英偉達(dá)是留了一手的。

所以對(duì)比方面，盡管英偉達(dá)官方宣傳都是拿RTX 3090 Ti來(lái)對(duì)比（因?yàn)榧词箤?duì)比RTX 3090 Ti，RTX 4090也是足夠稱得上飛躍性的），但是筆者還是加入了RTX 3090的對(duì)比，嚴(yán)格來(lái)說(shuō)，它們之間才是同樣定位的產(chǎn)品。

前面架構(gòu)部分講到過(guò)，這一代的英偉達(dá)Ada Lovelace架構(gòu)仍然采用將特定組數(shù)的CUDA單元、RT核心、Tensor核心封裝為一個(gè)SM單元，然后將一定組數(shù)的SM單元封裝為一個(gè)GPC這樣的層級(jí)結(jié)構(gòu)，最后將幾組GPC單元和內(nèi)部緩存等其他硬件部分組成我們看到的GPU核心。

而RTX 4090相比RTX 3090 Ti和RTX 3090的一個(gè)很直接的增強(qiáng)就是增大了GPC的數(shù)量，從7個(gè)猛增到11個(gè)，不過(guò)RTX 4090的7個(gè)GPC也不是完整的7個(gè)GPC，它與RTX 3090一樣，略微閹割了一點(diǎn)點(diǎn)，其中一組GPC屏蔽了兩組TPC，所以只有64組TPC，對(duì)應(yīng)的具有128個(gè)SM單元、16384個(gè)CUDA核心。

具體到SM單元中，每個(gè)單元所配備的Tensor Core和RT Core與上代是一樣的——即每個(gè)SM單元中配備4個(gè)Tensor Core和1個(gè)RT Core，故而RTX 4090的Tensor Core和RT Core數(shù)量很好算出來(lái)，分別是512個(gè)和128個(gè)。RTX 4090的Tensor Core和RT Core與上一代可不一樣，已經(jīng)分別是第四代和第三代了，單獨(dú)的性能都有增長(zhǎng)，這個(gè)前面已經(jīng)講過(guò)了。

紋理單元和光柵單元方面RTX 4090也有較大的進(jìn)步，分別來(lái)到了512個(gè)和176個(gè)。

L2緩存的增加這次是非常的明顯，RTX 4090的L2緩存已經(jīng)達(dá)到了73728kb，是RTX 3090 Ti的12倍。說(shuō)到緩存就順帶這里說(shuō)一下顯存容量的事兒，這次的RTX 4090也是24GB GDDR6X，與RTX 3090 Ti和RTX 3090一樣，大家可能覺(jué)得沒(méi)什么進(jìn)步，但是因?yàn)長(zhǎng)2緩存的巨大進(jìn)步，實(shí)際的數(shù)據(jù)通信性能是要好很多的。

RTX 4090的顯存帶寬與上代最頂級(jí)的規(guī)格是持平的，其顯存頻率為10501MHz，有效顯存速度21Gbps，顯存位寬384bit，所以最終總的最大顯存帶寬達(dá)到了1008 GB/s，超過(guò)了1TB/s。

頻率也是RTX 4090的亮點(diǎn)，上代的RTX 3090Boost頻率只有1695MHz，即使后面三星的工藝技術(shù)更成熟了，到了最后的RTX 3090 Ti也只是做到了1860MHz，而RTX 4090直接暴漲到了2520MHz，相比RTX 3090提高了825MHz！

至于NVIDIA NVLink，從之前其在游戲卡上逐漸縮減支持就可以看到設(shè)計(jì)趨勢(shì)，上一代僅僅是RTX 3090 Ti和RTX 3090才有，而這一代則是完全取消了。其實(shí)從我們之前的測(cè)試來(lái)看，現(xiàn)在NVLink對(duì)于游戲性能的提升并不劃算，很多游戲設(shè)計(jì)商也不做支持了，所以這個(gè)取消筆者并沒(méi)有感到可惜。

至于其他的顯示器接口規(guī)格、FE版顯卡占用的PCIE插槽位置的數(shù)量、TDP、推薦電源、供電接口和PCIe接口方面，RTX 4090和RTX 3090 Ti是一樣的，不過(guò)雖然都需要占用3個(gè)PCIE插槽位置，但是顯卡本身的厚度還是不一樣的，其實(shí)RTX 4090要更厚一點(diǎn)，這個(gè)我們看下面的RTX 4090公版卡設(shè)計(jì)解析就可以清楚看到了。

另外，筆者要提醒一下的是最低850W的系統(tǒng)電源其實(shí)是英偉達(dá)基于配置Ryzen 9 5900X處理器的PC所作出的建議，所以如果是其他更高功耗的處理器的話，電源要求是要相應(yīng)增加的。

RTX 4090公版卡設(shè)計(jì)

與上一代相比，這一代的NVIDIA RTX 4090 Founder Edition顯卡在包裝上面明顯升級(jí)，不僅包裝體積增大，而且禮盒包裝的精致感也相比上代大大提升。NVIDIA RTX 4090 Founder Edition顯卡的包裝設(shè)計(jì)非常獨(dú)特，將一個(gè)長(zhǎng)方體做對(duì)稱的切割，打開(kāi)方式是向上翻開(kāi)，翻開(kāi)后NVIDIA RTX 4090 Founder Edition顯卡就以45度角垂直于平面的樣子展示在眼前，而向上翻開(kāi)的包裝盒部分可以直接翻到后方，整個(gè)包裝盒由于對(duì)稱性可以形成一個(gè)規(guī)則的三棱柱。

包裝盒背面可以看到NVIDIA RTX 4090 Founder Edition顯卡的一些規(guī)格信息，這里注明該卡尺寸為304×137×61mm，最低需要850W的系統(tǒng)電源，輔助電源接口是一個(gè)450W的第五代PCIE供電接口或者4個(gè)傳統(tǒng)的PCIE 8pin接口（包裝盒中有轉(zhuǎn)接線）。

NVIDIA RTX 4090 Founder Edition顯卡的整體外觀風(fēng)格延續(xù)了上代的設(shè)計(jì)，不過(guò)還是可以明顯的看到不同——顯卡鈦灰色的邊緣出現(xiàn)了曲線。這是由于這一代的風(fēng)扇尺寸增大了，所以與邊緣相交了，于是這一代鈦灰色的邊緣需要留出空間容納這更大尺寸的風(fēng)扇。至于為什么風(fēng)扇增大，顯然是為了更好的散熱效果，據(jù)稱這一代的風(fēng)扇可以多提供20%的風(fēng)量（同噪音下可以多提供15%的風(fēng)量）。

另外，或許是為了呼應(yīng)這里的流線型設(shè)計(jì)，NVIDIA RTX 4090 Founder Edition顯卡的周邊一側(cè)現(xiàn)在也進(jìn)行了流線型設(shè)計(jì)，是向內(nèi)凹陷的那一種曲面，與上一代對(duì)比的話就會(huì)明顯看出來(lái)。此外，還可以明顯的看到NVIDIA RTX 4090 Founder Edition顯卡相比上一代厚了很多，而長(zhǎng)度則稍微還短了一點(diǎn)，但是總的來(lái)說(shuō)，這個(gè)散熱器的規(guī)模是要比上代顯著增大的，可以應(yīng)對(duì)更高的發(fā)熱功耗。

對(duì)于生產(chǎn)力系統(tǒng)來(lái)說(shuō)，顯卡也就是加速卡，NVIDIA RTX 4090 Founder Edition顯卡尾端仍然有螺絲孔用來(lái)在工作站等環(huán)境中安裝顯卡支架，不過(guò)與上一代外露的設(shè)計(jì)相比，這一代特別設(shè)計(jì)了一個(gè)磁吸式的擋片來(lái)遮蓋住，很有特點(diǎn)。

NVIDIA RTX 4090 Founder Edition顯卡其實(shí)非常沉重，重量來(lái)到了2.187kg，拿在手里沉甸甸的，不過(guò)相對(duì)來(lái)說(shuō)，NVIDIA RTX 4090 Founder Edition顯卡的外型相比這一代同型號(hào)的非公版產(chǎn)品來(lái)說(shuō)還是更緊湊一些的，外觀設(shè)計(jì)也更加簡(jiǎn)約、大氣，這個(gè)重量于是還是能傳達(dá)出一些"質(zhì)感上乘"的感覺(jué)，并不會(huì)全是負(fù)面的體驗(yàn)。圖上也可以看到這一代的NVIDIA RTX 4090 Founder Edition顯卡沒(méi)有了NVLink接口。

NVIDIA RTX 4090 Founder Edition顯卡延續(xù)了上一代的雙軸流推挽式風(fēng)扇散熱設(shè)計(jì)——正面有一個(gè)軸流式風(fēng)扇，雖然是軸流式風(fēng)扇，但是經(jīng)過(guò)特殊的風(fēng)道設(shè)計(jì)，這個(gè)軸流式風(fēng)扇吸入冷風(fēng)之后是會(huì)將廢熱通過(guò)檔板那里排出機(jī)箱之外，另一個(gè)風(fēng)扇是在顯卡背面，通過(guò)抽風(fēng)讓冷空氣流經(jīng)散熱鰭片，然后通過(guò)機(jī)箱的后置排風(fēng)扇排出機(jī)箱之外，通過(guò)這種方式能更好的將廢熱定向的引導(dǎo)到機(jī)箱風(fēng)扇的風(fēng)道，避免了機(jī)箱風(fēng)道的凌亂。

NVIDIA RTX 4090 Founder Edition顯卡仍然提供四個(gè)視頻輸出接口，包括三個(gè)DisplayPort 1.4a和一個(gè)HDMI 2.1接口，均可實(shí)現(xiàn)最高4K 120Hz的視頻輸出，并可實(shí)現(xiàn)最多4屏輸出，支持HDCP 2.3，HDMI 2.1接口還支持8K 60Hz HDR以及HDMI 2.1a 接口的可變刷新率功能。

RTX 4090公版卡拆解

RTX 4090公版卡的PCB一直是設(shè)計(jì)典范，在容納所有必須的電子元器件的同時(shí)仍然保持極小的尺寸，這非常考量設(shè)計(jì)技巧，PCB右側(cè)仍然采用了缺口的設(shè)計(jì)，這樣可以保證容納了穿透式風(fēng)流設(shè)計(jì)的風(fēng)扇后仍然將整卡的尺寸控制的盡量短，保證較好的兼容性。

PCB的正中心就是RTX 4090的AD102-300 CPU核心，周?chē)?2顆顯存顆粒圍繞，均是美光的GDDR6X顯存，型號(hào)為美光的D8BZC，單顆2GB容量，32-bit位寬，12顆一共組成24GB 384-bit的顯存規(guī)格。

再往遠(yuǎn)一點(diǎn)的周?chē)褪且还?3相對(duì)供電設(shè)計(jì)，其中核心供電20相，顯存供電3相，供電部分的mosFET均是芯源系統(tǒng)(MPS) 的MP86957，供電控制方面主要是1顆芯源系統(tǒng)(MPS) 的MP2891來(lái)負(fù)責(zé)。

盡管在這么小尺寸的PCB上放下了23相供電，但是仍然可以清楚的看到不少的空焊位，答案不言自明，這就是為將來(lái)的RTX 4090 Ti預(yù)留的，也就是說(shuō)RTX 4090 Ti將使用同款的PCB，那么也可以預(yù)計(jì)其整卡尺寸大概也會(huì)一樣。

再看散熱器部分，RTX 4090公版卡仍然采用了真空腔均熱板設(shè)計(jì)，可以非常高效的將GPU核心的熱量傳導(dǎo)到熱管然后分散到散熱鰭片上，具有6根8mm直徑的熱管，這些熱管上面均覆蓋有鍍層，可以防止日久使用之后表面發(fā)生氧化，鍍層是黑色的也與整體的色調(diào)設(shè)計(jì)搭配，讓顯卡更好看。

測(cè)試平臺(tái)

本次首發(fā)評(píng)測(cè)對(duì)比顯卡包括了：GeForce RTX 3090、GeForce RTX 3090 Ti和AMD陣營(yíng)的Radeon RX 6950 XT，除了Radeon RX 6950 XT沒(méi)有弄到公版卡用了一張技嘉Radeon RX 6950 XT GAMING OC 16G代替之外，其他都是FE公版卡。操作系統(tǒng)為最新的Microsoft Windows 11 22H2 64-bit版，系統(tǒng)的電源選項(xiàng)為高性能模式，在BIOS開(kāi)啟XMP，讓內(nèi)存運(yùn)行在6000的頻率，其他方面不做過(guò)多改變，均采用默認(rèn)設(shè)置。

基準(zhǔn)性能測(cè)試

我們以3DMark作為顯卡基準(zhǔn)性能測(cè)試，測(cè)試項(xiàng)目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme以及Port Royal六個(gè)項(xiàng)目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三個(gè)項(xiàng)目分別測(cè)試的是顯卡在DX11游戲中的1080p分辨率、2K分辨率和4K分辨率下的性能指數(shù)，Time Spy、Time Spy Extreme兩個(gè)項(xiàng)目則是顯卡在DX12游戲中的2K分辨率和4K分辨率下的性能指數(shù)，Port Royal是測(cè)試的顯卡實(shí)時(shí)光線追蹤的性能指數(shù)，具體成績(jī)見(jiàn)下表，表中所列成績(jī)均為3DMark顯卡單項(xiàng)的得分。

可以看到以上一代的RTX 3090為基準(zhǔn)的話，采用新英偉達(dá)Ada Lovelace架構(gòu)的RTX 4090確實(shí)性能暴增。

FireStrike這種面向1080p分辨率的項(xiàng)目其實(shí)對(duì)于RTX 4090來(lái)說(shuō)CPU的瓶頸很?chē)?yán)重了，而且RTX 4090主要是面向4K游戲環(huán)境推出解決方案，所以我們主要關(guān)注Time Spy Extreme這個(gè)子項(xiàng)目的性能對(duì)比（由于幾乎沒(méi)有新游戲采用DX 11 API了，所以Fire Strike Ultra對(duì)于RTX 4090的意義也不大），可以看到RTX 4090相比RTX 3090提升了92.66%，相比上代旗艦RTX 3090 Ti提升75.08%。

光追性能方面，RTX 4090是跟RTX 3090和RTX 3090 Ti相比不僅RT Core數(shù)量大大增多，而且從第二代RT Core升級(jí)到第三代RT Core，所以總的光追性能提升也非常巨大，RTX 4090相比RTX 3090提升了94.34%，相比上代旗艦RTX 3090 Ti提升75.57%。

至于AMD這邊，本來(lái)對(duì)于這種高端顯卡面向的4K游戲環(huán)境和光追游戲環(huán)境方面RX 6950 XT就不如RTX 3090 Ti，所以RTX 4090相比RX 6950 XT更是直接吊打，其Time Spy Extreme相比RX 6950 XT提升高達(dá)85.38%，而Port Royal相比后者更是提升高達(dá)144.83%。

4K分辨率游戲?qū)崪y(cè)

RTX 4090雖然可以用作8K游戲解決方案，不過(guò)由于時(shí)間有限，加上目前8K的普及率遠(yuǎn)不及4K，所以本次首發(fā)評(píng)測(cè)還是選擇了4K這個(gè)分辨率來(lái)作為測(cè)試分辨率（對(duì)于RTX 4090玩8K游戲感興趣的讀者可以留意我們之后的測(cè)試內(nèi)容）。

由于本次新加入的DLSS 3是提高幀率、降低延遲同時(shí)還保持高畫(huà)質(zhì)水準(zhǔn)的全方位解決方案，這也讓我們?cè)诓煌O(shè)置下進(jìn)行對(duì)比成為了合理選擇，即我們回到影響游戲體驗(yàn)的三大要素（流暢度、延遲和畫(huà)質(zhì)）這個(gè)本源上來(lái)，通過(guò)綜合的游戲體驗(yàn)來(lái)判斷提升。

故而本次的游戲?qū)崪y(cè)主要分為三個(gè)部分，分別是DLSS 3開(kāi)啟和關(guān)閉的性能對(duì)比，這個(gè)主要是測(cè)試DLSS 3；RTX 4090+DLSS 3對(duì)比RTX 3090 Ti+DLSS 2，這個(gè)是來(lái)看看RTX 4090和RTX 3090各自在自己軟硬件結(jié)合下的最優(yōu)游戲體驗(yàn)相差多少；最后就是較為傳統(tǒng)的同設(shè)置下的平均幀對(duì)比。

同設(shè)置下的平均幀對(duì)比這部分由于之前的RTX 3090 Ti面對(duì)不開(kāi)光追的情況下已經(jīng)能通殺所有游戲獲得流暢的游戲體驗(yàn)，并且之后的新單機(jī)大作大概率就是像《賽博朋克2077》和《F1 2022》這樣——預(yù)設(shè)最高畫(huà)質(zhì)就是開(kāi)光線追蹤或者直接光線追蹤就強(qiáng)制開(kāi)啟無(wú)法關(guān)閉——所以本次對(duì)于這種高端顯卡就不測(cè)試傳統(tǒng)光柵化的幀數(shù)對(duì)比了（當(dāng)然，另一個(gè)主要原因也是首發(fā)時(shí)間有限，如果讀者們強(qiáng)烈希望測(cè)試這部分的對(duì)比，我們之后也會(huì)視情況做這方面的測(cè)試內(nèi)容）。

所測(cè)游戲或者DEMO可以調(diào)節(jié)畫(huà)質(zhì)的，均采用最高畫(huà)質(zhì)。

DLSS 3開(kāi)啟和關(guān)閉的性能對(duì)比

我們先來(lái)看看DLSS 3開(kāi)啟和關(guān)閉的畫(huà)質(zhì)對(duì)比，這里列出部分測(cè)試游戲的實(shí)機(jī)截圖對(duì)比。

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

DLSS 3 OFF

DLSS 3 ON

大家應(yīng)該可以直觀的看到，DLSS 3的開(kāi)啟不但沒(méi)有降低畫(huà)質(zhì)，而且提升了畫(huà)質(zhì)，這在具有全景光線追蹤的《逆水寒》中尤其明顯，而這正是我們跨畫(huà)質(zhì)對(duì)比的理由，在畫(huà)質(zhì)提升的情況下，平均幀、1%最低幀和系統(tǒng)延遲的對(duì)比到底如何呢？

接下來(lái)就是見(jiàn)證奇跡的時(shí)刻。

在目前具有全景光線追蹤的《逆水寒》"拂云庭"場(chǎng)景中，與關(guān)閉相比，開(kāi)啟的游戲平均幀是后者的5.33倍，1%最低幀是后者的6.57倍，而系統(tǒng)延遲只有后者的15.58%。

在最高畫(huà)質(zhì)的《微軟模擬飛行》中，與關(guān)閉相比，開(kāi)啟的游戲平均幀是后者的2.11倍，1%最低幀是后者的2.31倍，而系統(tǒng)延遲只增大了1ms。

在最高畫(huà)質(zhì)的《賽博朋克2077》中，與關(guān)閉相比，開(kāi)啟的游戲平均幀是后者的4.2倍，1%最低幀是后者的3.71倍，而系統(tǒng)延遲只有后者的59.61%。

在最高畫(huà)質(zhì)的《瘟疫傳說(shuō)：安魂曲》中，與關(guān)閉相比，開(kāi)啟的游戲平均幀是后者的2.37倍，1%最低幀是后者的2.69倍，而系統(tǒng)延遲只有后者的90.48%。

在最高畫(huà)質(zhì)的《F1 2022》中，與關(guān)閉相比，開(kāi)啟的游戲平均幀是后者的2.43倍，1%最低幀是后者的2.56倍，系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下除了點(diǎn)未知問(wèn)題，沒(méi)有測(cè)出來(lái)。

在最高畫(huà)質(zhì)的《Unreal Engine 5: Lyra》DEMO中，與關(guān)閉相比，開(kāi)啟的游戲平均幀是后者的2.6倍，1%最低幀是后者的4.44倍，而系統(tǒng)延遲只有后者的81.67%。

在最高畫(huà)質(zhì)的《Unity Enemies》DEMO中，與關(guān)閉相比，開(kāi)啟的游戲平均幀是后者的3.23倍，1%最低幀是后者的3.67倍，而系統(tǒng)延遲只有后者的31.08%。

在4K的《3DMark DLSS Feature Test》中，與關(guān)閉相比，開(kāi)啟的游戲平均幀是后者的2.97倍，1%最低幀是后者的3.07倍，系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下《3DMark》目前無(wú)法讀出數(shù)據(jù)。

總得來(lái)說(shuō)，這8個(gè)測(cè)試中，與關(guān)閉DLSS 3相比，開(kāi)啟DLSS 3的游戲平均幀是后者的3.16倍，1%最低幀是后者的3.63倍，系統(tǒng)延遲是后者的59.61%。這里主要還是因?yàn)槟壳暗娜肮饩€追蹤游戲太少，只有《逆水寒》這一個(gè)，其他的游戲拉低了這種場(chǎng)景下的提升。

RTX 4090+DLSS 3對(duì)比RTX 3090 Ti+DLSS 2

這里同樣，我們先來(lái)看看RTX 4090+DLSS 3對(duì)比RTX 3090 Ti+DLSS 2的畫(huà)質(zhì)，這里列出部分測(cè)試游戲的實(shí)機(jī)截圖對(duì)比。

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3

DLSS 2

DLSS 3

這里可以看到DLSS 2和DLSS 3的畫(huà)面是看不出什么區(qū)別的，當(dāng)然這里雖然不能保證DLSS 3的畫(huà)面剛好是生成幀的幀畫(huà)面（因?yàn)橹饕且催@部分生成幀的幀畫(huà)面畫(huà)質(zhì)有沒(méi)有降低，因?yàn)槠渌麕?huà)面就是DLSS 2的幀畫(huà)面），所以理論上看視頻對(duì)比更好，不過(guò)由于時(shí)間有限，這次沒(méi)法弄視頻對(duì)比給大家看，而且視頻對(duì)比對(duì)于這樣的4K畫(huà)面我們還需要解決好壓縮方面的問(wèn)題，后續(xù)我們應(yīng)該會(huì)有視頻對(duì)比給大家展示的。

這里筆者說(shuō)一下自己的感受，那就是確實(shí)開(kāi)啟DLSS 3的游戲過(guò)程中并沒(méi)有感覺(jué)到忽好忽差的情況，很穩(wěn)定，而筆者相信人眼是極其敏感的（就算不夠敏感，超出了人眼可以辨別的范圍對(duì)于實(shí)際體驗(yàn)來(lái)說(shuō)也是一樣的意義，對(duì)吧），所以就可以認(rèn)為DLSS 2和DLSS 3的畫(huà)面是沒(méi)有區(qū)別的，這也是我們繼續(xù)對(duì)比平均幀、1%最低幀和系統(tǒng)延遲的理由，因?yàn)檫@就是同畫(huà)質(zhì)的游戲?qū)Ρ取?/p>

那么接著我們看看平均幀、1%最低幀和系統(tǒng)延遲的對(duì)比，結(jié)果如下：

在目前具有全景光線追蹤的《逆水寒》"拂云庭"場(chǎng)景中，與RTX 3090 Ti相比，RTX 4090的游戲平均幀是后者的2.75倍，1%最低幀是后者的3.53倍，而系統(tǒng)延遲只有后者的28.7%。

在最高畫(huà)質(zhì)的《賽博朋克2077》中，與RTX 3090 Ti相比，RTX 4090的游戲平均幀是后者的2.37倍，1%最低幀是后者的2.04倍，而系統(tǒng)延遲只有后者的64.2%。

在最高畫(huà)質(zhì)的《瘟疫傳說(shuō)：安魂曲》中，與RTX 3090 Ti相比，RTX 4090的游戲平均幀是后者的1.82倍，1%最低幀是后者的2.17倍，系統(tǒng)延遲這里稍微增大一點(diǎn)點(diǎn)，增加了7ms。

在最高畫(huà)質(zhì)的《F1 2022》中，與RTX 3090 Ti相比，RTX 4090的游戲平均幀是后者的1.69倍，1%最低幀是后者的1.88倍，系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下除了點(diǎn)未知問(wèn)題，沒(méi)有測(cè)出來(lái)。

在最高畫(huà)質(zhì)的《Unreal Engine 5: Lyra》DEMO中，與RTX 3090 Ti相比，RTX 4090的游戲平均幀是后者的1.68倍，1%最低幀是后者的1.82倍，系統(tǒng)延遲這里稍微增大一點(diǎn)點(diǎn)，增加了12ms。

在最高畫(huà)質(zhì)的《Unity Enemies》DEMO中，與RTX 3090 Ti相比，RTX 4090的游戲平均幀是后者的2.62倍，1%最低幀是后者的2.67倍，系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下除了點(diǎn)未知問(wèn)題，沒(méi)有測(cè)出來(lái)。

在4K的《3DMark DLSS Feature Test》中，與RTX 3090 Ti相比，RTX 4090的游戲平均幀是后者的2.06倍，1%最低幀是后者的2.03倍，系統(tǒng)延遲這里RTX 3090 Ti DLSS 2的情況下《3DMark》目前無(wú)法讀出數(shù)據(jù)。

總得來(lái)說(shuō)，這7個(gè)測(cè)試中，與RTX 3090 Ti相比，RTX 4090的游戲平均幀是后者的2.14倍，1%最低幀是后者的2.31倍，系統(tǒng)延遲是后者的87%。

實(shí)時(shí)光追游戲測(cè)試：暢玩4K光追

這部分除了采用最高畫(huà)質(zhì)之外，不開(kāi)啟DLSS，好讓RX 6950 XT公平的參與對(duì)比。

這里測(cè)試的都是游戲的已發(fā)行版本，可以看到對(duì)于目前的光線追蹤游戲，即使不用DLSS，RTX 4090也能大部分完全流暢運(yùn)行，即便是對(duì)于《賽博朋克2077》、《光明記憶》、《邊境》這樣光線追蹤渲染量很大的游戲，也保證超過(guò)30FPS，也就是說(shuō)基本流暢都是可以做到的。

而對(duì)比性能的話，從8款游戲的綜合結(jié)果來(lái)看，RTX 4090相比RTX 3090 Ti提升為70.39%，相比RTX 3090提升為90.23%，相比RX 6950 XT提升為155.76%，越是光線追蹤壓力大的游戲場(chǎng)景越能體現(xiàn)出RTX 4090的優(yōu)勢(shì)。

溫度測(cè)試

我們的GPU散熱測(cè)試均在裸機(jī)狀態(tài)（如果安裝在機(jī)箱內(nèi)，GPU溫度會(huì)高出5℃左右）下進(jìn)行測(cè)試，測(cè)試環(huán)境溫度約為25.1℃。待機(jī)溫度是開(kāi)機(jī)以后記錄10分鐘，滿載溫度則是完成3DMark壓力測(cè)試后記錄下，數(shù)據(jù)通過(guò)GPU-Z的Log to File功能記錄，以下為溫度測(cè)試曲線。

RTX 4090公版卡支持風(fēng)扇待機(jī)停轉(zhuǎn)，所以待機(jī)溫度都是被動(dòng)散熱下的溫度，經(jīng)過(guò)十分鐘的待機(jī)測(cè)試，從開(kāi)始的29.7攝氏度上升到37.1攝氏度左右，10分鐘待機(jī)過(guò)程中最熱點(diǎn)溫度則是最低是開(kāi)始的38.7攝氏度，偏后段是46.6攝氏度。

滿載狀態(tài)下，最高溫度居然僅僅67.1攝氏度，關(guān)注最熱點(diǎn)溫度的話，最高才75.5攝氏度，而且穩(wěn)定后還要更低一點(diǎn)，這可是擁有763億個(gè)晶體管的怪獸，這個(gè)溫度表現(xiàn)令人再一次感嘆該卡散熱設(shè)計(jì)的偉大。

噪音測(cè)試

噪音方面，噪音測(cè)試在我們的消音室中完成，測(cè)試過(guò)程中噪音最低可以達(dá)到18.2dBA，能很好的測(cè)試出樣品的真實(shí)噪音水平。測(cè)試的狀態(tài)為顯卡散熱風(fēng)扇在3DMark壓力測(cè)試中同轉(zhuǎn)速運(yùn)轉(zhuǎn)的狀態(tài)，可以視為實(shí)際游戲負(fù)載下的噪音狀態(tài)，噪音儀距離聲源處距離為50cm，經(jīng)測(cè)試，該卡此狀態(tài)下運(yùn)轉(zhuǎn)的噪音值為36.4dBA，這個(gè)噪音水平是相當(dāng)?shù)偷模瑢?duì)于玩家實(shí)際使用裝入機(jī)箱里的情況來(lái)說(shuō)，更是很難感知到的。

功耗測(cè)試

通過(guò)我們手中的PCAT套件，可以分別精確地測(cè)量顯卡PCI-E、外接電源接口瓦特?cái)?shù)，顯卡最大功耗在3DMark壓力測(cè)試中獲得，待機(jī)功耗則是在進(jìn)入系統(tǒng)后記錄1分鐘取平均值。

統(tǒng)計(jì)功耗測(cè)試的結(jié)果算出，這張RTX 4090公版卡的整卡待機(jī)功耗平均為25W，滿載功耗平均為425W，峰值功耗到過(guò)450W。對(duì)于這樣級(jí)別的顯卡功耗來(lái)說(shuō)，電源的話如果平臺(tái)其他部件的功耗不高那么可以850W的電源來(lái)帶動(dòng)，如果其他部件的功耗也較高建議至少1000W的電源起步。

在上一代RTX 3080首發(fā)的時(shí)候，我們已經(jīng)非常驚嘆于高端卡能相比上代產(chǎn)品平均提高50%，而這一代，沒(méi)人料到NVIDIA的進(jìn)步速度更勝以往，RTX 4090相比RTX 3090在目前的光線追蹤游戲中可以提高90%的性能，幾乎達(dá)到了翻倍，即便是面對(duì)RTX 3090 Ti，也是提升超過(guò)70%，這個(gè)進(jìn)步的速度更是遠(yuǎn)遠(yuǎn)的將競(jìng)爭(zhēng)對(duì)手AMD現(xiàn)在的旗艦型號(hào)甩在了身后。

而RTX 4090最能發(fā)揮其性能的還并不是這些目前的光線追蹤游戲，而是將要到來(lái)的具有全景光線追蹤的游戲，通過(guò)DLSS 3技術(shù)的加持，RTX 4090可以將這些遠(yuǎn)超當(dāng)下技術(shù)能力的畫(huà)面實(shí)時(shí)渲染，并且能同時(shí)獲得流暢度、低延遲和高畫(huà)質(zhì)的完美游戲體驗(yàn)。

例如本次測(cè)試的《逆水寒》拂云庭場(chǎng)景，它讓我們體驗(yàn)到了未來(lái)游戲的初形態(tài)，堪比CG動(dòng)畫(huà)的游戲畫(huà)面美不甚收，而最神奇的是，在這樣的游戲場(chǎng)景中打開(kāi)DLSS 3的畫(huà)面質(zhì)量相比原生畫(huà)質(zhì)還要好，并且在這樣的基礎(chǔ)上，DLSS 3還進(jìn)一步提升了游戲幀率和系統(tǒng)延遲，AI的魅力令人難以置信。

在我們對(duì)比的8個(gè)測(cè)試中，與關(guān)閉DLSS 3相比，開(kāi)啟DLSS 3的平均幀是后者的3.16倍，這里主要還是因?yàn)槟壳暗娜肮饩€追蹤游戲太少，還沒(méi)能完全表現(xiàn)出RTX 4090+DLSS 3的強(qiáng)大之處，要看到《逆水寒》拂云庭場(chǎng)景中，這個(gè)提升是5.33倍之多！

再加上與上一代RTX 3090 Ti+DLSS 2的搭配相比，在7個(gè)測(cè)試中，RTX 4090+DLSS 3的平均幀是后者的2.14倍，在《逆水寒》拂云庭場(chǎng)景中更是達(dá)到了2.75倍，從所有這些測(cè)試走下來(lái)，筆者最主要的感覺(jué)就是RTX 4090實(shí)在太強(qiáng)大了，強(qiáng)大到對(duì)當(dāng)下的游戲環(huán)境完全是降維打擊，需要未來(lái)的游戲才能真正完全發(fā)揮它的價(jià)值，或許，NVIDIA走的太快了？

現(xiàn)在大家都知道RTX 30系列并不會(huì)馬上退市，而是作為中端和入門(mén)市場(chǎng)的補(bǔ)充與首發(fā)的三張RTX 40系列顯卡同時(shí)在市場(chǎng)銷(xiāo)售，盡管也有其他方面的原因，但正是這樣遠(yuǎn)遠(yuǎn)領(lǐng)先的步伐給了英偉達(dá)采用如此市場(chǎng)策略的資本。

最后說(shuō)一個(gè)有趣的方面——散熱器設(shè)計(jì)，從我們的實(shí)測(cè)來(lái)看，似乎這一代顯卡的散熱器設(shè)計(jì)有點(diǎn)超標(biāo)了，讓RTX 4090公版卡的滿載溫度僅僅只有65.3℃，熱點(diǎn)溫度最高才75.7攝氏度，而RTX 4090公版卡的散熱器設(shè)計(jì)其實(shí)已經(jīng)算含蓄的了，AIC廠商的非公版卡散熱器更是夸張。固然更低的滿載溫度是玩家樂(lè)于看到的，但是這樣的散熱器規(guī)模也讓顯卡的體積暴漲，這就涉及到兼容性的問(wèn)題了，筆者建議購(gòu)買(mǎi)新卡的玩家尤其要注意機(jī)箱兼容性的問(wèn)題。

RTX 4090公版卡極有可能是這一代RTX 4090中機(jī)箱兼容性最好的，好消息是，本次NVIDIA將限量推出GeForce RTX 4090 FE版，于北京時(shí)間10月12日晚9點(diǎn)在京東首發(fā)上市。屆時(shí)玩家可以按照喜好選購(gòu)來(lái)自NVIDIA FE版和來(lái)自AIC供應(yīng)商的RTX 4090 GPU標(biāo)頻版和超頻版。

原文地址：http://www.myzaker.com/article/63458af18e9f09258f46b7a2

ai gpu 分辨率賽博朋克2077 逆水寒

版權(quán)聲明：虛像發(fā)表于 2022年10月12日 am12:51。
轉(zhuǎn)載請(qǐng)注明：GeForce RTX 4090天梯榜首發(fā)評(píng)測(cè)“踐踏”摩爾定律，開(kāi)啟未來(lái)游戲畫(huà)卷 | 快導(dǎo)航網(wǎng)

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

GeForce RTX 4090天梯榜首發(fā)評(píng)測(cè)“踐踏”摩爾定律，開(kāi)啟未來(lái)游戲畫(huà)卷

首次發(fā)現(xiàn)！人類(lèi)母乳中存在微塑料

從 XpressMusic 到 XpressAudio，我從諾基亞 5710 上看到的固執(zhí)與堅(jiān)持

相關(guān)文章

熱門(mén)文章

最新資訊

熱門(mén)網(wǎng)址

熱門(mén)標(biāo)簽

欧美成人黄色小视频,国产人妖乱国产精品人妖,国产性天天综合网,台湾佬中文娱乐久久久

GeForce RTX 4090天梯榜首發(fā)評(píng)測(cè)“踐踏”摩爾定律，開(kāi)啟未來(lái)游戲畫(huà)卷

首次發(fā)現(xiàn)！人類(lèi)母乳中存在微塑料

從 XpressMusic 到 XpressAudio，我從諾基亞 5710 上看到的固執(zhí)與堅(jiān)持

相關(guān)文章

熱門(mén)文章

最新資訊

熱門(mén)網(wǎng)址

熱門(mén)標(biāo)簽

運(yùn)營(yíng)相關(guān)

軟件下載

跨境電商

購(gòu)物網(wǎng)站

設(shè)計(jì)相關(guān)

行業(yè)企業(yè)

自媒體相關(guān)

網(wǎng)絡(luò)科技

編程幫手

綜合其他

站長(zhǎng)助手

知識(shí)充能

電商運(yùn)營(yíng)

生活服務(wù)

榜單排名

服務(wù)生活

日常生活

新聞媒體

教育文化

政府組織

探索發(fā)現(xiàn)

影視工具

影視基地

工具大全

學(xué)術(shù)資源

學(xué)習(xí)教育

娛樂(lè)生活

發(fā)現(xiàn)資源

醫(yī)療健康

興趣愛(ài)好

元宇宙

體育健身

休閑娛樂(lè)

交通旅游

NFT概念

ACG