网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
11月26日漏签0天
显卡吧 关注:7,813,341贴子:207,121,146
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 11回复贴,共1页
<<返回显卡吧
>0< 加载中...

什么年代还在买传统显卡?复盘RTX40,Ada架构新品提升在哪

  • 取消只看楼主
  • 收藏

  • 回复
  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
本文首发于公众号 AMP实验室
鉴于黄皮子还是没在官网发布架构白皮书,本文资料基本来自互联网搜索,也许在后续白皮书公布后会与文章内容有所出入,本文的目的是让各位吧友明白,这一代显卡是否符合预期以及到底值不值得购买。
先来看看核心框图


  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
完整版AD102配置12个GPC图形处理集群,与上世代的GA102相比增加了5个。而每个GPC又由6个TPC纹理处理集群——12个SM流式多处理器组成。从这个层级来说,和Ampere架构比较是没有变化的。
左为GA10x的SM框图,右为AD10x的SM框图
到SM层面,查找之前公布的SM框图,不难发现,相比于GA10x核心的SM架构,AD10x核心的SM架构几乎没有变化。主要的增强在于第四代tensor core张量核心,以及第三代RT core光追核心。并且以框图的面积表示,4th tensor core的占用面积有了约20%增加。而CUDA也就是FP32/INT32单元,并没有变化。


2025-11-26 23:56:18
广告
不感兴趣
开通SVIP免广告
  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

总的来说,在底层上的进步来自于第四代张量核心以及第三代光追核心,传统光栅性能如果在同一规格上,是和安培架构无异的,也就是说,次级的AD103核心的完整版SKU传统性能基本等于GA102的RTX 3090Ti,而这两个GPU刚好也是10752个CUDA内核。


  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
然后是缓存

可以先来看看两代的核心差距在哪里,没错,这次AD102中内建了大面积的L2缓存,并且由全部的GPC共享使用,容量从前代的6MB暴增到96MB。除了共享的L2,每个SM还有自己的128KB L1数据缓存和共享缓存,总计有18MB的L1缓存。
缓存在显卡中起到的作用和CPU是一致的,预载入显存中存放的数据然后在负载时高速交给核心运算,目前显卡上的缓存大小还远远没有达到那个临界点,但是缓存往往需要占用大面积的芯片尺寸。


  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
SER
新的特性技术,着色器执行重排序,通过即时安排着色器负载,提高GPU资源利用率。打个比方,有成千上万道个位数加减法等你运算,但是每批题目的算式都不一样,就得简单先过过脑子审题。而SER就像出题官给你把同样算式的题目放在了一批,这样你就不用过脑子闭眼睛写。

黄皮子称,SER技术可为光追带来3倍性能提升,整体游戏性能提升可达25%,这一技术的创新力度不亚于CPU中的乱序执行。


  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
重点来了,DLSS3.0
在DigitalFoudry数毛社的测试预告片中比较了RTX 4090搭配12900KS在DLSS2.0和DLSS3.0两种情况的游戏帧数,DLSS3.0能做到超出2.0 142%的性能差距。

打个比方,本来只是GPU画了一个树干加几片树叶,然后DLSS把整个树都补足,新的DLSS3.0则是进一步把树被风吹的摇摇晃晃的姿态也脑补了。

但是DLSS3.0的这个深度学习帧生成是40系独占,其中DLSS3.0中有四个组件,分别是光流加速器、游戏引擎运动矢量、卷积自动编码AI生成器和Reflex超低延迟流水线。光流加速器便是DLSS3.0独占于40系的重要原因,它存在于Ada硬件架构中,在框图中可以看到位于GPC外围。


  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
英伟达深度学习应用研究副总裁twi@ctnzr Bryan Catanzaro的推文评论中提到,团队可以让DLSS3.0也在其他RTX显卡上运行,只是比较难达到40系的效果,目前DLSS3.0仅供40系独占。



  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
能耗改进
虽然英伟达在发布会上黄皮子吹嘘相比30系能耗比提升2倍,最终带来了和30系前列几款GPU近似的功耗需求,但是有一说一,40系的能耗比完完全全是由台积电4N定制5nm工艺带来的制程红利,在设计层面其实能耗比并没有提升。

FE版RTX 4090 PCB


2025-11-26 23:50:18
广告
不感兴趣
开通SVIP免广告
  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
说一下个人的结论,40系对于30系,传统光栅性能几乎是没啥提升。传统性能主要来自台积电工艺带来的规格和频率的增加,如果是同一CUDA规模的GPU,那么完全就是依靠频率提升了。

如果喜欢玩最新最热的3A大作,并且支持DLSS、光线追踪这些特性,那么选择RTX 40系是没有异议的。但是如果常玩的是一些网游,3A只是偶尔玩玩,那么完全没必要升级40系。


  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

诸位也了解到了三款40系首发的价格,RTX 4090价格没啥吐槽的,本就是旗舰溢价产品,但是也差不多算性能对得起价格。但是4080两款缩水太严重,4080 16G的传统光栅性能对比RTX 3080,基本优势全靠频率提升,而4080 12G更是英伟达把4070甚至4060Ti这一档次的卡强行抬档次,造成一个很高的价格锚定——这一切都是为了尽快清除RTX 30的库存。
可以看到,英伟达现在为了营造差异化,开辟了新的AI性能的道路,新的GPU不再往光栅性能上内卷,而是针对深度学习超分辨率和光线追踪来发展。光线追踪对于开发者来说更为方便,但是成本自然就转嫁到了消费者头上。英伟达地位垄断,很好给各家开发者塞钱来支持。反观AMD,因为地位不足,现在只能在别人开辟的赛道上追逐。


  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • AMPEXIUM
  • Radeon
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
技术分析没人看,难顶


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 11回复贴,共1页
<<返回显卡吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示