大量球體,每個球體八個材質,由於過小零碎的網格所以經過profile分析僅只有5%的頂點獲取效率並瓶頸,不過一般也不太容易讓GPU瓶頸。
不過因此同樣12.2M或著21M多的頂點每幀而已幀數就不高了。
如果你GPU瓶頸了建議你直接換張顯卡了...
使用一個額外動態照明光源產生setpasscall,否則只有drawcall容易變歡樂表測試。(batches可以算做drawcall,但實際開銷佔比低於setpasscall太多)
通過調整範圍生成約一萬多個setpasscall和總計十萬個多的batches來測試CPU。
純靜態網格+材質規避主線程計算骨骼影響。

測試配備:5600X+3060(N卡)
可以評估一下CPU和不同顯卡下能跑到多少,在測試前請關閉所有可能占用L3緩存的浪費,即使CPU未滿載或在SMT下達到50%使用率,仍會因為L3的miss率上升影響10~20%性能。

drawcall負荷重的一個特點就是,PCM工具中觀察cache miss不高,但memory 延遲週期會上升很多。
鏈接轉圖片,用OCR轉換

考慮可能有人連不上mega之類的,使用我域名網盤達成下載。
不過因此同樣12.2M或著21M多的頂點每幀而已幀數就不高了。
如果你GPU瓶頸了建議你直接換張顯卡了...
使用一個額外動態照明光源產生setpasscall,否則只有drawcall容易變歡樂表測試。(batches可以算做drawcall,但實際開銷佔比低於setpasscall太多)
通過調整範圍生成約一萬多個setpasscall和總計十萬個多的batches來測試CPU。
純靜態網格+材質規避主線程計算骨骼影響。

測試配備:5600X+3060(N卡)
可以評估一下CPU和不同顯卡下能跑到多少,在測試前請關閉所有可能占用L3緩存的浪費,即使CPU未滿載或在SMT下達到50%使用率,仍會因為L3的miss率上升影響10~20%性能。

drawcall負荷重的一個特點就是,PCM工具中觀察cache miss不高,但memory 延遲週期會上升很多。
鏈接轉圖片,用OCR轉換

考慮可能有人連不上mega之類的,使用我域名網盤達成下載。