GTX480年內難產 NVIDIA費米面臨推倒重來

GTX480年內難產 NVIDIA費米面臨推倒重來
有消息說,NVIDIA即將在3月27日再一次發佈他們由來已久的費米GF100(GTX480)顯卡。這個讓我們等待了有半年之久的顯卡究竟是什麼原因不斷跳票呢?現在就讓我們一起來瞭解一下GF100的近況——雖然最新流片的GF100從台積電回來已經幾個星期了,但是前景仍不容樂觀。

首先,我們在今年1月底得到消息,NVIDIA開始生產A3版GF100。儘管NVIDIA開始從台積電批量接收A3晶片,但是他們沒有為此高興,原因很簡單,A3版GF100晶片儘管工作頻率只有600MHz,但是發熱量已經達到極限的一半,並且其中為頂級產品準備的A3版GF100 SP數量只有448個。最重要的是,台積電的GF100晶片產率百分比還維持在個位數。

更為微妙的是,儘管GF100晶片已經降頻並削減了流處理器數量,但是晶片良率還是無法提升。更糟糕的是,如此之低的良率有可能讓GF100最終推倒重來,完全重新設計。

NVIDIA目前的首要任務就是提升GF100晶片的良率。如果你還記得,我們之前曾經說過,第一次流片的GF100發熱量巨大,良率極低,一片晶圓上的416個晶片當中只能挑選出7顆正常工作的晶片,也就是說GF100的良率低於2%。

GF100出現如此巨大的問題,可以追溯到之前他們在解決問題上的所作所為。GF100目前3個步進都被稱為金屬層流片,比完整的基礎層改進流片成本更低,速度更快,大約兩個月到看到結果。一個完整的基礎層重新流片時間超過一個季度,有可能超過6個月完成,費用超過100萬美元。金屬層流片通常以更大的數字代表流片版本,比如A1到A2,而基礎層重新流片通常以字母變化代表不同版本,比如A3到B1,NVIDIA通常以A1代表晶片首次流片,因此目前A3版本是代表GF100第3次金屬層流片。

金屬層流片往往解決邏輯問題,比如1 + 1 = 3這類的錯誤,而不是解決晶片功耗或產率問題。大多產率問題往往涉及晶片採用的製造工藝,以及晶片工作頻率的既定指標和設計規則等等。因此,金屬層流片可以看作是晶片流片的簡化版本,不牽扯到功耗或良率問題。

NVIDIA在去年9月初得到第一批流片的GF100晶片,第一批流片的GF100時鐘速度為500MHz,晶片生產良率百分比徘徊在驚人的個位數,並且發熱量極大。

第二次流片的A2版GF100,工作頻率有所提升,但是晶片良率仍然低得嚇人,並且A2版GF100流片交付日期逾期一個月左右,所以你可以確信GF100晶片生產仍舊相當困難。這讓包括NVIDIA在內的任何晶片公司都無法容忍。

SemiAccurate網站在去年耶誕節已經聽說NVIDIA收到A3版流片樣品,A3版沒有改善晶片時鐘速度。這並不奇怪,因為NVIDIA使用了錯誤的工具,即修改金屬層來修復時鐘速度和功耗問題。A3版晶片工作熱量也非常大。因此,在去年3月瞭解到GF100設計架構之後,我們一直堅持GF100“無法生產”這種觀點,如果NVIDIA要讓GF100可以生產,那麼必須推倒現在的GF100架構,重新設計GF100。

為什麼GF100境遇如此悲慘?答案很簡單,NVIDIA沒有為GF100生產做好準備。NVIDIA公司根本沒有做生產前的充足試驗和有條不紊的深謀遠慮。和ATI進行對比,我們可以看ATI採用HD4770(RV740晶片)來試驗台積電40納米工藝,並且從中總結經驗教訓,這種學習和汲取最終回饋到Radeon HD 5000系列GPU當中,因此5000系列GPU現在的良率完全在AMD可以接受的範圍之內。

NVIDIA公司在2009年第一季度計畫了四款40納米GPU產品-G212,G214,G216和G218,它們分別是55納米G200b,G92b,G94和G96的40納米馬甲版。 G212向40納米邁進的情況非常糟糕,已經胎死腹中。G214的情況也好不到哪裡去,為了配合40納米大規模的生產,流處理器數量不得不從128個削減到96個,並且改名為G215,並終於在2009年11月批量投產,最終上市名稱改為GT240,G216最終名稱改為GT220, G218上市最終名稱改為G210。這些產品從規劃到上市過程當中,都有無數次改名運動,其中部分產品現在居然改名為300系列,NVIDIA從沒有給出過這樣命名的原因。

NVIDIA G215,G216和G218圖形晶片各自的晶片面積大約是139平方毫米,100平方毫米和57平方毫米。 這些晶片面積都非常小,而高端55納米的G200b晶片面積超過480 平方毫米,更早的65納米G200晶片面積超過575平方毫米。

ATI早在2009年4月就開始大批量出貨面積為137平方毫米的GPU晶片。NVIDIA公司在40nm工藝上遇到嚴重問題,因此去年8月才開始向OEM廠商出貨40納米G216和G218晶片,之後NVIDIA花費幾個月時間,才開始向零售管道出貨40納米G215圖形晶片。

類似圖形晶片之間有粗略的產率對比計算方法,即晶片面積之比的平方,比如200平方毫米晶片的產率是100平方毫米晶片產率的1/4,50平方毫米晶片產率是100平方毫米晶片產率的4倍。圖形晶片設計公司會為每一款晶片設計冗餘結構,以修復製造過程當中的某些類型的錯誤,但這種冗餘結構設計也有限制。

每個冗余設計都增加了晶片的設計面積,因此提升晶片成本。半導體製造是一個複雜的權衡過程,需要考慮到冗余面積成本與產率問題。如果你計畫得當,你可以用非常小的冗餘面積得到非常高的晶片產率。

去年春天和夏天,ATI已經向外界通報,他們在Radeon HD 5000系列晶片製造上吸取了RV740晶片製造的經驗教訓,這是一次非常富有成效的學習經驗。其中深藏不露的秘密就是吸取了40納米工藝在RV740晶片互連金屬層之間的問題。另外,他們也瞭解到台積電40納米工藝,在晶片電晶體構建上差異度非常大,特別是電晶體通道長度上。

既然Anandtech網站在Radeon HD 5000系列歷史文章當中談到這兩個秘密,現在繼續保密也毫無意義。這兩個秘密也改變了電晶體的設計和佈局,以減輕台積電40納米工藝的差異度。並且它們消耗的冗餘面積也比較大,對晶片功耗也有負面影響,但是這都是向40納米進化必須付出的代價。

另一方面,NVIDIA公司在40納米工藝上沒有做足功課。SemiAccurate網站數次獲悉,NVIDIA解決這些的問題的方法是向台積電相關人士“尖叫”宣洩情緒,而不是積極改變晶片設計。

當NVIDIA公司發現問題並希望在GF100上進行修補的時候,為時已晚。除非台積電製造工藝出現奇跡,否則基本上來看,GF100設計是註定要失敗。

可能有人要問為什麼? GF100晶片面大約550平方毫米,比我們之前報導的略大。 NVIDIA公司在100平方毫米晶片上遇到問題,在139平方毫米晶片遇到三個月的嚴重延誤,的產量問題,並取消任何較大面積的晶片設計。NVIDIA沒有像ATI一樣做足40納米功課,現在卻試圖以40納米生產550平方毫米的GF100晶片。

基本的數學計算表明,GF100面積4倍於G215,它們之間在晶片結構上有某些類似,所以你可以預料GF100產率約為G215的1/16, G215本身產率就不高,但即使G215的產率為99%,你也可以預期GF100產率百分比只有個位數。

修復這些問題需要NVIDIA公司做ATI之前做過的功課,即改變晶片設計以適應台積電40納米工藝。這個過程需要很長的工程設計時間和基礎層重新流片,並可能需要針對旗艦產品進行一次金屬層重新流片。如果一切順利,NVIDIA還需要6個月才能帶來GF100的完美版。

雖然這對NVIDIA來說是一件壞事,而且有可能讓讓GF100胎死腹中。但以目前情況來看,GF100實際上變得更糟,該晶片現在尺寸巨大,並且發熱量也很大。業內人士告訴SemiAccurate,在2010 CES上展示的GF100顯卡功耗280瓦。 NVIDIA公司在GF100第一次流片之前,就知道晶片將消耗巨大的電力這一情況,但它強調作為通用計算用途,GF100顯卡功耗並未超出225瓦大關。

為了解決這一問題,NVIDIA的工程師告訴 SemiAccurate,NVIDIA決定讓GF100晶片運行在一個非常低的電壓,即1.05v,相比之下,ATI Cypress(HD 5800系列)工作電壓在1.15V,TDP功耗在188W瓦,費米GF100的既定TDP功耗為225瓦,GF100每0.01v電壓提升會導致工作電流50%的提升,簡而言之,NVIDIA日後如果要選擇提升GF100工作電壓,將帶來更大的功耗和發熱量。

我們之前已經談到台積電40納米工藝有很大可變性和差異度。即有電流“洩漏”問題存在,這意味著和Cypress(HD 5800系列)以及工作頻率更低的樣品晶片相比,GF100零售版將消耗更多電力。這種問題的傳統緩解辦法是提升電壓,讓發生問題的電晶體正常工作,但這也使得電晶體洩漏更多電流,洩漏越多,晶片的發熱量也越大。

溫度更高的電晶體洩漏也比溫度較低的電晶體更多,所以晶片就進入1個由洩漏導致的高溫迴圈,讓洩漏問題越來越惡化。這種惡性循環的解決辦法之一,就是在顯卡上採用更加強悍的散熱器和散熱風扇,但這樣將提升顯卡成本,並且增加噪音。NVIDIA史上的GeForce 5800就是這種惡性循環的典型案例。

台積電40納米這種問題,意味著有大量分散的薄弱的電晶體分佈於晶片當中,並導致想當程度的漏電問題。如果NVIDIA提升電壓,那麼他們也同時大規模提升晶片的功耗。如果不提升電壓,那麼大量脆弱的電晶體基本上不工作,意味著晶片實際上是“破損”或“缺陷” 的,這兩個目標相互對立,而NVIDIA現在低電壓,高電流的政策只會讓問題加速惡化。

如果這還不夠糟糕,消息來源告訴 SemiAccurate說,台積電40nm工藝非常熱敏感。電晶體漏電問題隨溫度提升成正比增加,激烈程度遠遠超過以前的工藝。如果你超過某一臨界溫度,漏電的快速上升令人震驚。

NVIDIA可採用的另一種方法是遮罩那些過於脆弱的電晶體,保持電壓不變。不幸的是,GF100在架構上的設計,讓這個變通方法非常棘手。費米GF100架構上由16個組的32個著色單元組成,構成全部512個著色器。從各方面來看,如果你要遮罩脆弱的電晶體,你被迫去遮罩整個1組32個著色單元,由於脆弱電晶體分散在整個圖形晶片當中,因此,遮罩2組電晶體,把意味著你失去64個著色器,這種級別的著色器丟失,是NVIDIA無法承受的。

就當前的A3版本來說,消息來源告訴我們,NVIDIA不得不在兩個方面進行“修復”,即至少關閉2組著色器,丟失64個著色器,並加大電壓。這使得GPU在消耗更多電力的同時,丟失至少12.5%的預期性能。如果你在一台個人電腦當中使用這種晶片那無所謂,但是如果在超級電腦當中,成百上千大量使用這種晶片,這意味著計算性能的大量丟失。

因為GF100功耗巨大且和電晶體薄弱,費米GF100根本不會運行在高工作頻率。去年3月,消息人士告訴SemiAccurate,預期的時鐘頻率為主頻750MHz,sp頻率1500MHz。既然你只能提升電壓凸現奇跡,因此我們聽到了 A3版GF100只有600MHz,sp頻率只有1200MHz,而且是關閉2組著色器(64個著色器)之後的結果。

NVIDIA公司去年秋天聲稱GF100性能超過Cypress(HD 5800系列)百分之六十以上。現在聲稱的領先幅度迅速下降到百分之四十,在CES上,NVIDIA 公司只能挑選最適合GF100架構的遊戲和基準測試來炫耀它的架構優勢。這些淋漓盡致的百分之六十領先幅度,是他們認為最好的情況。

如果百分之六十的領先幅度來自512個著色器完全工作,750/1500MHz工作頻率,280瓦功耗的費米GF100,那麼448 個自著色器,600/1200MHz工作頻率的GPU只有87.5%的著色器數量和80%的工作頻率, 那麼領先程度就是1600.8750.8 = 112,即領先Cypress(HD 5800系列)大約12%,不要忘記,ATI已經有兩顆Cypress(HD 5800系列)晶片的5970上市,費米 GF100性能不能指望接近5970。

費米GF100晶片面積比Cypress(HD 5800系列)大至少60%,這意味著它的成本也高出Cypress(HD 5800系列)百分之六十以上,實際情況有可能接近3倍之多。 NVIDIA公司需要GF100有顯著超越Cypress(HD 5800系列)的性能標杆,以訂出它可以獲利的價格點,即使不考慮產率問題。 相比之下,ATI已設定HD 5970上限價格。

現在謠言四起,傳聞NVIDIA將只有5000到8000片GF100晶片,以GTX480型號投放市場。SemiAccurate有直接聽一個不太明確的數字,即“低於1萬片”。在今年3月底發佈GF100之前,GF100顯卡已經生產大約2個月時間。NVIDIA在去年年底從台積電購買了大約9000片“風險”晶圓,如果每片晶圓可以拿出104顆晶片候選,那麼9000片晶圓意味著936K顆晶片。

即使NVIDIA將初始生產目標提升10倍,其產率仍然在一位數的範圍內。每片晶圓成本在5,000美元,每片晶圓拿出10顆正常工作的晶片,這是一個相對非常良好的狀態,這使得每顆GF100成本大約在500美元,即10倍于ATI的成本,再加上GTX480顯卡其它材料成本,讓其售價超越ATI HD 5970,讓他GF100顯卡性價比遠低於HD 5970,並且其零售價格有可能接近於其它專業工作站和計算顯示卡價格。

GF100真正的修復,需要重新設計電路,儘量減少台積電工藝在電晶體差異上的影響。這都需要花費時間和晶片面積,從重新投片算起時間至少需要6個月才能上市。如果你還記得,費米在去年7月下旬投片成功,在11月下旬接受少量預定。如果今天改進版的GF100開始投片,那麼要到2010年第三季度才能讓B1版GF100流片成功,那時競爭對手都接近于拿出下一代28納米圖形晶片,因此GF100就算改版,也不會有很長的使用壽命,它將很快被28nm下一代晶片所取代。

NVIDIA公司如果進行必要的更改,這也會帶來另外兩個問題。 NVIDIA公司現在遇到兩個工程問題,即晶片尺寸瓶頸和功耗瓶頸。功耗瓶頸很簡單,一個PCI-E卡的300W的硬性限制,超過這個限制,你不會得到的PCI-E認證,沒有認證意味著法律責任問題,OEM廠商不會讓他們的PC採用這種顯卡。這意味著顯卡已經在市場上死亡。到目前為止,GF100功耗已經達到 280W,NVIDIA公司已經在無法通過PCI-E認證的邊緣。

晶片尺寸瓶頸情況類似,你只能適應台積電40納米蝕刻工藝掩模的限制,G200已經幾乎接近於這種限制,費米GF100的任何變化設計,很可能會推動晶片的尺寸,讓其根本不適合台積電40納米工藝。在這一點上,唯一的辦法,是採用更加先進的28nm工藝,但第一個28nm工藝晶圓可以切割出正常工作晶片的時間,要到2010年最後幾天才行。

費米GF100晶片已經比最初計畫晚了6個月,即便可以批量生產,也已經無法獲得利潤。GF100初期產品,將有部分提供給公關用途,即提供給媒體和相關公關單位進行評測。NVIDIA每賣出一張GF100顯卡都受到了巨大的損失,也就是說,最初的9000片風險晶圓切割完畢之後,NVIDIA不會再向台積電訂購這些晶圓,因此即便大部分GF100顯卡用作公關之用,NVIDIA也沒有什麼損失。

GF100晶片無法工作,無法生產,無法修復。如果NVIDIA公司在工程管理上還有作用,那麼它現在應該宣佈費米1代終結,集中資源進行費米2代研發,並且有可能在2010年內還有勝算。如果打算對費米1代修修補補,基本上是不可行的,除非晶片直接採用28nm生產。

此情況讓NVIDIA一直到2011年,除了在公關方面繼續作文章之外,沒有任何希望。費米的衍生產品只存在於紙上,他們還沒有投片。如果NVIDIA投片這些衍生產品,它們將在晶片尺寸、功耗和產率上遇到和費米GF100相同的問題。ATI將繼續對Cypress(HD 5800系列)衍生產品降價,因此,NVIDIA公司在衍生產品上無法賺錢,也無法及時解決問題。 NVIDIA在2010年內沒有任何可以獲利的DX 11產品,這種情況將一直持續到2010年的最後幾天。

正如我們自去年5月以來一直說,費米GF100是錯誤的晶片,以錯誤的方式製造,為了錯誤的原因。NVIDIA不顧一切批評競爭對手和產品,比如Intel的Larabee,卻最終導致費米GF100 沉沒。英特爾常識性地重新調整Larabee晶片和相關公關戰略,而不是繼續向註定沉沒的貨船繼續砸入數千萬美元。NVIDIA的管理技能看上去不如Intel,NVIDIA公司不僅設計了一個“Laughabee(可笑的bee)”,也違背所有意識和常識,繼續建造它們的“Laughabee(可笑的bee)”。

文章來源:

Nvidia’s Fermi GTX480 is broken and unfixable

http://www.semiaccurate.com/2010/02/17/nvidias-fermigtx480-broken-and-unfixable/

咁搞法 ATI 5850/5870/5970 有排都未会落價. . .

买佐HD5670 1G…[s:140]

[s:261][s:261]真的还是假的?