輝達NVIDIA來自拉丁文 要讓同業「忌妒到發青」
2024/06/25 10:31
  輝達NVIDIA來自拉丁文 要讓同業「忌妒到發青」 - 自由財經 https://bit.ly/3VWGHe7
〔財經頻道/綜合報導〕輝達(NVIDIA)在上週一度成為全球市值最高的公司,但其耀眼的成績並沒有帶來高知名度,甚至不少人卻連Nvidia怎麼發音都不知道,最近就有外媒對此事進行探究,指出Nvidia的發音為「en-VID-eeyah」,而不是許多人所說的「NUH-vid-eeyah」,並指出,Nvidia這個名稱是從拉丁文「invidia」演變而來,意思是忌妒。
美國《財富》雜誌(Fortune)報導,1993年,黃仁勳和好友馬拉科夫斯基(Chris Malachowsky)、普里姆(Curtis Priem)共同創辦了輝達,他們幾乎談好了公司的各項細節,就是公司名稱還沒有決定,他們暫時先用「NV」當作公司名字,NV意思是下一版本(Next Version)。
黃仁勳此前告訴《財富》雜誌,表示當公司要登記時,他們原本想選擇「NVision」,結果卻發現已有一家衛生紙公司使用了,只好重新再想。
3人仔細調查了有關「NV」字首的單字,直到黃仁勳建議取名Nvidia,這個字從拉丁文單字「invidia」變化而來,意思是忌妒。3人希望設計出的繪圖處理器(GPU)功能強大,根據普里姆的說法,輝達的GPU會強大到讓競爭對手「忌妒到臉色發青」(Green with Envy,意即非常忌妒)。
報導指出,Invidia是羅馬的忌妒女神,據羅馬詩人奧維德(Ovid)在《變形記》(Metamorphoses)中的描述,Invidia的心臟被膽汁染成綠色,舌頭滴著毒液,臉龐一片慘白、身形骨瘦如柴,雙眼瞥視著萬物。
輝達品牌Logo是個綠色眼睛,靈感可能也來自Invidia,因為Invidia會對她所忌妒的人,投以「邪惡之眼」。
輝達NVIDIA來自拉丁文 要讓同業「忌妒到發青」 - 自由財經 https://bit.ly/3VWGHe7

​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市


護國神山完勝! 三星3奈米良率低於20%無法量產
2024/06/24 06:19護國神山完勝! 三星3奈米良率低於20%無法量產 - 自由財經 https://bit.ly/4ezEyfO
台積3奈米訂單接不完,韓媒則披露,三星第二代3奈米製程良率低於20%,無法達到量產標準。(路透合成照)
陳麗珠/核稿編輯
〔財經頻道/綜合報導〕韓媒披露,三星電子最新的Exynos 2500處理器良率,已經從第一季「個位數」有所提升,不過,目前良率仍略低於20%,難以達到量產標準,未來能否用於Galaxy S25 系列旗艦智慧型手機還不確定。
韓媒《ZDNet Korea》報導,業界人士稱,三星電子的Exynos 2500 處理器開發並不順利,直到今年第一季Exynos 2500處理器的良率只有「個位數」。隨後,三星電子重點提升Exynos 2500處理器的良率,截至第二季Exynos 2500處理器的良率仍略低於20%的水準。
報導指出,這個數字對量產來說仍然不夠,通常需要將良率提高到60%以上才能達到量產。因此,三星電子系統LSI部門計劃在今年下半年努力提高Exynos 2500處理器的良率。
報導直言,Exynos 2500處理器未來能否用於Galaxy S25 系列旗艦智慧型手機還不確定,由於現在距離Galaxy S25 系列的正式發布還有不少時間,三星希望努力在今年10月之前,將Exynos 2500處理器良率提升至60%。
1位業內人士說,「據我了解,負責晶片開發的三星電子系統LSI部門意識到目前的情況並不容易,正在全力提高良率」。
反觀台積電3奈米訂單接不完,蘋果、輝達、超微、高通、英特爾、聯發科等大廠都投產台積電3奈米,因應產能供不應求,台積電規劃今年3奈米產能將比去年增加三倍。
近日還傳出Google新自研開發的資料中心Arm base處理器(CPU),將採台積電3奈米製程,預計2025年下半年設計定案(tape out ),接著將展開量產。
護國神山完勝! 三星3奈米良率低於20%無法量產 - 自由財經 https://bit.ly/4ezEyfO
日媒盛讚台積電晶片良率太驚人 猶如完美小籠包蒸了不破皮不流湯
2024/06/23 06:55
台積電在日本熊本設廠後,日媒關注度極高。(路透)
陳麗珠/核稿編輯
〔財經頻道/綜合報導〕台積電在日本熊本設廠後,日媒關注度極高,熊本縣民電視台 KKT NEWS直接以繁體中文進行報導,朝日新聞近期則以連載方式披露台積電優異的技術及嚴格的品質管理等,還以「完美的小籠包」形容台積電高良率,並在社交平台推文稱,若蒸1000 個小籠包,有些皮會破裂或湯汁流出來,大多數商店只能賣700個,但台積電可以完美生產950個。
朝日新聞近期連續刊出5篇報導,闡述台積電在全球半導體代工領域掌握極高市占率,並採訪供應鏈及專業人士探討護國神山之所以領先全球的原因。文章指出,自1980年代以來,新竹隨著高科技產業的發展而成長,新竹科學園區現在是台灣 IT 和電子元件製造商的總部和工廠所在地。
第一篇報導以「完美的小籠包」形容台積電高良率,並在社交平台X上推文稱,若蒸1000 個小籠包,有些皮會破裂或湯汁流出來,大多數商店只能賣700個,台積電則是可以完美生產950個。
後續的報導則披露了入榜2023年台積電優良供應商的半導體設備商-志聖工業,13年前獲得台積電第一筆訂單,志聖總經理梁又文說,我幾乎每天都會接到台積電的電話,按照他們的要求進行修改,台積電的工程師似乎也做了很多嘗試,那些日子就像在軍隊一樣。
除了志聖外,朝日新聞也報導無塵衣洗滌王國-尚磊科技,為台積電承包無塵室衣服清潔工作已經超過20年,並在台積電指導下,建立競爭優勢。此外,隨著台積電赴日設廠,朝日新聞也訪問台灣官員對於台日關係發展的看法


黃仁勳加州理工畢業致詞完整版:排序你的人生,讓最重要的事成真
作者 商業周刊 | 發布日期 2024 年 06 月 22 日 黃仁勳加州理工畢業致詞完整版:排序你的人生,讓最重要的事成真 | TechNews 科技新報 https://bit.ly/45J5fKX
黃仁勳加州理工畢業致詞完整版:排序你的人生,讓最重要的事成真
近日,輝達(Nvidia)執行長黃仁勳罕見未以招牌黑皮衣現身,而是披上畢業袍,到美國加州理工學院(Caltech)擔任第 130 屆畢業演說嘉賓。
以下是他的第一人稱的演講紀要:
我們都熱愛科學、工程,雖然我們差了大約40歲,但我們都處於事業的巔峰。只不過,你們未來還有很多高峰要攀,我則是在確保這不是我的最高峰。
去年,我很榮幸在台大畢業演說中演講。但說實話,我不喜歡提供建議,尤其是對別人的孩子。所以,這些建議會被藏在一些小故事裡。
我希望你們都能參與AI的發展,因為它變化的太快了,所以,去年我的建議是別用走的,要跑起來。
AI變化太快,將影響每個產業
一年後,AI變化的速度依舊令人難以置信。電腦科學正在從根本上轉變,它是每個行業與科學領域的基礎。若我們深刻地改變「運算」,它自然會對每個產業產生影響。
當年我聽畢業演說時,資訊科技的市場規模還很小,連靠賣軟體賺錢甚至被當成的幻想,但今天這已是重要的產品之一。
輝達帶給社會第一個偉大貢獻是加速運算,給業界帶來了至少數以百倍的效率,不僅止於加速,還有更低的能耗、成本。我們知道它一定會改變世界,只是不清楚它改變的究竟會是什麼,直到「深度學習」的大爆發。
深度學習爆發,啟動AI革命
2012年,三位科學家使用輝達CUDA GPU訓練的AlexNet,震撼了電腦視覺領域,這是AI革命的開始。
我們看見了深度學習的潛力,相信它是一種通用學習方法,但當時沒人知道它能擴展到多遠。但若我們不建造它,便永遠不會知道。此,輝達採取了行動,重新發明每一個運算層、重新設計現代的GPU,投資了數十億美元探索深度學習與AI的極限
2016年,我們發表了DGX-1,第一台AI超級電腦,交給了當時無人知曉的新創OpenAI。2022年,OpenAI發表了ChatGPT,讓AI成為主流。
但在AI的下一個關鍵趨勢「機器人」技術上,輝達的起頭是一系列打擊與挫折。
合作AMD、英特爾、高通都失敗
當年輝達還是間小公司,我們的GPU與AMD CPU一起合作推出的晶片組,迅速在PC市場獲得成功,但AMD決定將技術都握在自己手上,而輝達並不想被併購,因此它改收購同業ATI,不再需要我們
我們轉求助於英特爾,取得連結其CPU的授權。當時蘋果對於我們正在開發的東西很感興趣,邀請我們一起共同合作,這後來變成第一台MacBook Air,但特爾並不喜歡我們這樣做,他取消了我們的協議。
我們轉向ARM,我們一起打造了低功耗、行動SoC晶片,Google看到了這款晶片很興奮,邀請我們一起打造Android系統的手機,只不過,這次換成高通不開心了,它不讓我們連結它的產品,我們不得不退出手機市場。
當時,輝達幾乎每年都取得令人難以置信的成功、開發出令人興奮的新產品。
但在一年後,我們卻都被踢出了這些市場。所以,我們決定在確定沒有客戶的地方打造新產品,因為沒有客戶的地方,就沒有競爭對手,也沒有人會關心你。
在沒有客戶的地方打造產品,成就企業性格
挫折接連而來,但我們總迎難而上,抓住下一個機會。我們選擇進入一個「零億美元」的機器人市場,這已經是十年前的事情。現在我開心,因為我們不僅掌握了AI的下個關鍵戰場,還發展出輝達敏捷與韌性的企業文化。
每一個困難,都讓我們獲得了一些能力,並強化了我們的企業性格。輝達很難被分散注意力,也很難感到氣餒。世界充滿著不確定、不公平,甚至會給你嚴厲的懲罰,你要快速地,抖掉它(swiftly, shake it off!)。永遠有其他機會,或者你能自己創造機會。
我想分享另一段故事,我曾經到日本京都的苔寺參觀,看見一個正在整理苔園的老園丁,整座苔園遠比他手上的工具大得多。我好奇問道,你怎麼顧?
他答:「我已經照顧我的花園25年了,我有的是時間。」這是我人生中最深刻的一堂課之一。當你奉獻於你的手藝,做著畢生的志業,你就會有足夠的時間。
從最重要的事開始,全心讓它成真
我每天都有清晰的優先事項清單,從最重要的工作開始。在上班前,我的一天已經成功,因為我已完成最重要的工作,能全新全意地幫助他人。
畢業生們,我希望你們相信一些不尋常、尚未被探索過的事情,但請找到這件事的意義和理由,並全心全意地讓它變成現實。如此一來,你可能會找到你的GPU、CUDA、生成AI,還有屬於你自己的NVIDIA。
對我來說,最重要的超能力並非智商,而是忍受痛苦和磨難的能力,在長時間內從事某項工作,應對挫折並看到轉角處的機遇的能力。我希望你們也擁有它們,加油!
黃仁勳加州理工畢業致詞完整版:排序你的人生,讓最重要的事成真 | TechNews 科技新報 https://bit.ly/45J5fKX
------------------------
殘念!「太早賣輝達」孫正義少賺4.8兆 懊
悔:逃走的魚很大殘念!「太早賣輝達」孫正義少賺4.8兆 懊悔:逃走的魚很大 | 財經 | 三立新聞網 SETN.COM https://bit.ly/3KRJqPT
2024/06/22 1
日本軟體銀行集團執行長孫正義。(圖/路透社)
軟銀集團(SoftBank Group)昨天(21日)在東京舉行股東大會,創辦人孫正義對於2019年賣掉輝達(NVIDIA)股票耿耿於懷,他說如果當時沒賣,放到現在可多賺1500億美元(約4.85兆台幣)懊悔地說「逃走的魚很大」。
據《華爾街日報》報導,2019年軟銀願景基金將4.9%輝達股權全部出清,獲得33億美元(約台幣1068億元),從當時的角度來看,是一件巨大的成功,因為軟銀當初獲得股票的成本約7億美元(約台幣227億元)。
然而,當時輝達的股價才剛要開始起飛。如果軟銀繼續持有輝達股份,到今天的價值將高達1600億美元,亦即軟銀少賺超過1500億美元。輝達18日股價終場135.58美元作收,市值超過3.3兆美元,超越微軟,成為全球市值王;昨天則以126.57美元作收,市值3.11兆美元,低於微軟3.3兆美元、蘋果3.2兆美元,落居全球第三。
「AI教父」黃仁勳來台演講造成轟動
▲「AI教父」黃仁勳來台演講造成轟動。
孫正義昨天在股東會上透露,軟銀於2016年收購英國晶片設計公司Arm的1個月後,曾與輝達執行長黃仁勳坐在加州自家的院子裡,就一項潛在的收購案進行了4小時的討論。
孫正義說,他曾經計劃讓輝達成為他的科技集團的一部分,「我買了Arm,現在我想買下你(輝達)」;希望收購輝達並將該公司私有化,同時讓黃仁勳繼續擔任領導者,但交易沒有成功
孫正義遺憾地說,「想起那些我錯過的事情實在令人沮喪」,因為當時軟銀的願景基金要求鎖定報酬,也讓他感嘆「逃走的魚很大」。不過輝達對此拒絕回應。
要跟輝達拚了!傳孫正義擬籌資逾3兆成立AI晶片公司 | 財經 | 三立新聞網 SETN.COM https://bit.ly/3RDKNFq

​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市




IC 設計 Part 1:全面解析 IC 設計產業鏈 | 淺談股海 - 科技產業股票投資研究 https://bit.ly/4aWPnpl
IC 設計 Part 2:認識琳瑯滿目的晶片 | 淺談股海 - 科技產業股票投資研究 https://bit.ly/3Xg6YoR
IC 設計相關個股 | 淺談股海-科技產業股票投資研究 https://bit.ly/4aQ6RUh

IC-設計-2-圖_1IC 設計 1 圖_ARMIC-設計-1-圖_2_20210527IC-設計-1-圖_1_20210527IC-設計-2-圖_4IC-設計-2-圖_3-2IC-設計-2-圖_3-1IC-設計-2-圖_2
---------
​IC 設計 Integrated Circuit Design  Part 1
全面解析 IC 設計產業鏈
IC(Integrated Circuit,積體電路)在生活中無處不在,從手機、電腦到家電、洗衣機都需要依靠多顆 IC 來協助,各種 IC 的作用大相逕庭,常見的 IC 種類包含 CPU、觸控 IC、網通 IC、DRAM、手機 SOC 等,因此也孕育出數以千計的 IC 設計公司。IC 設計公司顧名思義,主要工作就是設計每個晶片上的功能、程式碼、元件以及元件之間的電路;除此之外也需要設計用於 IC 製造的光罩。IC 設計公司「Design House」,又稱為「Fabless」,因為 IC 設計公司不會建立自己的工廠製造晶片,而是委由台積電、聯電、格羅方德(Global Foundries)等晶圓製造商來生產像是三星、Intel 這類同時擁有設計晶片能力和晶圓廠,稱為 IDM (Integrated Device Manufacturer) ,在半導體發展早期多為這類型的垂直整合;但隨著台積電的出現,帶動專業分工,也因此出現一眾專精於設計晶片的輕資產公司。也因為 IC 製造製程微縮的技術門檻越來越高、成本大幅增加,每年的資本支出動輒數百億美金,因此從 1970 年代開始,IDM 為主的垂直整合 IC 公司逐漸成為現今主流的專業分工模式。
​一、半導體產業鏈
​下圖中 IC 設計部分包含了SIP 矽智財公司、EDA 電子設計自動化以及 IC 設計公司、IC 設計服務公司,每個種類都扮演不同的角色。這系列文章將集中於這些內容深入分析。
​1. SIP 矽智財公司(Silicon Intellectual Property)
​由於單一晶片的功能日趨複雜,在設計上難度也逐漸提升,IC 設計公司不可能再自行設計晶片上的每個單元與每條電路,因此矽智財公司應運而生。矽智財公司的角色是將完整功能的功能單元(Funtion Unit)或區塊(Block)設計圖以授權方式販售給 IC 設計公司、融入自己的晶片當中。根據市調機構 Verified Market Research 研究,2019 年矽智財市場規模達到 53.3 億美金,預期未來每年可成長 4.58%,2027 年將達到 74.4 億美金;雖然成長不算快,但矽智財市場是寡佔市場,全球最大矽智財公司是安謀 ARM其他公司包括新思科技 Synopsys、Imagination Technologies 等。未來集成更多功能的系統單晶片 SOC(System on Chip)更是需要依靠矽智財公司的協助,才有機會設計出強大又多工的晶片
​2. 電子設計自動化 EDA(Electronic design automation)
​在 IC 日漸複雜的情況下,IC 設計公司無法再依靠人工設計所有細節,因此自動化工具將顯得十分重要,EDA 工具提供模擬、分析、合成、自動配置、繞線、驗證等功能,將各個功能單元安排在最好的位置,以達成最高效能。根據統計,EDA 產值大約 97 億美金,主要業者為美國的 Synopsys、Cadence 以及被西門子併購的 Mentor Graphics,這三間公司囊括 EDA 超過七成的市占率。EDA 產業在各軟體間沒有統一標準,因此當 IC 設計公司採用其中一間的 EDA 工具後,就難以換移至其他間,高昂的顧客轉換成本,也為這些公司帶來高度的顧客忠誠度。因此當 2018 年美國開始在經濟上制裁中國時,EDA 成為重要利器,因為相關軟體幾乎掌握在美國手上且轉換不易。
​3. IC 設計服務公司
​IC 設計服務公司主要為企業客製化晶片,通常分為委託設計以及委託製造。委託設計 NRE(Non-Recurring Engineering)當少部分企業有特殊需求、公規晶片無法滿足的時候,就會委託 IC 設計服務公司協助為其客製化特定應用積體電路 ASIC 晶片。委託製造又稱為 Turnkey,由於將設計好的晶片導入工廠需要耗費大量時間成本以及經驗磨合因此小型 IC 設計公司不易取得產能;委託設計 IC 的客戶也因為在與晶圓代工廠合作量產方面沒有經驗,需要請 IC 設計服務公司委託製造,因此台灣著名的 IC 設計服務公司創意及智原,背後分別有兩大晶圓廠台積電及聯電支持,提供產能及技術支援。通常這類公司也會為其客戶尋找矽智財 SIP 模組的服務,作為矽智財交易的平台,但目前佔比較小。
​二、重點公司介紹
​1. ARM 安謀
全球最大矽智財公司,成立於英國劍橋,現在為日本軟銀持有2020 年輝達 Nvidia 宣布將以 400 億美元併購 ARM。這間搶手的公司主要提供各式 SIP,ARM 架構的特色為高效能、低耗能、低成本,雖不自行推出晶片,但在晶片世界裡極為重要,在智慧型手機時代,每台手機內都有 ARM 架構的晶片,高通、聯發科等都需要跟 ARM 購買矽智財。現在這場戰火從手機蔓延至筆電及桌機,過往主要以 x86 架構為主的電腦 CPU,在 2020 年 Apple 推出基於 ARM 架構的 M1 晶片給 Mac 使用;Nvidia 也在 2021 年 GTC(Nvidia 年度技術大會)宣布將推出基於 ARM 架構的 Grace CPU,應用於資料中心 AI 運算,可以與 GPU 良好搭配,號稱效能將達到現今 CPU 的 10 倍;這些應用將使未來 ARM 成長可期。
2. 新思科技 Synopsys
少數矽智財及 EDA 上市公司上市公司。新思科技在 EDA 領域為第一把交椅,擁有最全面的產品線,在部分產品如半導體工藝模擬 TCAD (Technology Computer Aided Design)更有超過 90% 的市占率,也透過大量併購中小型 EDA 公司──像是台灣的 EDA 廠思源科技──藉以維持產業龍頭地位,也建構起一座護城河。新思科技因為主要花費為併購以及研發費用,因此有極高毛利率,大約在 75% 上下。
---------
​IC 設計 Integrated Circuit Design  Part 2
認識琳瑯滿目的晶片
​晶片百百種,每種晶片的特性差異極大,因此找尋值得投資的 IC 設計公司時,需要了解 IC 的種類以及技術門檻。有的晶片高達 1 萬美元,有的卻不到 1 美元;有些晶片開發週期長達 5、6 年,有些晶片卻需要在 3 個月之內開發出來。了解 IC,就先從種類開始吧!
IC 依照其功能、訊號傳輸大致分為四類:記憶體 IC(Memory Integrated Circuit)、微元件 IC(Micro Component Integrated Circuit)、類比 IC(Analog Integrated Circuit)、數位 IC / 邏輯 IC(Logic Integrated Circuit)。
​一、記憶體 IC
​記憶體 IC 用於儲存資料,其分為揮發性以及非揮發性。斷電後資料將消失的種類稱為揮發性記憶體,包含熟知的 DRAM 及 SRAM;斷電後資料繼續儲存的種類則稱為非揮發性記憶體,包含唯讀記憶體 ROM 及快閃記憶體 Nand Flash 等。
記憶體的產業特性相較於一般 IC 設計公司有較大的不同:記憶體產業大多為垂直整合製造 IDM(Integrated Design and Manufacture),而非無廠半導體公司(Fabless),DRAM 自身囊括設計及製造,原因是 DRAM 屬於少樣多量的產品,對於這些廠商而言,需要追求製成工藝及產能的極大化,藉此降低成本並增加競爭力。
2000 年代,DRAM 產業屬於完全競爭市場,有超過數十間廠商投入其中,然而今日主流 DRAM 廠只剩下三間,分別是美光(Micron)、三星(Samsung)、海力士(Hynix)。台灣在政府於 2002 年提出「兩兆雙星」的政策之下,也曾出現許多 DRAM 廠商,但後續因為競爭力不足,成為「四大慘業」之一
​現今這些台灣廠商如南亞科、華邦電等則轉型至利基型 DRAM,也因為三大廠逐漸降低生產利基型 DRAM 的比例,台灣廠商得以在各利基型 DRAM 獨霸一方;由台塑所創立的華亞科則被美光併購,力晶則慘遭下市並轉型為晶圓代工廠。
​二、微元件 IC
​微元件 IC 具備資料處理的功能,其中包括微處理器 MPU(Micro Processor Unit)、微控制器 MCU(Micro Controller Unit)、微處理週邊 MPR(Micro Peripheral)、數位訊號處理器 DSP(Digital Signal Processor)等等。
​微處理器 MPU 用於運算,主要廠商為 ARM。微控制器 MCU 幾乎在所有電子產品中都會使用,MCU 整合了 MPU 及其周邊零件,如記憶體 IC 等。MCU 通常價格低廉,佔產品整體成本比重較低且低功耗,因此關鍵競爭力在於其穩定度。低成本、低功耗的特性使其成為物聯網、自駕車、邊緣運算重要的一環,大廠包含德州儀器 TI、瑞薩、Microchip;台灣業者有新唐、應廣、盛群;中國業者有比亞迪半導體、捷發科技等等,全球各地亦有眾多供應廠商。數位訊號處理器 DSP運用於影音處理領域,例如:噪音降低、語音辨識、影音檔案壓縮等,廠商有德州儀器 TI、亞德諾、恩智浦等。
​三、類比 IC
​類比 IC 負責處理線性連續信號,通常為光、速度、聲音這類自然現象,包含電源管理 IC、影音放大器、數位類比轉換 IC、影音相關 IC 等等;相較於常見的數位訊號 0 與 1,類比訊號的處理難度較高,電路設計門檻也相對提升,一位類比 IC 設計工程師的養成大約需要 3~5 年,產品學習曲線更長達 10~15 年。
​因為是輔助系統的角色,類比 IC 的產品穩定度成為重要關鍵,也形成較長的產品認證期;當類比 IC 打入某個市場後,通常不易更動,其轉移成本較高。這些條件促使類比 IC 公司成為許多投資者穩定投資的成長標的,像是電源管理 IC 的千金股矽力-Ky。市場研究機構IC Insight 預估類比 IC 於 2021 年將可達到 25% YoY(同比年成長),其中又以車用類比 IC、通訊用類比 IC 成長最多。
​類比 IC 的全球業者有德州儀器 TI、意法半導體 ST Micro、英飛凌 Infineon 等,德儀在類比 IC 市佔率約為 19% ,遙遙領先競爭對手。全台曾經最大的類比 IC 設計廠立錡,因聯發科為達成數位類比整合的目標而被併購。

​四、數位 IC / 邏輯 IC
​顧名思義,邏輯 IC 負責邏輯運算,處理 0 與 1 的訊號,也是我們最常見到的晶片。其通常為系統中重要且關鍵的零組件,廣泛應用在 CPU、GPU、面板驅動 IC(DDI)、觸控 IC、網通 IC、高速傳輸 IC 等。這類公司大多為無廠半導體公司(Fabless),沒有自己的代工廠,製程需要仰賴台積電這類代工廠的晶圓代工,因此 IC 設計技術、晶片效能將是其競爭關鍵。
​為滿足市場需求,產品迭代速度較快,往往一年甚至半年就需要推出新產品,以保持市場競爭力,例如高通的手機 SoC(系統單晶片) 於 2020 Q1 發佈驍龍 S865,一年後 2021 Q1 就發表驍龍 S888;而這僅僅是旗艦機市場,在中高階市場也有 S765 的發布,產品推出量及速度較其他類型 IC 設計廠密集。
​參與其中的業者十分眾多,這邊列舉幾個,後面文章會詳細介紹及比較。中央處理器(CPU):Intel、AMD;圖形處理器(GPU):Nvidia、AMD;行動通訊 IC:Qualcomm、聯發科;網通 IC:Broadcom、瑞昱、Marvell,根據 TrendForce 調查,全球 2020 年全球前十大營收 IC 設計廠,僅戴樂格半導體來自於類比 IC,其餘 9 間皆為邏輯 IC,顯見邏輯 IC 的重要性。在同一晶片領域當中,領先者通常毛利率大幅高於其他公司,因此市占率、研發能力、產品未來性這些都將影響公司發展。
​​通常類比 IC 營收、股價較為穩定,深受長期投資人喜愛;相反,邏輯 IC 爆發性十足,隨時有機會後來居上,成為市場領先者,領先者的營收也非常可觀,因此適合短期但對於市場充分掌握的投資者
IC 設計 Part 2:認識琳瑯滿目的晶片 | 淺談股海 - 科技產業股票投資研究 https://bit.ly/3Xg6YoR
----------
IC 設計相關個股​ 

AI PC元年/輝達NVIDIA是做什麼的?靠顯卡怎麼成為世界第一?晶片名詞GPU, TPU, DPU, NPU, BPU-姜朝鳳宗族|痞客邦



補貼已發超過一半,美國《晶片法案》資金都去哪了? | TechNews 科技新報 https://bit.ly/4cfiWn8
補貼已發超過一半,美國《晶片法案》資金都去哪了?
作者 林 妤柔 | 發布日期 2024 年 06 月 08
補貼已發超過一半,美國《晶片法案》資金都去哪了?
美國政府去年通過《晶片與科學法》(CHIPS and Science Act),已有 8 間公司獲得超過半數的政府計畫直接資助。
《晶片與科學法》撥款 2,800 億美元用於補助美國晶片研發與製造,其中 520億美元專門用於資助晶片製造商在境內設廠。目前美國政府已經發放超過一半,有 8 間公司共獲得 293.4 億美元補貼,用於全美各地的半導體廠。
受補助公司包括英特爾、台積電、三星、美光、格羅方德、Microchip、Polar Semiconductor 以及英國航太系統公司(BAE Systems)。這些專案包括英特爾在亞利桑那州、新墨西哥州和俄勒岡州工廠,以及俄亥俄州 200 億美元晶圓廠建置;美光在紐約雪城(Syracuse)耗資 1,000 億美元建造記憶體晶片廠。
獲得補助最多的前三間公司分別為英特爾、台積電和三星,分別獲得 85 億美元、66 億美元和 64 億美元補助。
美國商務部長 Gina Raimondo 表示,先進晶片製造商要求為晶片製造提供 700 億美元的資金,比政府最初預計花費多。政府部門優先考慮在 2030 年前投入使用的專案,因此部分公司提案很難獲補助。
隨著 AI 需求提升,對功能強大的晶片需求也隨之成長。美國希望提供更多大功率晶片,甚至開始製造下一代半導體。拜登政府今年 2 月宣布,將開始資助基板封裝技術的研究,有助製造更多頂尖半導體。補貼已發超過一半,美國《晶片法案》資金都去哪了? | TechNews 科技新報 https://bit.ly/4cfiWn8


NVIDIA工程師的待遇如何?一名在美國NVIDIA上班的工程師透露,如果碩士畢業,有3到5年工作經驗,跳槽到NVIDIA,底薪可達20萬美元(約新台幣616萬元)-美國德州儀器工作,碩士畢業生底薪大約10萬美元上下(約新台幣308萬元),達標時另外加上20%的bonus;博士大約12到13萬美元(約新台幣400萬元)-NVIDIA硬體工程師IC1底薪(Base)是13.5萬美元(約新台幣416萬元),IC2是14.9萬美元(約新台幣459萬元),IC3是17.3萬美元(約新台幣533萬元),IC4是20.8萬美元(約新台幣641萬元) https://bit.ly/3xak9No


英特爾還計畫加強與南韓企業的合作關係,並強調南韓企業處於英特爾未來AI願景的核心,將繼續與Naver、三星電子、SK海力士、SK電信和樂金電子合作。今年4月,英特爾與Naver和南韓科學技術院(KAIST)合作,設立1個聯合「AI半導體實驗室」,以創造1個獨立開放的軟體生態系統
輝達和台廠合作無間 英特爾拉攏韓企對抗 - 自由財經 https://bit.ly/4cfUZvB


Windows 11 Build 26212 中出現了人工智慧功能隱私和安全切換開關 | T客邦


【Lenovo】16吋Ultra 7 Ai輕薄筆電(IdeaPad Slim 5/Ultra 7-155H/16G/512G SSD/W11/藍/AI PC/83DC0027TW)-momo購物網 - 好評推薦 - 2024年6月

Intel® Arc™ Graphics Overview

First Tests: Is Intel's Arc Good Enough for Gaming on Integrated Graphics? | PCMag

專為創作者打造的繪圖卡 Intel® Arc™ GPc

適用於邊緣的 Intel® Arc™ GPU


歡迎來到人工智慧手機時代 - 紐約時報中文網


超級電腦是什麼?AI運算為何沒它不行?台灣最新布局為何?3大關鍵解析一次看 - TNL The News Lens 關鍵評論網 https://bit.ly/4edZM2x
在算力即國力的時代,美國、歐洲、日本、韓國等主要先進國家或地區正在不斷擴大投資算力,買進高效能處理器,台灣必須跟上這股趨勢、甚至超前部署,才有機會趕上國內產學研界對AI、算力的龐大需求。目前國內最厲害的超級電腦,是輝達(NVIDIA)建置的Taipei-1,擁有22.3 petaFLOPS算力,在全球超級電腦前500強榜單中,位列第38名;Taipei-1部分高速運算資源,免費提供國內研發使用。 超級電腦是什麼?AI運算為何沒它不行?台灣最新布局為何?3大關鍵解析一次看 - TNL The News Lens 關鍵評論網
(中央社)輝達執行長黃仁勳、超微董事長暨總裁蘇姿丰等科技業巨頭來台灣參加台北國際電腦展(COMPUTEX),炒熱人工智慧(AI)話題。事實上,AI要落地應用,必須仰賴「超級電腦」(Supercomputer)的龐大算力與速度。
連黃仁勳都建議台灣投資建置的超級電腦,究竟有多超級、可帶來哪些貢獻、台灣最新布局為何?3大關鍵解析一次看。
何謂超級電腦?
超級電腦由許多計算節點組成,每個節點都有自己的處理器、記憶體和儲存空間,將多個計算節點組裝串接,就可構建出高效率、高性能的運算平台,並能執行一般個人電腦(PC)或桌機無法處理的龐大、複雜計算問題。
視覺上,超級電腦體積非常龐大、甚至可占地一整面網球場,組裝起來的機櫃可比人還要高。
國家高速網路與計算中心主任張朝亮說明,國際間以「浮點運算」(FLOPS,Floating-point operations per second)作為超級電腦速度單位,以1個petaFLOPS來說,等於每秒可進行10的15次方、即1千兆次浮點運算;反觀個人電腦,如果能達到每秒10的9次方,就可說是非常了不起了。
當今世界上最強的超級電腦,是美國能源部橡樹嶺國家實驗室(ORNL)的Frontier,搭載超微(AMD)處理器,運算速度達exaFLOPS等級,1個exaFLOPS等於每秒可進行10的18次方、即100京次的浮點運算,據最新統計,Frontier已具備1.206 exaFLOPS算力。
超級電腦Frontier。(圖取自美國能源部橡樹嶺國家實驗室網頁ornl.gov)
進一步檢視超級電腦2大主要組成,即圖形處理器(GPU)和中央處理器(CPU)
張朝亮表示,20、30年前一般電腦都是用CPU進行運算,GPU起初則是用來處理影像,實際上,要做到準確3D效果、影像拉近拉遠,背後牽涉非常複雜的數學運算,後來,設計GPU起家的輝達也發現,GPU不只能處理影像, 若用在計算,可變成「CPU的加速器」,也造就近10年開始,以GPU為計算核心引擎的超級電腦相繼誕生。
然而,並非所有的計算,都可以用GPU取代CPU,張朝亮說,以CPU為主的超級電腦,是應用在物理、化學、數學、大氣科學、工程、生命科學等領域的泛用運算ChatGPT等大型語言模型(LLM)訓練以及其他AI相關運算,則是用GPU為主的超級電腦,會快速非常多。
也就是說,GPU是發展AI的必要條件,當一代代的GPU效能愈發強大,就可加速推進AI落地應用的時程。
超級電腦有何貢獻?
張朝亮指出,超級電腦能做到的事情非常廣泛,比較民生的面向包含用於提升氣象預報準確度,以及長期的氣候測報分析,讓可能受影響的地區得以周全因應;在COVID-19疫情期間,國際間運用超級電腦計算模擬一個人咳嗽產生的流場、飛沫擴散路徑及影響範圍,以此訂定安全社交距離。
同時,加速新型藥物、疫苗開發,病理影像分析、精準診斷,甚至晶片、新材料開發,都可借助超級電腦的威力。
舉例來說,國網中心的台灣杉二號(TAIWANIA 2)超級電腦,每秒能進行高達176萬張的AI影像訓練,可大幅縮短標記腫瘤位置、疾病檢測與病原鑑定等應用所需要的時間,從幾天縮減到數小時。
張朝亮表示,美國國家航空暨太空總署(NASA)許多航太計畫的運算,也仰仗超級電腦讓其如虎添翼,包括繞地球或繞月飛行軌道、火箭設計、載具返回地球的落點預測、太陽研究等
輝達DGX GH200超級電腦。(圖取自輝達網頁nvidia.com)
台灣超級電腦布局?
張朝亮指出,在算力即國力的時代,美國、歐洲、日本、韓國等主要先進國家或地區正在不斷擴大投資算力,買進高效能處理器,台灣必須跟上這股趨勢、甚至超前部署,才有機會趕上國內產學研界對AI、算力的龐大需求。
目前國內最厲害的超級電腦,是輝達(NVIDIA)建置的Taipei-1,擁有22.3 petaFLOPS算力,在全球超級電腦前500強榜單中,位列第38名;Taipei-1部分高速運算資源,免費提供國內研發使用。
台灣杉二號則具備9 petaFLOPS算力,張朝亮表示,2018年建置時,台灣杉二號排名居世界第20名,但近年隨AI蓬勃發展,世界各國政府與廠商相繼投入超級電腦布局,導致台灣杉二號在國際間顯得相對弱勢。
不過,張朝亮指出,2023年為訓練台灣繁體中文「可信任人工智慧對話引擎」(TAIDE),國網中心已買進輝達72片較先進的H100 GPU,今年也啟動升級算力專案,GPU為主的超級電腦到年底將擁有16 petaFLOPS算力;明年則規劃提升至100到120 petaFLOPS,最終規模端視核定經費而定。
於國網中心以CPU為主的超級電腦,張朝亮說明,包含2021年開始服務的台灣杉三號(TAIWANIA 3),算力為2.3 petaFLOPS,以及預計今年6月底、7月初上線的創進號(Forerunner-1),算力則為3.53 petaFLOPS。
台灣居世界前500大的超級電腦,除Taipei-1、台灣杉二號、台灣杉三號、創進號,還包含交通部中央氣象署攜手富士通建構的2個系統。
算力即國力的時代,美國、歐洲、日本、韓國等主要先進國家或地區正在不斷擴大投資算力,買進高效能處理器,台灣必須跟上這股趨勢、甚至超前部署,才有機會趕上國內產學研界對AI、算力的龐大需求。目前國內最厲害的超級電腦,是輝達(NVIDIA)建置的Taipei-1,擁有22.3 petaFLOPS算力,在全球超級電腦前500強榜單中,位列第38名;Taipei-1部分高速運算資源,免費提供國內研發使用。 超級電腦是什麼?AI運算為何沒它不行?台灣最新布局為何?3大關鍵解析一次看 - TNL The News Lens 關鍵評論網


黃仁勳近期到訪世界各國,會見印度、日本、新加坡等國領袖,推動政府與國家級資通訊業者加速投資。他在杜拜曾公開說:「你有數據,數據必須使用與精煉,然後才能擁有自己的國家情報,這不能由他人來代工。」
(中央社)在國家安全與自主人工智慧需求下,各國掀起「主權AI」浪潮。《華爾街日報》報導,輝達執行長黃仁勳近期全球趴趴走,希望擴展各國主權AI業務,這將是公司下一波成長動能。
AI晶片大廠輝達(NVIDIA)執行長黃仁勳結束15天訪台行程,期間輝達市值在人工智慧晶片業績與需求均成長下,一度衝破3兆美元大關,成為全球資本市場最熱門話題。《華爾街日報》(Wall Street Journal)報導,各國發展自己的「主權AI」需求,是輝達和美國業者業績飆漲的主因。
甚麼是「主權AI」?各國語言文字不同,在經濟發展與國家安全的需求,以及美中競爭大環境下,從亞洲、中東到歐美,都需要依據各國與主要社群媒體累積的大數據,建立自己的資料庫與自主人工智慧工具,這是各國投入大筆預算發展AI的主因,從政府到企業都需要輝達的晶片及服務。
《華爾街日報》報導,輝達5月曾指出,主權AI需求去年業務是零,今年將為輝達帶來100億美元的業績。輝達上季260億美元的營收,當中近半來自大型雲端運算業者租用輝達的服務與使用晶片。
報導引用新美國安全中心(Center for a New American Security)學者、前Google及微軟(Microsoft)政策主管查維斯(Pablo Chavez)的說法,有些國家政府對生成式AI革命如何衝擊經濟感到極度焦慮,他們希望在這方面有更多影響力與控制力。
黃仁勳近期到訪世界各國,會見印度、日本、新加坡等國領袖,推動政府與國家級資通訊業者加速投資。他在杜拜曾公開說:「你有數據,數據必須使用與精煉,然後才能擁有自己的國家情報,這不能由他人來代工。」
以人工智慧大國新加坡為例,新加坡的超級運算中心近期已升級使用輝達AI晶片,新加坡電信公司(Singtel)也與輝達合作,擴大資訊範圍廣及東南亞地區的數據中心,官方也致力發展東南亞各國的人工智慧語言模組。
報導指出,中國在非洲也積極推動主權AI業務,銷售數據中心與各項AI工具,但中國自製晶片效能不及美國業者,即使美國對特定國家限制輸出最先進科技,但美國產品還是較受市場歡迎。
達營收依靠主要大數據業者如Google、微軟、亞馬遜(Amazon)與臉書(Meta)的業務並非長遠之計,財經資訊研究公司CFRA研究員齊諾(Angelo Zino)指出,顯然這業務模式無法持續,問題仍是輝達如何保有實力,主權AI將是創造更高收益的新管道。
《華爾街日報》:世界各國掀「主權AI」浪潮,黃仁勳奔走全球拚輝達下一波成長動能 - TNL The News Lens 關鍵評論網 https://bit.ly/3yUMt6Z


▲黃仁勳在英業達攤位寫下最高機密。(圖/資料照)
輝達(NVIDIA)執行長黃仁勳日前來台,掀起一股旋風。黃仁勳於上週參加COMPUTEX展時,會到供應鏈的攤位上簽名留言。值得注意的是,黃仁勳在英業達攤位上留言「最高機密(Top Secret)」,引起外界關注。
據《太報》報導,黃仁勳寫下最高機密的是英業達P400伺服器,雖然運算能力不及GB200,但更符合一般企業、中小型雲端服務商(CSP)的需求,價格也比較親民,顯示出輝達在業界的企圖心。
事實上,黃仁勳在台演講時透露,下一代的GPU平台代碼為Rubin,將採用8顆高頻寬記憶體HBM4,Rubin Ultra GPU將採用12顆HBM4。Rubin GP預計2025年第4季量產、2026年推出。
對此,業者分析黃仁勳的策略簡單粗暴,且不是喊口號而已,包含下一代GPU Rubin已經在試產,就連GB200也在台灣準備伺服器組裝出貨,生產速度全數提前。另外,券商摩根士丹利指出,看好輝達GB200伺服器在2025年會出貨90萬顆。黃仁勳「最高機密」在這裡!神秘留言曝光 專家分析內幕 | 財經 | 三立新聞網 SETN.COM https://bit.ly/4bVb7mL


南韓也在等他的選擇與青睞!黃仁勳秒回:三星只是記憶體合作夥伴
▲南韓也在等他的選擇與青睞!黃仁勳秒回:三星只是記憶體合作夥伴 | 政治快訊 | 要聞 | NOWnews今日新聞 https://bit.ly/4egpQu2
記者莊蕙如/台北報導2024-06-11 15:40:11
亞洲最大的IT展Computex日前在台北舉行,韓國媒體《朝鮮日報》也寫了一篇關於輝達執行長黃仁勳的報導,標題為「黃仁勳的愛國精神」。當黃仁勳被問到「三星也能成為輝達的合作夥伴嗎?」,黃仁勳並未思考許久就直接否決。
根據《朝鮮日報》報導說法,南韓在儲存半導體領域是世界領導者,但在AI半導體市場,至少有幾年的時間,南韓將「被迫等待」黃仁勳的選擇。
《朝鮮日報》也指出,黃仁勳對台灣熱愛並沒有停留在口頭上,而是以實際行動將錢進台灣,將設立研發中心。當韓媒詢問黃仁勳「南韓難道不具吸引力嗎?三星也能成為輝達的合作夥伴?」
黃仁勳邊吃三明治邊回應,「這不是很難回答的問題,輝達正在等待三星通過測試。而三星和SK海力士是出色的記憶體合作夥伴,僅此而已。」
《朝鮮日報》報導表示,這就是「AI半導體王」黃仁勳眼中的南韓現況。也認為台灣在半導體製造和封裝方面排名世界第1,在設計能力方面至少排名第2。
《朝鮮日報》報導強調,台灣民眾對黃仁勳懷有無盡的喜愛之情,稱他為「AI教父」,而輝達在電腦展上的展位也是人氣爆表,始終大排長龍,令韓媒不禁讚嘆
南韓也在等他的選擇與青睞!黃仁勳秒回:三星只是記憶體合作夥伴 | 政治快訊 | 要聞 | NOWnews今日新聞 https://bit.ly/4egpQu2


​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市​IC 設計/半導體產業鏈/輝達從股價剩1.5美元,到躋身市

CUDA - 維基百科,自由的百科全書

CUDA是什麼?NVIDIA CUDA釋放GPU潛能,快速了解平行運算架構的秘密! - Roo.Cash

淺談NVIDIA GPU與CUDA技術 | 多采科技 / 多采工程 - 專業水文氣象團隊

CUDACUDA - 維基百科,自由的百科全書 https://bit.ly/4bUMFls
CUDA 是 NVIDIA 研發的平行運算平台及編程模型,可利用繪圖處理單元 (GPU) 的能力大幅提升運算效能
CUDA® 是Nvidia 開發的平行運算平台與應用程式設計介面 (API) 的模型。提供軟體開發者與工程師使用支援CUDA的GPU進行通用運算處理。CUDA 的平台支援 C、C++、Fortran 語言,為使用GPU 資源來執行平行運算的專家提供友善的環境
--------------
黃仁勳不能沒有它 17年前賠錢貨CUDA,成輝達GPU強大的關鍵
輝達從股價剩1.5美元,到躋身市值兆美元公司,最強護城河CUDA功不可沒。《天下》獨家專訪「CUDA之父」巴克,曾經被看衰的單位,為何如今Google結盟科技巨頭也難撼動他們?
談到當今生成式AI時代的王者輝達(Nvidia)。無論懂AI、不懂AI的人,都對它的一項關鍵工具琅狼上口,那就是「CUDA」。
輝達能穩坐AI晶片市場龍頭,擁有約90%市佔,幾乎壟斷整個AI運算資源,多虧了背後關鍵軍火庫——CUDA(Compute Unified Device Architecture,統一計算架構)。
2007年發表至今,近20年磨一劍,已經成為強大的「CUDA生態系」,不但是許多GPU加速應用程序的標準,AI用到的影像處理、深度學習等領域,都離不開CUDA。
CUDA如何誕生,並成為輝達的護城河?《天下》獨家專訪「CUDA之父」巴克(Ian Buck),「一切的開始,應該是《雷神之鎚》這個電腦遊戲,」他笑著比劃著打鍵盤的樣子,「時間大概是1999年前後。」
輝達超大規模和高效能運算副總裁巴克,是CUDA的靈魂人物,他認為AI時代更需要他們的技術。(林以璿攝)
實習生項目孕育出的AI奇蹟
巴克坐在美國聖荷西輝達2024 GTC會場受訪,儘管已經是下午2點,忙到昏頭的巴克,身前放的餐盒還絲毫未動。這名身材高大的輝達二把手,也因說了太多話,聲音略為沙啞。黃仁勳不能沒有它 17年前賠錢貨CUDA,成輝達GPU強大的關鍵|天下雜誌 https://bit.ly/3VdIF8q
------------
堅持與恆心,成就 NVIDIA 的真正王冠:CUDA
2024/02/23  AI 、 NVIDIA 、 GPU 、 轉型 、 CUDA 、 加速技術
CUDA 最早 2007 推出,當時不只產業唱衰,自家開發人員也不看好。他們認為根本沒有應用會使用這種單執行緒效能極慢的玩意,但老黃獨排眾議,認為遊戲應用有限,運算需求無限,總有一天全世界都需要 GPU 進行通用運算。 淺談NVIDIA GPU與CUDA技術 | 多采科技 / 多采工程 - 專業水文氣象團隊
CUDA為統一計算架構(Compute Unified Device Architecture)的縮寫,由 NVIDIA 於 2006 年推出,並指出:
1. CUDA 架構:為具有數百至數千個核心NVIDIA GPU的大規模平行架構 
2. CUDA 軟體平臺和程式設計模型:也是由 NVIDIA 創建的 API(應用程式介面),由開發人員 進行 GPU 程式設計,以廣為運用。
你為什麼需要它?
CUDA 透過GPU強大的功能,使開發人員能夠對於平行運算,加快計算密集型應用的速度。
過往的GPU程式設計介面(如Direct3D和OpenGL)需要更進階的圖像程式設計才能達成任務,CUDA 相容許多程式設計語言,如C.C++或Fortran,使開發人員和軟體工程師更易於執行平行運算程式,只需以幾個基本關鍵字,就能夠直接存取 GPU 的虛擬指令集和平行運算元素,並執行運算。
技嘉的特色
GIGABYTE R系列和 G系列伺服器,運用CUDA可優化NVIDIA GPGPU(圖形處理元件),如特斯拉V100,特斯拉T4或RTX Quadro系列等硬體解決方案。
這對開發人員來說是個強大的工具,使他們能夠進行大量平行運算處理,如科學模擬或深度學習(DNN)訓練等。
CUDA的作用為何?
CUDA 程式設計模型採用異質平行計算架構,將工作切分成數以百萬計的更小的線程,並行執行於 GPU 上的數以千計的 CUDA 核心上。這種大規模平行運算模式能大幅加速各種運算密集型應用,例如:
人工智慧與機器學習:訓練大型深度學習模型,加速模型訓練速度。
科學與工程運算:處理複雜的數學模型和模擬,例如天氣預報、流體力學分析。
資料分析與處理:處理海量數據,進行快速資料分析和模式識別。
目前,CUDA成為加速運算效能的關鍵技術。未來隨著運算需求持續攀升,CUDA 勢必在高性能運算領域扮演更重要的角色,為各行各業帶來更強大的運算能力!
二、 CUDA的基本組成
CUDA 的核心處理器
CUDA 的核心處理器是稱為串流多處理器(Streaming Multiprocessors, SM)的單位,每個 SM 包含多個 CUDA 核心,這些核心能夠並行執行數百甚至數千個線程。
這種結構基於 SIMT(Single Instruction, Multiple Threads)模型,即一個指令能夠同時作用於多個線程,實現高效的並行運算。每個 SM 還包含專用的寄存器文件和共享記憶體,用於提高數據存取速度和計算效率。例如,寄存器文件可快速存取每個線程的臨時變數,而共享記憶體則允許同一線程塊中的線程快速共享數據,提升運算效率。這些特性使 CUDA 能夠有效地處理大規模並行計算任務,適用於高性能計算、科學模擬和機器學習等領域。
CUDA 的記憶體結構
CUDA 的記憶體結構分為多個層次,旨在平衡容量和訪問速度。
全局記憶體(Global Memory):容量大,但訪問延遲較高,適合存儲所有線程共享的數據。
共享記憶體(Shared Memory):位於每個串流多處理器內部,具有低延遲,高速訪問,適合塊內線程共享數據。
寄存器(Registers):每個線程專有的高速存儲,用於存儲臨時變量。
此外,還有只讀的常量記憶體和紋理記憶體,這些類型優化了特定存取模式的性能。通過這些層次結構,CUDA能夠有效地管理和利用記憶體資源,提高計算效率。
--------------
ROO 帳戶 / ROO 投資理財 / 台股投資 / 證券基金
CUDA是什麼?NVIDIA CUDA釋放GPU潛能,快速了解平行運算架構的秘密!
Mr. Rooby Mr. Roo2024 年 6 月 5 日
cuda
袋鼠金融導讀│您是否聽過CUDA呢?輝達(NVIDIA)近期在AI發展上受全球矚目,而CUDA是NVIDIA(輝達)推出的革命性平行運算架構,旨在充分發揮GPU強大的運算能力,為各種應用程式帶來前所未有的高效能運算體驗。科學計算到圖形處理,從AI到VR,CUDA技術正在改變著我們處理大規模計算任務的方式。袋鼠將帶您深入了解CUDA的技術原理、應用領域以及對未來科技發展的影響,揭開GPU背後的奧秘。
 CUDA簡介
CUDA是什麼?
CUDA 是一種由 NVIDIA 公司開發的運算平台和程式設計模型, 全稱為 Compute Unified Device Architecture,旨在充分利用 GPU 的高度平行運算能力,加速各種複雜的運算任務。
CUDA 讓開發人員可以使用 C/C++ 程式語言,直接存取 NVIDIA GPU 的運算核心,將計算密集型工作交由 GPU 來執行,極大提升運算效能。傳統上,GPU 主要用於圖形渲染,但 CUDA 技術的出現,讓 GPU 突破了應用限制,得以處理各種科學計算、機器學習、資料分析等工作負載,大幅擴展了 GPU 的應用範疇。利用 CUDA 技術,原本需要花費數天才能完成的運算任務,現在只需數小時甚至數分鐘即可完成!
三、 CUDA如何運作?CUDA工作原理
1. 並行處理
CUDA採用任務分拆的方式實現大規模並行運算。它將原本的計算任務拆分為數百甚至數千個小型子任務,再指派給GPU中數以千計的CUDA核心同時執行。
每一個CUDA核心都可以獨立運行一段稱為核函數的程式代碼,這些核函數會在GPU內部的多個處理單元上並行執行。
這種將大任務拆分為大量小任務,再利用GPU中的大規模運算核心同時加以處理的架構設計,賦予了CUDA對數據密集型應用的出色加速能力。無論是矩陣運算、圖像渲染還是視頻編解碼等,都能因CUDA的並行優化而獲得顯著的運算效能提升。以影片格式轉換為例,CPU需要逐幀處理,而CUDA加速的GPU卻可以同時並行處理多個影片。
2. 線程的組成
CUDA程序的執行由多個線程組成,這些線程被組織成線程塊(thread blocks)。每個線程獨立執行程序的一部分,負責處理資料集中的一個元素或小任務。
為了高效管理和調度成千上萬的線程,CUDA將它們組織成線程塊(thread block)。一個線程塊包含一定數量的線程(如256或512個),這些線程可以共享高速緩存記憶體,實現快速數據交換。每個線程塊包含多個線程,而多個線程塊則組成一個網格(grid)結構;整個CUDA程序則可視為一個網格,其中每個線程塊負責完成部分工作。
這種分而治之的架構使CUDA能夠擴展到處理極大規模的數據集和運算任務,並通過內部同步機制協同工作,從而提升效率。
四、 為什麼要用CUDA?CUDA的技術特點
CUDA的技術特點一:高度並行運算
NVIDIA 的CUDA架構能將龐大的運算工作分配到GPU的數以千計核心上並行處理,大幅提升GPU的運算效能。這種高度並行化設計讓GPU特別適合處理圖像渲染、科學模擬和深度學習等需求龐大運算資源的應用領域。透過CUDA技術,GPU不僅可在3D遊戲和視訊效果等領域大展身手,更能成為推動人工智能和大數據分析等尖端科技發展的關鍵動力。
CUDA的技術特點二:有效記憶體管理,擴展性強
CUDA提供多種靈活的記憶體管理機制,可依應用需求靈活選用。其中,高速緩存的共享記憶體可加速執行緒間數據傳輸;常數記憶體適合存放唯讀資料;統一記憶體則支援CPU/GPU記憶體共享存取。
另外,CUDA應用可輕鬆從單GPU橫向擴展到多GPU集群,充分利用系統中每一個運算資源。NVIDIA提供多種工具庫支援,簡化了任務的分散式運算和集群化部署,助力開發者輕鬆實現從小到大任意規模的高效能運算需求。
CUDA的技術特點三:CPU/GPU協作的異構計算
CUDA支援異構運算模式,能讓CPU和GPU在同一應用中並肩作戰,充分發揮不同硬體的獨特優勢。在此模式下,CPU專注處理複雜的邏輯控制,而GPU則負責高度並行的大量數據運算。這種分工模式可最佳化利用系統資源,使AI訓練、科學運算和視覺效果渲染等運算密集型應用獲得前所未有的高效能表現。  
CUDA是什麼
圖片來源:NVIDIA Youtube
五、 CUDA的應用領域
CUDA的應用領域一:加速科學計算
在高性能科學計算領域,CUDA是推動複雜模擬與大數據分析突破瓶頸的重要動力。透過GPU大規模並行運算能力,CUDA讓科學家能夠高效處理諸如氣象預測、藥物分子模擬、核反應器模擬等艱深運算任務,大幅提升模擬和數據分析速度。以蛋白質折疊模擬為例,利用CUDA對蛋白質與藥物分子的互動行為進行模擬,有助於加深對分子機理的理解,推動新藥研發。CUDA技術也被廣泛應用於流體動力學、天體物理等領域的數值分析計算,為工程設計和基礎科學研究提供了有力支援。
CUDA的應用領域二:圖形渲染的視覺化體驗
在圖像渲染和視覺化製作領域,CUDA持續推動著技術創新和視覺體驗的飛躍。透過GPU的大規模並行運算能力,CUDA可以顯著提升圖形生成和渲染的速度,為電腦圖形學、遊戲開發和數位內容創作等領域帶來前所未有的視覺化體驗。
例如,NVIDIA的IndeX平台就運用了CUDA加速大規模數據集的3D可視化,讓科學家和工程師能夠高效分析和展示數據;Omniverse平台更是整合多種工具框架,針對需求高精細視覺化效果的行業提供理想解決方案。此外,CUDA也被廣泛應用於遊戲實時渲染和電影特效製作,呈現出高品質的視覺視覺效果。
CUDA的應用領域三:領軍 AI 深度學習
在AI領域,CUDA無疑是驅動深度學習技術不斷突破的強大引擎。CUDA充分釋放了GPU的極高並行運算能力,大幅加速了AI模型訓練的速度,有效解決了傳統CPU在處理大量數據和高運算負載時的瓶頸問題。CUDA專為AI工作量身打造的Tensor Core,讓矩陣運算的效能再次大幅提升,使複雜模型訓練事半功倍。
正是有賴CUDA強勁的加速能力,諸如GPT-3等大型語言模型的訓練才得以高效完成,這些尖端AI技術正在自然語言處理、電腦視覺和自動駕駛等領域大放異彩。除深度學習外,CUDA也被廣泛應用於強化學習、生成對抗網絡等前沿AI領域。
CUDA的應用領域四:大數據分析 
以RAPIDS加速平台為例,數據科學家可利用CUDA強勁的GPU加速能力,高效完成數據清理、特徵工程和模型訓練等關鍵分析流程,大幅縮短了整體分析時間。這一優勢對需要處理大規模複雜數據集的金融、行銷、科研等領域來說尤為關鍵,有助於企業與機構從海量數據中快速提取洞見,創造更多商業價值。
CUDA是什麼
圖片來源:NVIDIA官網
六、 結語
CUDA正顛覆傳統運算模式,為科技發展注入新動力。通過在GPU硬體上啟用大規模並行運算,CUDA徹底改變了複雜任務的處理效率,為AI、科學研究和產業應用帶來革命性突破。
在AI領域,CUDA的高效能對於大規模神經網絡訓練至關重要,促進了自然語言處理、電腦視覺和自動化系統等領域的發展。此外,CUDA也使創新AI模型的訓練變得更易實現,例如NVIDIA的AI Foundations平台,賦予各行業強大的創造力和創新能力。
科學模擬和大數據分析也依賴CUDA的高效能,在藥物開發、氣候模型等領域孕育出重大突破。例如cuLitho平台利用CUDA優化半導體製程,推動下一代晶片製造技術發展。
展望未來,CUDA勢必將持續擴大其影響力,為AI、醫療、工業自動化等領域帶來革新契機,並孕育出全新的運算創新應用,開拓科技的新領域。CUDA正成為驅動未來科技浪潮、塑造計算新世代的核心動能
CUDA是什麼?NVIDIA CUDA釋放GPU潛能,快速了解平行運算架構的秘密! - Roo.Cash https://bit.ly/4ceZRRJ
---------------------
CUDA - Wikipedia https://bit.ly/4cakAa1
統一運算設備架構 (CUDA)是一種專有的[1] 平行運算平台和應用程式介面(API),允許軟體使用某些類型的圖形處理單元(GPU) 來加速通用處理,這種方法稱為通用GPU 上的運算 ( GPGPU )。 CUDA API 及其執行時間:CUDA API 是 C 程式語言的擴展,它增加了在 C 中指定執行緒級並行性以及指定 GPU 裝置特定操作(例如在 CPU 和 GPU 之間移動資料)的能力。[2] CUDA 是一個軟體層,可以直接存取 GPU 的虛擬指令集和平行計算元素以執行計算核心。[3]除了驅動程式和執行時間核心之外,CUDA 平台還包括編譯器、程式庫和開發人員工具,以幫助程式設計師加速其應用程式。
CUDA 旨在與C、C++、Fortran和Python等程式語言配合使用。與Direct3D和OpenGL等需要高級圖形程式設計技能的先前 API 相比,這種可訪問性使平行程式設計專家可以更輕鬆地使用 GPU 資源。 [4]支援 CUDA 的 GPU 也支援OpenMP、OpenACC和OpenCL等程式框架。[5] [3]
CUDA由Nvidia於2006年創建。​ [什麼時候? ]
背景
更多資訊:圖形處理單元
圖形處理單元 (GPU) 作為專用電腦處理器,可滿足即時高解析度3D 圖形運算密集型任務的需求。到 2012 年,GPU 已經發展成為高度並行的多核心系統,可以有效率地處理大資料區塊。在平行處理大資料區塊的情況下,這種設計比通用中央處理單元(CPU)演算法更有效,例如:
加密哈希函數
機器學習
分子動力學模擬
物理引擎
Ian Buck 於 2000 年在史丹佛大學時使用 32 個 GeForce 卡創建了一個 8K 遊戲設備,然後獲得了 DARPA 撥款,用於在 GPU 上執行通用並行編程。隨後他加入了 Nvidia,自 2004 年起一直負責 CUDA 開發。在推動 CUDA 的過程中,黃仁勳的目標是讓 Nvidia GPU 成為科學運算的通用硬體。 CUDA於2006年發布
軟體開發人員可以透過 CUDA 加速函式庫、 OpenACC等編譯器指令以及C、C++、Fortran和Python等業界標準程式語言的擴充來存取 CUDA 平台。 C/C++ 程式設計師可以使用“CUDA C/C++”,透過nvcc(Nvidia 的基於LLVM的 C/C++ 編譯器)或 clang 本身編譯為PTX 。 [9] Fortran 程式設計師可以使用“CUDA Fortran”,它是使用The Portland Group的 PGI CUDA Fortran 編譯器編譯的。[需要更新] Python 程式設計師可以使用 cuNumeric 函式庫來加速 Nvidia GPU 上的應用程式。
除了函式庫、編譯器指令、CUDA C/C++ 和 CUDA Fortran 之外,CUDA 平台還支援其他運算接口,包括Khronos Group的OpenCL、[10] Microsoft 的DirectCompute、OpenGL Compute Shader 和C++ AMP。[11]第三方包裝器也可用於Python、Perl、 Fortran 、Java、Ruby、Lua、Common Lisp、Haskell、R、MATLAB、IDL、Julia以及Mathematica中的本機支援。
在電腦遊戲產業,GPU用於圖形渲染和遊戲物理計算(碎片、煙霧、火焰、液體等物理效果);範例包含PhysX和Bullet。 CUDA 也被用於將計算生物學、密碼學和其他領域的非圖形應用加速一個數量級或更多。[12] [13] [14] [15] [16]
CUDA 提供低階API(CUDA驅動程式API,非單一來源)和進階 API(CUDA執行時間API,單一來源)。最初的 CUDA SDK於 2007 年 2 月 15 日公開,適用於Microsoft Windows和Linux。後來在版本 2.0 中添加了Mac OS X支持, [ 17]取代了 2008 年 2 月 14 日發布的測試版。Tesla系列。 CUDA 與大多數標準作業系統相容。
CUDA 8.0 附帶以下函式庫(用於編譯和執行時,按字母順序排列):
cuBLAS – CUDA 基本線性代數子程式庫
CUDART – CUDA 運行時庫
cuFFT – CUDA 快速傅立葉變換庫
cuRAND – CUDA 隨機數產生庫
cuSOLVER – 基於 CUDA 的密集和稀疏直接解算器集合
cuSPARSE – CUDA 稀疏矩陣庫
NPP – NVIDIA 效能基元庫
nvGRAPH – NVIDIA 圖形分析庫
NVML – NVIDIA 管理庫
NVRTC – CUDA C++ 的 NVIDIA 執行時期編譯函式庫
CUDA 8.0 隨附下列其他軟體元件:
nView – NVIDIA nView 桌面管理軟體
NVWMI – NVIDIA 企業管理工具包
GameWorks PhysX – 是一個多平台遊戲實體引擎
CUDA 9.0–9.2 附帶下列其他組件:
CUTLASS 1.0 – 自訂線性代數演算法,
NVIDIA Video Decoder 在 CUDA 9.2 中已棄用;現在可在 NVIDIA 視訊編解碼器 SDK 中使用
CUDA 10 隨附下列其他組件:
nvJPEG – 混合(CPU 和 GPU)JPEG 處理
CUDA 11.0–11.8 附帶下列其他組件:[19] [20] [21] [22]
CUB 是新的受更多支援的 C++ 函式庫之一
MIG 多執行個體 GPU 支援
nvJPEG2000 – JPEG 2000編碼器和解碼器
優點
與使用圖形 API 的傳統 GPU 通用運算 (GPGPU) 相比,CUDA 具有多個優勢:
分散讀取-程式碼可以從記憶體中的任意位址讀取。
統一虛擬記憶體(CUDA 4.0以上)
統一記憶體(CUDA 6.0以上)
共享記憶體 -CUDA 公開了可以在執行緒之間共享的快速共享記憶體區域。這可以用作用戶管理的緩存,從而實現比使用紋理查找更高的頻寬。[23]
更快地從 GPU 下載和讀回
完全支援整數和位元運算,包括整數紋理查找
限制
無論對於主機還是GPU設備,所有CUDA原始碼現在都按照C++語法規則處理。[24]情況並非總是如此。早期版本的 CUDA 是基於 C 語法規則。[25]與使用 C++ 編譯器編譯 C 程式碼的更一般情況一樣,舊的 C 風格 CUDA 原始碼可能無法編譯或無法按最初的預期運行。
與 OpenGL 等渲染語言的互通性是單向的,OpenGL 可以存取已註冊的 CUDA 內存,但 CUDA 無法存取 OpenGL 記憶體。
由於系統匯流排頻寬和延遲,主機和裝置記憶體之間的複製可能會導致效能下降(這可以透過由 GPU 的 DMA 引擎處理的非同步記憶體傳輸來部分緩解)。
為了獲得最佳效能,線程應以至少 32 個為一組運行,線程總數為數千。如果 32 個執行緒都採用相同的執行路徑,則程式碼中的分支不會顯著影響效能;SIMD執行模型成為任何本質上發散的任務的重大限制(例如,在光線追蹤期間遍歷空間分區資料結構)。
現代版本沒有可用的模擬或後備功能。
由於編譯器針對目標 GPU 裝置限制進行最佳化的方式,有效的 C++ 有時可能會被標記並阻止編譯。[需要引用]
C++運行時類型資訊(RTTI) 和 C++ 樣式異常處理僅在主機程式碼中支援,在裝置程式碼中不受支援。
在第一代 CUDA 運算能力 1.x 裝置上的單精確度中,不支援非正規數,而是將其刷新為零,除法和平方根運算的精確度略低於符合 IEEE 754 的單精確度數學。支援運算能力 2.0 及以上的設備支援非正規數,除法和平方根運算預設符合 IEEE 754 標準。然而,如果需要,使用者可以透過設定編譯器標誌來停用精確除法和精確平方根,並啟用將非正規數刷新為零,從而獲得計算能力 1.x 裝置的先前更快的遊戲級數學。[26]
與OpenCL不同,支援 CUDA 的 GPU 只能從 Nvidia 取得,因為它是專有的。[27] [1]在其他 GPU 上實作 CUDA 的嘗試包括:
Project Coriander:將 CUDA C++11 原始碼轉換為 OpenCL 1.2 C。[28] [29] [30]
CU2CL:將 CUDA 3.2 C++ 轉換為 OpenCL C。
GPUOpen HIP:CUDA 和ROCm之上的薄抽象層,適用於 AMD 和 Nvidia GPU。有一個用於導入 CUDA C++ 來源的轉換工具。支援 CUDA 4.0 加 C++11 和 float16。
ZLUDA 是 AMD GPU 和以前的 Intel GPU 上 CUDA 的直接替代品,具有接近本機的效能。[32]開發商 Andrzej Janik 分別與英特爾和 AMD 簽訂了合同,分別於 2021 年和 2022 年開發該軟體。然而,由於缺乏商業用例,兩家公司都沒有決定正式發布它。 AMD的合約中包含一項條款,允許Janik獨立發布他為AMD提供的程式碼,允許他發布僅支援AMD GPU的新版本。[33]
chipStar可以在先進的OpenCL 3.0或零級平台上編譯和執行CUDA/HIP程式
CUDA - Wikipedia https://bit.ly/4cakAa1
------------------------------------
淺談NVIDIA GPU與CUDA技術 | 多采科技 / 多采工程 - 專業水文氣象團隊 https://bit.ly/3VhrYZW
淺談NVIDIA GPU與CUDA技術
返回核心技術
引領高速平行運算風潮 打造專屬個人超級電腦  –  淺談NVIDIA GPU與CUDA技術
馮智勇 洪國展 蔡雅婷
一、           前言
GPU(Graphic Processing Unit)即圖形處理器,與中央處理器(Central Processing Unit,CPU)同為現今筆記型/桌上型電腦、伺服器乃至超級電腦的標準配備,其原理是利用晶片上大量算術邏輯單元(Arithmetic Logic Unit,ALU)以滿足影像處理時的高度平行計算(highly parallel computation)且計算密集(compute-intensive)需求,與CPU硬體設計上(圖1)存在顯著差異。由於無論是簡易或複雜的演算法,最終仍須透過基礎的四則運算方可利用電腦求得解析解或者近似值無異於影像處理運算方式,圖形處理器獨立製造商NVIDIA於民國95年提出結合繪圖與計算功能的G80架構圖形處理器以及整合硬體、軟體與作業平台的「統一計算架構」技術(Compute Unified Device Architecture,CUDA),使得使用者可以採單一指令多執行緒(Single-Instruction Multiple-Thread,SIMT)的執行模式撰寫高階程式語言的應用程式後,即能透過GeForce、Quadro與Tesla系列產品滿足高速平行計算需求,就此開啟GPU運算技術(GPU Computing)於科學及工程計算領域上的應用
本文首先將於NVIDIA GPU硬體發展歷程中介紹圖形處理器的硬體設計沿革並且簡介NVIDIA CUDA架構與範疇,接著藉由CUDA應用程式於作業系統的運作流程說明GPU扮演的角色,最後以Fortran與CUDA Fortran副程式說明如何開發第一支CUDA應用程式。
二、           NVIDIA GPU硬體發展
(1)G80架構
NVIDIA的G80架構系列產品為第一代支援CUDA技術的圖形處理器,晶片架構示意圖如圖2所示,包含8組紋理處理單元叢集(Texture Processor Cluster,TPC),每組TPC主要是包含一個紋理資料快取(Cache)單元與2個串流複合處理器(Streaming Multiprocessor,SM),而各SM則有8個負責完成圖形處理器執行緒預定任務的串流處理器(Streaming Processor,SP)、一個提供SP進行資訊分享的共享記憶體(Shared Memory)以及2個用於計算如指數函數與三角函數等特殊功能單元(Special Function Unit,SFU)。
(2)GT200架構
G80架構產品雖成功讓使用者得以利用C程式語言專注於撰寫SIMT形式平行運算應用程式,但科學研究與工程應用人員卻因其無法支援雙精確度計算而怯步。NVIDIA為此隨即於民國96年推出支援雙精確度計算能力的GT200架構,其TPC示意圖如圖3所示,除擴充每組TPC具有3個SM外,每個SM隱藏有一個雙精確度處理單元。GT200架構亦增加TPC數量為10組,使得該系列產品最高具有240個SP,高出G80架構128個SP將近一倍,因此GeForce高階產品GTX 295的每秒浮點數運算次數(FLoating-point OPerations per second,FLOPs)理論峰值可達單精確度浮點數的1,789 Giga FLOPs(GFLOPs)與雙精確度的149 GFLOPs。
(3)Fermi架構
隨著應用GPU從事科學研究與數值計算的研究人員劇增,NVIDIA於民國99年發表第二代支援CUDA技術的Fermi架構圖形處理器,除了增加CUDA核心[1](CUDA Core)數量與共享記憶體大小外,更實作平行資料快取技術、導入多執行緒管理引擎並且完整支援錯誤偵測與修正(Error Checking and Correcting,ECC)功能。圖4上方為Fermi架構圖形處理器示意圖,可知為單一晶片配置一個L2快取單元,整合最高16組具L1快取單元之SM,透過6個64 位元(bit)寬度通道(即記憶體介面寬度為384 bit)使用6個記憶體分區最高達6 GiB的動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)。
由於Fermi架構的SM配置有32個包含一個整數ALU與一個浮點數算術邏輯單元(Floating Point Unit,FPU)的CUDA核心、4個特殊功能單元、16個載入/儲存單元(LD /ST)、以及2個執行緒束排程器(warp scheduler)與2個指令發送單元(instruction dispatch unit),各排程器可如圖5所示,獨立選擇執行緒束(warp)並指派單一工作指令給16個CUDA核心進行作業。為大幅提升雙精確度浮點數運算能力,Fermi架構設計SM可同時處理16個雙精確度浮點數運算,並且實作IEEE754-2008浮點算術標準而具有於一次CUDA核心運作中整合雙精確度浮點數乘法與加法運算的功能(Fused Multiply-Add,FMA),統以增速因子2代表。
NVIDIA圖形處理器每秒浮點數運算次數理論峰值的計算方式為「串流複合處理器數´浮點數處理單元數´增速因子´CUDA核心計算頻率」,而記憶體理論頻寬計算方式為「記憶體通道數´記憶體時脈頻率´記憶體介面寬度位元/8」。以具備14組SM的Tesla C2050產品為例,因CUDA核心計算頻率為1.15 GHz,記憶體時脈頻率為1.5 GHz,使得每秒單/雙精確度浮點數運算次數分別可達14´32´2´1.15=1,030.4與14´16´2´1.15=515.2(GFLOPs)的理論峰值,而記憶體理論頻寬則為2´1.5´384/8=144(GiB/sec)。
(4)Kepler架構
NVIDIA於民國101年中旬發表第三代支援CUDA技術的Kepler架構圖形處理器(圖6上方),除係以Fermi架構為基礎增加串流複合處理器[2]上的CUDA核心數達6倍、增加各項記憶體大小並且改進L1與L2快取組態功能,更重要的是新增得以與多個CPU建立最高32個工作佇列的「Hyper-Q」功能、允許圖形處理器執行緒自行新增工作指令的「Dynamic Parallelism」功能以及與本機或相異主機的圖形處理器直接交換資料的「GPU Direct」功能等三項特色,使得Kepler架構圖形處理器極具強大的多工處理能力,亦使CUDA應用程式開發能更符合實際物理問題模擬需求。
圖6下方所示為Kepler架構的SMX示意,設計有192個具ALU與FPU各一的CUDA核心、64個專屬的雙精確度浮點數處理單元(DP unit)、32個特殊功能單元、32個載入/儲存單元以及4個執行緒束排程器及8個指令發送單元。SMX的執行緒束排程器除與Fermi架構的SM同樣可獨立選擇執行緒束外,更透過2個指令發送單元指派2個獨立工作指令給該執行緒束進行作業,並且允許同時進行雙精確度浮點數運算與其他工作指令(圖7)
以具備15組SMX的Tesla K40產品為例,CUDA核心計算頻率為745 MHz,記憶體時脈頻率為3.0 GHz,記憶體介面寬度為384 位元,因此每秒單/雙精確度浮點數運算次數分別可達4.29 與1.43 TFLOPs(Tera FLOPs)的理論峰值,並且記憶體理論頻寬可達288 GiB/sec。圖8與圖9分別為NVIDIA GPU與Intel CPU之每秒浮點數運算次數理論峰值比較與記憶體理論頻寬比較時序,可知截至2013年8月Intel發表的Ivy Bridge中央處理器為止,圖形處理器的運算能力均已高出中央處理器甚多。
(5)圖形處理器記憶體
NVIDIA 圖形處理器提供了包含全域記憶體(global memory)、常數記憶體(constant memory)、材質記憶體(texture memory)、共享記憶體、區域記憶體(local memory)以及暫存器(register)等6種不同類型的記憶體,其所在位置、存取屬性、可視範疇與生命周期如表1所示。
全域、常數、材質與區域記憶體皆位於DRAM上(稱為off-chip位置),可供不同執行緒區塊中的各執行緒使用。全域記憶體容量最大,所有執行緒都能讀寫(R/W)全域記憶體,適合用於儲存大量資料,並為主機端上傳與下載圖形處理器端資料管道,在Fermi與Kepler架構中可透過L1與L2的快取加速存取速度;常數記憶體與材質記憶體,僅供執行緒讀取,可加速資料的存取,其中常數記憶體容量約數十KiB,資料存取速度約為全域記憶體的10倍;材質記憶體常用於影像處理時儲存影像原始資料需透過的特殊存取方式來達成;而區域記憶體提供執行緒區塊中每一個執行緒自己存取的記憶體空間,可提供讀取但速度較暫存器稍慢。
共享記憶體與暫存器皆位於SM或SMX上(稱為on-chip位置),共享記憶體執行時期提供一個執行緒區塊內所有執行緒讀寫,容量約數十KiB,提供區塊中每個執行緒存共享或交換資料,執行緒存取資料速度約為存取全域記憶體的100倍;暫存器如同於CPU暫存器,執行緒存取資料速度約與共享記憶體相當,用以儲存執行緒執行計算程序中區域變數。
淺談NVIDIA GPU與CUDA技術 | 多采科技 / 多采工程 - 專業水文氣象團隊 https://bit.ly/3VhrYZW

CUDA - 維基百科,自由的百科全書


Google NotebookLM 免費中文 AI 筆記實例教學,老師、學生、創作者利器 https://bit.ly/3yV3bmJ
NotebookLM https://bit.ly/4bUFGZI
奇形怪狀的資料都能丟給它整理!Google AI 筆記神器「NotebookLM」開放台灣使用啦 | TechOrange 科技報橘 https://bit.ly/3xeQjYe
投資軟實力帶來和平與幸福,軍火硬實力帶來戰爭與恐懼 | 遠見雜誌 https://bit.ly/4cjuwgZ


為何僅三大廠能進軍 HBM 領域?五大關鍵限制進入門檻為何僅三大廠能進軍 HBM 領域?五大關鍵限制進入門檻 | TechNews 科技新報 https://bit.ly/3Xs7BeY
作者 Atkinson | 發布日期 2024 年 06 月 17 日 10:50 | 分類 AI 人工智慧 , 半導體 , 晶片line share分享follow us in feedlyline share
為何僅三大廠能進軍 HBM 領域?五大關鍵限制進入門檻
人工智慧 (AI) 晶片中不可或缺的高頻寬記憶體 (HBM),生產難點有哪些,為什麼迄今只有三大廠有能力跨入,外媒做了綜合性分析。
HBM 以 3D 堆疊,將多個 DRAM(動態隨機存取記憶體)晶片堆在一起,並以矽穿孔技術(TSV,Through-Silicon Via)連接兼具高頻寬和低功耗。HBM 應用 CoWoS(Chip on Wafer on Substrate)封裝就是關鍵生產方式。
CowoS 封裝 HBM 難度有幾項:
一,3D 堆疊及 TSV 挑戰
堆疊精確度部分,HBM 多個 DRAM 晶片需高度精準疊在一起,需極高技術,確保每層晶片對得非常準精,避免電性能損失。矽穿孔以 TSV 垂直通孔穿透每層矽片,通孔內填充導電材料,需精密刻蝕和填充技術,稍不慎就導致電氣連接或熱應力問題。
二,熱管理
HBM 是 3D 堆疊結構,相較傳統 2D 晶片,單位體積熱量密度更高,導致晶片熱量難以散發,引發熱失效。CoWoS 封裝需高效熱管理方案,如先進散熱材料和結構設計,確保晶片熱穩定性。
三,電源和訊號完整性
HBM 需高頻寬傳輸,對電源分配網路有極高要求,任何雜訊都可能影響 HBM 性能,導致傳輸錯誤。CoWoS 封裝須確保穩定電源供應和有效雜訊抑制。而高速數據傳輸對訊號完整性也是挑戰,CoWoS 封裝需確保高頻環境訊號傳輸完整性,與阻抗匹配、訊號線長度最佳化及減少干擾等相關。
四,封裝技術的複雜性
CowoS 需將矽片、基板和散熱材料等多種材料整合,需配合各材料熱膨脹係數,避免熱膨脹差異導致機械應力和晶片損壞。另封裝可靠性,CoWoS 多層結構和複雜連接,都需確保長期可靠性,包括抗機械衝擊、熱迴圈和電遷移等。
五,製造成本
當然成本是影響產品商業化最關鍵部分,CoWoS 需複雜技術和高精度設備,製造成本較傳統封裝高許多,對量產是重大經濟挑戰,需於高性能和成本間找到平衡。
總結,HBM 的 CoWoS 應用,儘管面臨許多難題,但高頻寬和低功耗優勢,在高性能計算和 AI 晶片有巨大潛力,封裝技術不斷進步,難題都有望逐步克服,推動 HBM 更普及。
(首圖來源:SK 海力士)為何僅三大廠能進軍 HBM 領域?五大關鍵限制進入門檻 | TechNews 科技新報 https://bit.ly/3Xs7BeY


AI教父黃仁勳、半導體女王蘇姿丰瞄準的下一個戰場:全球10大數據中心
鄭國強2024年6月18日 週二 上午9:01AI教父黃仁勳、半導體女王蘇姿丰瞄準的下一個戰場:全球10大數據中心 https://bit.ly/4b3R0S0
黃仁勳所提到的「AI革命」之一指的是傳統數據中心運算速度必須升級,否則趕不上資料成長速度,同樣電力消耗而算力卻不如競爭者,圖為全球第5大Iron Mountain Underground數據中心。(圖片來源/Iron Mountain官網)
印度前2大數據中心、Hiranandani集團轄下Yotta Data宣布買進了10億美元的輝達(Nvidia)GPU,包括H100和DGX GH200產品,證實輝達CEO黃仁勳口中的AI工廠革命,正在進行:現有的大型數據中心,正在升級自己的伺服器。
印度最大數據中心、Hiranandani集團轄下Yotta Data執行長兼聯合創始人 Sunil Gupta 在今年1月對《路透社》表示,Yotta計劃向合作夥伴Nvidia 購買更多的人工智慧晶片,在去年,印度媒體報導Yotta一共要買進2萬片的輝達GPU,Sunil Gupta則首度對外透露,包括對H100和DGX GH200採購,將於2025年建造完成,這批採購價值合計10億美元,約3200億台幣。
傳統大型數據中心,藉由GPU升級運算能力
美國大型企業數據中心企業Switch其中的一個數據中心,號稱全球第四大的Tahoe Reno Colocation早在2019年已經使用輝達的NVIDIA DGX-1 和 DGX-2。該集團為輝達長期合作夥伴。
今年3月,外電報導,Google承諾在 2024 年在美國和海外投資數十億美元,擴大其快速成長的資料中心足跡,為其雲端運算基礎設施和人工智慧計畫提供動力。Google已經宣布將在密蘇裡州堪薩斯城建造一個耗資10 億美元的資料中心園區。
排名全球第8的印度Yotta Data數據中心已買進10億美元的輝達晶片,預計明年建置完成新的AI GPU所組成的雲端中心。(圖片來源/Yotta官網)
外Google還計劃在愛荷華州錫達拉皮茲(Cedar Rapids)建造一個耗資 5.76 億美元的新數據中心計畫,宣布了在墨西哥、馬來西亞、泰國、紐西蘭、希臘、挪威、奧地利和瑞典的數據中心擴建或建設計劃,這些新世代的數據中心,將大量採用GPU,可能是輝達的產品也可能是AMD的產品,全部都是生成式人工智慧數據中心。
GOOGLE投資數據中心,未來將在8個國家設址
6月10日,美國數位廠商Compass Datacenters 已在亞利桑那州鳳凰城的 El Mirage 地區購買了土地,並計劃在那裡開發一個新的數據中心(data center)園區。微軟在該地區之外經營一個雲端區域。亞馬遜計劃在梅薩建立兩個園區。這一批新的數據中心,都將進入新的生成式AI運算數據中心時代,和舊的數據中心開始產生區隔。
黃仁勳在演講中提到的「算力」通貨膨脹,意即原來的數據中心、機房耗在多能源、電費,若在舊的晶片架構下,新增的計算能力非常有限,因此需要升級進入全新的GPU時代,尤其OpenAi的ChatGPT已經證明了可行。
全球前15大數據中心,將成為輝達和AMD必爭之地
全球原有的前15大數據中心,包括第15名由Switch買下倒閉的安隆集團在內華達州的數據中心SuperNAP、Quincy Data center、phoenix one data center、歐洲的CLW1 Newport Campus、NAP OF AMERICAS、the UTAH data center、瑞典的Bahnhof data center、印度Yotto NM1、Lakeside Technology Center、Apple's Mesa Data Center(專門供應蘋果雲端服務)、Iron Mountain Underground、Tahoe Reno colocation、印度和IBM合作打造的tulip data center、中國電信在蒙古的機房以及香港潤澤國際在北京附近的機房。
現有數據中心一年的電費驚人,例如排名第10的the UTAH data center(美國國安局為其客戶之一)一年耗電65MW,要繳4千萬美元的電費(12.9億台幣),1天用掉1700萬加侖的水,傳統的算力,當面臨新的數據中心挑戰,未來幾年內勢必升級算力,其中,排名第8大的Yotta Data已率先採用輝達最新的GPU,也因此,除了位於中國的數據中心被禁售,傳統大型數據中心將是輝達、AMD未來幾年的必爭之地
AI教父黃仁勳、半導體女王蘇姿丰瞄準的下一個戰場:全球10大數據中心 https://bit.ly/4b3R0S0


AI教父黃仁勳、半導體女王蘇姿丰瞄準的下一個戰場:全球10大數據中心


 

arrow
arrow
    全站熱搜

    nicecasio 發表在 痞客邦 留言(0) 人氣()