亞馬遜雲發布Inferentia3芯片 生成式AI推理效率提升3倍

美國亞馬遜雲科技(AWS)今(6)日在舊金山舉行的re:Invent大會上,發布第三代AI推理芯片Inferentia3,該芯片專為生成式AI應用優化,算力達570 TFLOPS(FP16精度),較上一代產品提升3倍,延遲降低60%,同時推理成本降低55%。AWS副總裁斯瓦米·西瓦蘇布拉馬尼安表示,基於Inferentia3的EC2 Inf3實例即日起開放預訂,Meta、微軟等客戶已確認導入。
據介紹,Inferentia3採用台積電4奈米制程製造,每顆芯片集成4個第二代NeuronCore,支持cFP8、FP16等多種數據類型,內置32 GB HBM3內存,內存帶寬達1.2 TB/s。該芯片支持大語言模型(LLM)的分布式推理,可將1萬億參數的模型拆分至多顆芯片運行,推理速度較GPU方案提升40%。AWS同時升級Neuron SDK 2.0,與PyTorch、TensorFlow等框架實現深度集成,開發者無需大幅修改代碼即可遷移應用。
台灣供應鏈直接受益,台積電獲得Inferentia3的獨家代工訂單,月產能規劃為1.5萬片12英寸晶圓;日月光負責芯片的先進封裝,採用CoWoS技術實現芯片異構整合;穩懋的射頻模組也進入Inf3實例的供應鏈。業界分析指出,2025年全球AI推理芯片市場規模將突破450億美元,亞馬遜憑藉Inferentia系列芯片的性價比優勢,有望將其在雲端AI芯片市場的份額從15%提升至25%。台灣廠商在代工、封裝等環節的深度參與,將持續分享AI產業紅利。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

error: Content is protected !!