亞馬遜雲發布Inferentia3芯片生成式AI推理效率提升3倍

美國亞馬遜雲科技（AWS）今（6）日在舊金山舉行的re:Invent大會上，發布第三代AI推理芯片Inferentia3，該芯片專為生成式AI應用優化，算力達570 TFLOPS（FP16精度），較上一代產品提升3倍，延遲降低60%，同時推理成本降低55%。AWS副總裁斯瓦米·西瓦蘇布拉馬尼安表示，基於Inferentia3的EC2 Inf3實例即日起開放預訂，Meta、微軟等客戶已確認導入。
據介紹，Inferentia3採用台積電4奈米制程製造，每顆芯片集成4個第二代NeuronCore，支持cFP8、FP16等多種數據類型，內置32 GB HBM3內存，內存帶寬達1.2 TB/s。該芯片支持大語言模型（LLM）的分布式推理，可將1萬億參數的模型拆分至多顆芯片運行，推理速度較GPU方案提升40%。AWS同時升級Neuron SDK 2.0，與PyTorch、TensorFlow等框架實現深度集成，開發者無需大幅修改代碼即可遷移應用。
台灣供應鏈直接受益，台積電獲得Inferentia3的獨家代工訂單，月產能規劃為1.5萬片12英寸晶圓；日月光負責芯片的先進封裝，採用CoWoS技術實現芯片異構整合；穩懋的射頻模組也進入Inf3實例的供應鏈。業界分析指出，2025年全球AI推理芯片市場規模將突破450億美元，亞馬遜憑藉Inferentia系列芯片的性價比優勢，有望將其在雲端AI芯片市場的份額從15%提升至25%。台灣廠商在代工、封裝等環節的深度參與，將持續分享AI產業紅利。

發佈留言

相關文章

加拿大推出半導體人才計劃 強化與台灣產業交流

新加坡國立大學與輝達聯發表柔性AI傳感器 可穿戴設備迎新突破

英特爾與法國合作建設先進封測廠 完善歐洲半導體生態

發佈留言取消回覆

加拿大推出半導體人才計劃強化與台灣產業交流

新加坡國立大學與輝達聯發表柔性AI傳感器可穿戴設備迎新突破

英特爾與法國合作建設先進封測廠完善歐洲半導體生態