阿里巴巴(09988)發布了下一代基礎模型架構Qwen3-Next,並開源了基於該架構的Qwen3-Next-80B-A3B系列模型。新模型擁有800億參數,激活參數僅30億,訓練成本僅為Qwen3-32B的十分之一,對於超過32,000個標記的長文本推理,新模型與之前版本相比提供了10倍以上的更高吞吐量,推理效率大幅提升。
這款新模型具有混合注意力機制、高度稀疏的專家混合結構(MoE)、有利於訓練穩定性的優化,以及用於更快推理的多標記預測機制。該開源模型現時可以在托管人工智能軟件的平台「hug Face」上使用。
《經濟通通訊社12日專訊》
送禮活動浪接浪!想緊貼著數活動消息?即Like etnet Facebook專頁!► 立即讚好