最近搜看股票
報價
| 返回 放大 + 縮小 - | |
|
智譜官宣GLM-5底層基建進展:吞吐最高提升132%,修復方案被SGLang開源社區採納
推薦 12 利好 10 利淡 2 格隆匯新聞
|
|
|
|
|
4月30日|今日凌晨,智譜發佈技術博客《Scaling Pain:超大規模Coding Agent推理實踐》,首次系統披露GLM-5系列模型在超大規模Coding Agent調用場景下的底層推理技術突破。包括兩個關鍵Bug的定位及修復、一項性能優化創新、以及一個意外的監控機制突破。 針對Context Parallel策略中的KV Cache宂餘存儲問題,智譜設計實現了KV Cache分層存儲方案 LayerSplit —— 每張GPU僅持有部分層的KV Cache,通過廣播機制完成協同計算。在Cache命中率90%條件下,40K至120K請求長度區間內,系統吞吐量提升10%至132%,且上下文越長收益越顯著。這一優化直接大幅提升智譜在Coding場景下的服務能力上限。 智譜本次披露的工程突破具備明確的技術深度——團隊不僅在自有推理鏈路中定位並修復了PD分離架構下的KV Cache跨節點複用競態,更進一步在主流開源推理框架SGLang的源代碼層面發現並修復了HiCache模塊的加載時序缺失(read-before-ready)問題,修復方案被SGLang開源社區採納,其底層基礎設施能力不僅服務於自身模型,也正在成為大模型行業的公共基礎設施之一。 智譜推理優化還在進一步加速,大幅提升單位算力token吞吐效率,降低推理成本。新聞來源 (不包括新聞圖片): 格隆匯 |
|
|
免責聲明 : 以上資訊僅供參考。AASTOCKS.com Limited對以上資訊的內容不承擔任何責任,對其準確性,完整性,品質,及時性,或可靠性不作任何陳述或予以認可,並明確表示不對任何由本資訊的全部或部分內容引致之損失或損害承擔任何法律責任或為其引起的損失負責。以上資訊或反映了相關文章或專題作者的的個人意見和觀點,並不代表AASTOCKS.com Limited的立場。以上資訊的任何內容均不構成AASTOCKS為任何投資作出招攬、提出要約、意見或推薦,或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務。投資者必須按其本身投資目標及財務狀況自行作出投資決定。
|
|
