<匯港通訊> 美團(03690)發布並全面開源原生多模態大模型LongCat-Next,以及其核心組件離散原生分辨率視覺分詞器(dNaViT)。
該模型首次實現將圖像、語音與文本統一映射為同源離散Token。摒棄傳統以語言為中心的拼湊式架構,全程採用「下一個Token預測」(Next Token Prediction,NTP)範式。旨在令視覺與語音成為人工智能(AI)的原生輸入模態,提升多模態理解與生成能力。模型面向全球開發者開源,適用於當地語系化多模態應用開發。
美團早前發布並開源LongCat-Flash-Thinking-2601,為LongCat-Flash-Thinking模型升級版,在智能體搜索(Agentic Search)、智能體工具調用(Agentic Tool Use)、工具交互推理(TIR)等核心評測基準上,均達到開源模型SOTA水平。 (ST)
新聞來源 (不包括新聞圖片): 滙港資訊