金博宝app手机版 好意思团发布开源原生多模态大模子LongCat-Next

发布日期:2026-03-29 08:37    点击次数:54

金博宝app手机版 好意思团发布开源原生多模态大模子LongCat-Next

IT 之家 3 月 27 日音尘,好意思团本日发布原生多模态大模子 LongCat-Next,将图像、语音与文本协调映射为同源的翻脸 Token,使模子从学习洞开空间的映射,转向学习翻脸 ID 之间的干绑缚构,并通过纯正的下一个 Token 展望(Next Token Prediction, NTP)范式,以一种协调的方法建模各式物理信号。

好意思团还晓谕把辩论想路的中枢 —— LongCat-Next 模子和它的翻脸分词器沿路开源,但愿更多开发者能基于它,构建果然能感知、领略并作用于果然寰宇的 AI。

好意思团构建了 DiNA(Discrete Native Autoregressive)翻脸原生自追想架构。其中枢即是将通盘模态协调为翻脸 Token,并用合并个自追想模子进行建模。DiNA 冲破了模态间的隔膜。它通过极简的下一 Token 展望(NTP)范式,将图像、声息和笔墨协调溜化为同源的翻脸 Token。

简单而言,好意思团把笔墨、图像、语音皆酿成合并种东西 —— 翻脸 Token。岂论读笔墨、看图片仍是听声息,对 AI 来说皆是合并件事:展望下一个 Token 是什么。

这种协调盘算推算,让模子在西宾时更踏实,部署时更轻量。好意思团用 LongCat-Flash-Lite MoE(68.5B 总参数,3B 激活参数)动作基座,在这个框架基础上西宾了 LongCat-Next。

实际标明,DiNA 的 MoE 路由在西宾中迟缓出现模态专精化,激活巨匠数目比拟纯说话斥地有所加多,188金宝博模子正在用更大容量救济智商彭胀。

▲ LongCat-Next 架构概览,该架构基于 DiNA 范式盘算推算

把柄好意思团官方测试,LongCat-Next 在视觉领略、图像生成、音频、智能体等多个维度上,以一套翻脸原生框架展现出与多模专用模子特地以致最先的性能。

LongCat-Next 在 OmniDocBench(学术论文、财报、行政表格)上的判辨(0.152 / 0.226)不仅特地 Qwen3-Omni,还跳动了专用视觉模子 Qwen3-VL。

消融实际对比中,LongCat-Next 协调模子的领略失掉仅比纯领略模子高 0.006,而生成失掉比纯生成模子低 0.02。在图像生成上,LongCat-Next 在 LongText-Bench(英文 93.15);在图像领略上,MathVista(83.1)达到最先水平。

在纯文本任务上,LongCat-Next 的 MMLU-Pro(77.02)和 C-Eval(86.80)判辨最先,解说原生多模态西宾未裁减说话中枢智商。在器用调用上,τ² -Bench 零卖场景(73.68)大幅最先 Qwen3-Next-80B-A3B-Instruct(57.3);在代码智商上,SWE-Bench(43.0)特地同类模子。

在音频鸿沟,TTS 任务上,SeedTTS 的中语和英文 WER 区分低至 1.90 和 1.89;音频领略上,MMAU(76.40)、TUT2017(43.09)均达到先进水平。更遑急的是,模子支合手低蔓延的并行文本语音生成与可定制的语音克隆,让语音交互更当然、更个性化。

IT 之家附 LongCat-Next 模子和 dNaViT 分词器开源地址如下:金博宝app手机版

乐鱼体育官方网站



Copyright © 1998-2026 188金宝博官网app下载™版权所有

szgjdhb.com 备案号 备案号: 苏ICP备19027181号

技术支持:®188金宝博  RSS地图 HTML地图