金博宝app手机版好意思团发布开源原生多模态大模子LongCat-Next

发布日期：2026-03-29 08:37 点击次数：54

IT 之家 3 月 27 日音尘，好意思团本日发布原生多模态大模子 LongCat-Next，将图像、语音与文本协调映射为同源的翻脸 Token，使模子从学习洞开空间的映射，转向学习翻脸 ID 之间的干绑缚构，并通过纯正的下一个 Token 展望（Next Token Prediction， NTP）范式，以一种协调的方法建模各式物理信号。

好意思团还晓谕把辩论想路的中枢 —— LongCat-Next 模子和它的翻脸分词器沿路开源，但愿更多开发者能基于它，构建果然能感知、领略并作用于果然寰宇的 AI。

好意思团构建了 DiNA（Discrete Native Autoregressive）翻脸原生自追想架构。其中枢即是将通盘模态协调为翻脸 Token，并用合并个自追想模子进行建模。DiNA 冲破了模态间的隔膜。它通过极简的下一 Token 展望（NTP）范式，将图像、声息和笔墨协调溜化为同源的翻脸 Token。

简单而言，好意思团把笔墨、图像、语音皆酿成合并种东西 —— 翻脸 Token。岂论读笔墨、看图片仍是听声息，对 AI 来说皆是合并件事：展望下一个 Token 是什么。

这种协调盘算推算，让模子在西宾时更踏实，部署时更轻量。好意思团用 LongCat-Flash-Lite MoE（68.5B 总参数，3B 激活参数）动作基座，在这个框架基础上西宾了 LongCat-Next。

实际标明，DiNA 的 MoE 路由在西宾中迟缓出现模态专精化，激活巨匠数目比拟纯说话斥地有所加多，188金宝博模子正在用更大容量救济智商彭胀。

▲ LongCat-Next 架构概览，该架构基于 DiNA 范式盘算推算

把柄好意思团官方测试，LongCat-Next 在视觉领略、图像生成、音频、智能体等多个维度上，以一套翻脸原生框架展现出与多模专用模子特地以致最先的性能。

LongCat-Next 在 OmniDocBench（学术论文、财报、行政表格）上的判辨（0.152 / 0.226）不仅特地 Qwen3-Omni，还跳动了专用视觉模子 Qwen3-VL。

消融实际对比中，LongCat-Next 协调模子的领略失掉仅比纯领略模子高 0.006，而生成失掉比纯生成模子低 0.02。在图像生成上，LongCat-Next 在 LongText-Bench（英文 93.15）；在图像领略上，MathVista（83.1）达到最先水平。

在纯文本任务上，LongCat-Next 的 MMLU-Pro（77.02）和 C-Eval（86.80）判辨最先，解说原生多模态西宾未裁减说话中枢智商。在器用调用上，τ² -Bench 零卖场景（73.68）大幅最先 Qwen3-Next-80B-A3B-Instruct（57.3）；在代码智商上，SWE-Bench（43.0）特地同类模子。

在音频鸿沟，TTS 任务上，SeedTTS 的中语和英文 WER 区分低至 1.90 和 1.89；音频领略上，MMAU（76.40）、TUT2017（43.09）均达到先进水平。更遑急的是，模子支合手低蔓延的并行文本语音生成与可定制的语音克隆，让语音交互更当然、更个性化。

IT 之家附 LongCat-Next 模子和 dNaViT 分词器开源地址如下：金博宝app手机版

乐鱼体育官方网站

金博宝app手机版好意思团发布开源原生多模态大模子LongCat-Next

热点资讯

推荐资讯

金博宝app手机版 好意思团发布开源原生多模态大模子LongCat-Next

热点资讯

推荐资讯

金博宝app手机版好意思团发布开源原生多模态大模子LongCat-Next