SAIL-VL2

互联网 2025-10-16 10:05:32

SAIL-VL2 是抖音团队和新加坡国立大学联合开发的开源视觉语言基础模型，专注于多模态理解和推理。由视觉编码器 SAIL-ViT、视觉-语言适配器和大语言模型组成，采用渐进式训练框架，从视觉预训练到多模态融合，最终通过 SFT-RL 混合范式提升性能。SAIL-VL2 在架构上引入了混合专家（MoE）架构，突破了传统密集型模型的限制，显著提升了效率和性能。

*文章为作者独立观点，不代表爱思词典立场

本文由水冰月发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/11830.html

SAIL-VL2 抖音字节跳动国立大学