渔亦声

LLaVA-OneVision-1.5

互联网 2025-10-16 10:18:38

LLaVA-OneVision-1.5 是开源的多模态模型,通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率,增强对象和 OCR 能力。语言模型基于 Qwen3,通过三阶段训练流程(语言–图像对齐、高质量知识中期预训练和视觉指令对齐)进行优化。训练中采用离线并行数据打包和混合并行策略,提升算力和显存效率。数据方面,构建了 85M 预训练数据集,采用“概念均衡”策略,涵盖多种来源;22M 指令数据覆盖八大类别,经过多源聚合和格式统一。LLaVA-OneVision-1.5 在多模态基准上表现出色,成本可控,且全链条透明开放,提供代码、数据和模型资源,助力社区低成本复现和拓展。