LLaVA-OneVision-1.5
互联网
2025-10-16 10:18:38
LLaVA-OneVision-1.5 是开源的多模态模型,通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器,结合 2D 旋转位置编码和区域感知注意力机制,支持可变输入分辨率,增强对象和 OCR 能力。语言模型基于 Qwen3,通过三阶段训练流程(语言–图像对齐、高质量知识中期预训练和视觉指令对齐)进行优化。训练中采用离线并行数据打包和混合并行策略,提升算力和显存效率。数据方面,构建了 85M 预训练数据集,采用“概念均衡”策略,涵盖多种来源;22M 指令数据覆盖八大类别,经过多源聚合和格式统一。LLaVA-OneVision-1.5 在多模态基准上表现出色,成本可控,且全链条透明开放,提供代码、数据和模型资源,助力社区低成本复现和拓展。



![花珊珊这次的头发接的好蓬松 发色也很满意 [求关注]](https://imgs.knowsafe.com:8087/img/aideep/2022/2/27/a08cef7c446fd9d4ba074726a47edb64.jpg?w=250)



