LLaVA-OneVision-1.5

互联网 2025-10-16 10:18:38

LLaVA-OneVision-1.5 是开源的多模态模型，通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器，结合 2D 旋转位置编码和区域感知注意力机制，支持可变输入分辨率，增强对象和 OCR 能力。语言模型基于 Qwen3，通过三阶段训练流程（语言–图像对齐、高质量知识中期预训练和视觉指令对齐）进行优化。训练中采用离线并行数据打包和混合并行策略，提升算力和显存效率。数据方面，构建了 85M 预训练数据集，采用“概念均衡”策略，涵盖多种来源；22M 指令数据覆盖八大类别，经过多源聚合和格式统一。LLaVA-OneVision-1.5 在多模态基准上表现出色，成本可控，且全链条透明开放，提供代码、数据和模型资源，助力社区低成本复现和拓展。

*文章为作者独立观点，不代表爱思词典立场

本文由渔亦声发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/11841.html

LLaVA-OneVision-1.5 多模态 OCR Qwen3 RICE-ViT