RICE-ViT是什么梗？ - 爱思词典

LLaVA-OneVision-1.5

LLaVA-OneVision-1.5 是开源的多模态模型，通过高效训练和高质量数据实现高性能、低成本和强复现性。采用自研的 RICE-ViT 作为视觉编码器，结合 2D 旋转位置编码和区域感知注意力...查看更多

渔亦声

10-16