OmniVinci
互联网
2025-11-09 02:28:36
OmniVinci是NVIDIA推出的全模态大语言模型,专门处理视觉、听觉、语言和推理的多模态任务。通过独特的OmnialignNet技术实现跨模态语义对齐,Temporal Embedding Grouping机制解决时序同步问题,采用Constrained Rotary Time Embedding优化时间感知能力。在Dailyomni等基准测试中,性能超越Qwen2.5等模型,尤其在音画同步理解任务上表现突出。模型仅需0.2万亿tokens训练量,效率远高于同类产品,适用于媒体分析、游戏开发等场景。







