DA38

VTP

互联网 2025-12-22 13:12:49

VTP(Visual Tokenizer Pre-training)是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer,通过融合对比学习、自监督学习和重建学习等方法,从头预训练tokenizer,使生成的latent(压缩特征)更具结构化和易学性。VTP突破传统tokenizer的局限,展现出良好的可扩展性,随着参数、算力和数据规模的增加,能显著提升下游生成模型的性能,为视觉生成领域提供新的思路和方法。