VTP

互联网 2025-12-22 13:12:49

VTP（Visual Tokenizer Pre-training）是MiniMax视频团队开源的视觉生成模型预训练框架。框架聚焦优化视觉tokenizer，通过融合对比学习、自监督学习和重建学习等方法，从头预训练tokenizer，使生成的latent（压缩特征）更具结构化和易学性。VTP突破传统tokenizer的局限，展现出良好的可扩展性，随着参数、算力和数据规模的增加，能显著提升下游生成模型的性能，为视觉生成领域提供新的思路和方法。

*文章为作者独立观点，不代表爱思词典立场

本文由 DA38发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/12181.html

VTP Visual Tokenizer Pre-training MiniMax