Kandinsky 5.0
互联网
2025-10-16 10:12:59
Kandinsky 5.0 是俄罗斯 AI 研究实验室 AI-Forever 开发的文本到视频生成模型,具有强大的生成能力和高效的性能表现。核心版本 Kandinsky 5.0 Video Lite 是一款参数量为 20 亿的轻量级模型,生成质量优异,甚至优于一些更大规模的模型。支持多种变体,包括 SFT 模型(生成质量最高)、CFG 蒸馏模型(推理速度提升约 2 倍)、Diffusion 蒸馏模型(低延迟生成且几乎无质量损失)等,满足不同场景需求。模型采用基于 Flow Matching 的 Latent Diffusion 架构,结合 Qwen2.5-VL 提供的文本表示和 HunyuanVideo 的 3D VAE,能根据文本描述生成 5 到 10 秒的视频。在生成与俄罗斯文化相关的视频内容方面表现出色,同时支持生成英文文本。Kandinsky 5.0 适用于视频创作、影视制作、动画生成等多种场景。