本文介绍: 可控视频生成的应用场景将远远多于可控图片生成,直观上感觉受到冲击最大的是短视频公司,比如最近爆火的生成小姐姐跳舞视频(通义千问-全民舞王),效果距离真人实拍差距已经不大了。2023年工业场景下落地最多应该是可控图像生成了,不少大厂专门成立了专门的智能创作部门,比较成功的有电商图创作、海报创作、家装图生成、用户发帖辅助创作、证件照生成、图片美化等,背后的技术大部分是lora/dreambooth/controlnet等,最核心护城河还是用于finetune的高质量数据。

2023年底发布的svd(stabilityai/stable-video-diffusion-img2vid · Hugging Face)、EMU(https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/)、i2vgen-xl(GitHub – ali-vilab/i2vgen-xl: Official repo for VGen: a holistic video generation ecosystem for video generation building on diffusion models) 等模型相比

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注