本文介绍: 可控视频生成的应用场景将远远多于可控图片生成,直观上感觉受到冲击最大的是短视频公司,比如最近爆火的生成小姐姐跳舞视频(通义千问-全民舞王),效果距离真人实拍差距已经不大了。2023年工业场景下落地最多应该是可控图像生成了,不少大厂专门成立了专门的智能创作部门,比较成功的有电商图创作、海报创作、家装图生成、用户发帖辅助创作、证件照生成、图片美化等,背后的技术大部分是lora/dreambooth/controlnet等,最核心护城河还是用于finetune的高质量数据。
2023年底发布的svd(stabilityai/stable-video-diffusion-img2vid · Hugging Face)、EMU(https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/)、i2vgen-xl(GitHub – ali-vilab/i2vgen-xl: Official repo for VGen: a holistic video generation ecosystem for video generation building on diffusion models) 等模型相比
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。