控制Stable Diffusion的不受控制的力量
人工智能艺术社区的兴奋在最近几天达到顶峰,让我想起了去年 Stable Diffusion 的首次发布。本次重点介绍基于Stable Diffusion 1.5的轻量级预训练模型ControlNet,可以检测输入图像中的边缘、深度图或姿态骨架,结合文字提示,精准指导Stable Diffusion中图像的生成.
下图是ControlNet论文中的demo,使用Canny边缘检测提取输入图像中小鹿的轮廓特征,提示“一张高质量、详细、专业的图像”生成4张结果图在 SD 1.5 中。
2 月 10 日,ControlNet 论文发布,同时发布了预训练模型的开源权重和论文中提到的所有输入条件检测器。社区迅速在 Huggingface 中部署了一个试用 demo,并将其打包为可在 Stable Diffusion WebUI 中使用的扩展。
六天后,腾讯ARC也发布了类似的状态控制方案T2I-Adapter。
Stable Diffusion 的开源在使社区能够探索和试验生成艺术的新技术、模型和方法方面发挥了至关重要的作用。如果没有 Stable Diffusion 的开放性,我们可能看不到已经出现的令人难以置信的发展和创造性的可能性。
ControlNet和T2I-Adapter有何突破?有什么区别?
撇开技术细节不谈,这两种型号都有相似的基本理念。两者的突破在于它们如何将可训练参数添加到现有的大型扩散模型中,从而允许额外的输入条件使