Stable Diffusion 用户指南-快速入门

admin 93 0

读者对象

本文档适用于以下人群:

想学习AI绘画,并作为自己生产力的人。

想了解 Stable Diffusion 普通学生或工作者。


1

背景信息

现阶段市面上有哪些AI绘画产品?我们应该如何选择?

罗列一些主流的AI绘画产品,并简单介绍各个AI绘画产品的定位和特性,以便大家有个全局概念,进行抉择。

首先,根据国内和国外进行一个归类分组:

国外:Stable Diffusion(简称SD)、Midjourney、DALL-E 3、Firefly Image 2。

国内:百度文心一格、阿里通义万相、美图WHEE、360鸿图、海艺AI......

根据AI绘画的质量和口碑上进行一个归类分组:

第一梯队:Stable Diffusion(简称SD)、Midjourney。

第二梯队:DALL-E 3、Firefly Image 2。

第三梯队:百度文心一格、阿里通义万相、美图WHEE、360鸿图、海艺AI......

若你要入坑AI绘画且需求较高,并不是仅体验一下,那么推荐Stable Diffusion或Midjourney;若你为了新鲜感想去体验下那么推荐DALL-E 3、Firefly Image 2、百度文心一格、阿里通义万相。


Stable Diffusion 是什么?

Stable Diffusion(简称SD)是一种生成式人工智能,于2022年发布,主要用于根据文本描述生成详细图像,也可用于其他任务,如图像的修补、扩展和通过文本提示指导图像到图像的转换。除图像外,您还可以使用该模型创建视频和动画。

这是AI绘画第一次能在可以在消费级显卡上运行,任何人都可以下载模型并生成自己的图像。另外,SD高质量的成图以及强大的自由度(自定义、个性化)受到诸多网友的追捧。Stable

Diffusion XL 1.0 (SDXL 1.0) 是Stable Diffusion的一个更为高级和优化的版本,它在模型规模、图像质量、语言理解和模型架构等方面都有显著的改进。


Stable Diffusion 能做什么?

首先,大家在入坑SD前,务必要清楚现阶段的SD到底能做什么?能否满足自己的需求?

Stable Diffusion 功能包括文本转图像、图像转图像、图形插图、图像编辑和视频创作。

  • 文本转图像生成:最常见和最基础的功能。Stable Diffusion 会根据文本提示生成图像。

  • 图像转图像生成使用输入图像和文本提示,您可以根据输入图像创建新图像。典型的案例是使用草图和合适的提示。

  • 创作图形、插图和徽标使用一系列提示,可以创建各种风格的插图、图形和徽标。

  • 图像编辑和修正可以使用 Stable Diffusion 来编辑和修正照片。例如,可以修复旧照片、移除图片中的对象、更改主体特征以及向图片添加新元素。

  • 视频创作使用 GitHub 中的 Deforum 等功能,可以借助 Stable Diffusion 创作短视频片段和动画。另一种应用是为电影添加不同的风格。 还可以通过营造运动印象(例如流水)来为照片制作动画。


Stable Diffusion如何使用?

使用Stable Diffusion的方式一般有三种:一是部署在个人电脑上,二是部署在云端上,三是在某些平台在线使用。

  • 首先部署在个人电脑上,使用门槛较高,成本较高,但体验最佳,自由度较高,功能也最丰富。

  • 部署在云端上,有一定的使用门槛,无需电脑硬件,成本中等,自由度较高,功能也最丰富,体验一般。

  • 在线使用,一般可通一些平台在线体验,门槛低,成本低,体验佳,但自由度低,功能有局限。


Stable Diffusion VS Midjourney

众所周知,AI绘画领域的顶端有两大工具:Stable Diffusion和Midjourney,不少人会纠结于两者,不知道该选择哪一个才好。

Midjourney使用非常简单,基本无门槛,线上使用,对硬件要求低,但需要付费和科学上网。用户只需专注自己的Prompt[//]: # (提示词,在AI绘画中Prompt是指一段文本或图像+文本,用于描述你想要生成的图像的样子。),就能出现精美的图片,而且复现其他人分享的Prompt也很容易。

Stable Diffusion开源,可以本地部署,无需联网,无需付费,尤其是可以训练专属于自己的模型,但硬件要求高,部署也较麻烦,学习成本高。用户不但要学习很多背景知识,而且要一定的动手能力。另外,即使你有对方的Prompt,也不容易复现。

以下是Midjourney和Stable Diffusion部分维度的对比。

Stable Diffusion 用户指南-快速入门 ChatGPT 第1张

就我而言,我更加推荐Stable Diffusion。


2

安装和部署Stable Diffusion

介绍如何安装和部署Stable Diffusion。我使用的是B站UP主@秋葉aaaki的整合包,我这里只介绍该整合包的安装和部署。

背景信息

1. 从软件层面上讲,安装部署Stable Diffusion的方式主要有两种:一是传统原生安装方法,二是整合包安装方法。

传统原生安装:即从零开始安装部署Stable Diffusion,需要我们先部署所需的Python,Git环境以及依赖,再安装Stable Diffusion。操作较繁琐和有一定的门槛,这适合有编程基础,有一定经验的人。整合包安装:即一步到位,整合包里就有所需的Python,Git环境以及依赖、以及预设置好的部分模型和插件。整合包的出现就是为了避免繁琐的步骤,这非常适合小白,无任何经验的人。我个人推荐B站UP主@秋葉aaaki的整合包。

2. 从硬件层面上讲,安装部署Stable Diffusion也有两种方式:一是部署在云电脑上,二是部署到个人电脑上。

云电脑:是一种基于云计算的虚拟桌面服务,它可以让用户在任何地方使用任何设备访问其桌面和应用程序。如Microsoft Azure、Amazon WorkSpaces、腾讯云、阿里云等。需要掌握云端部署知识和进行付费。

个人电脑:即个人使用的电脑,对其有一定的性能要求,如你想玩3A游戏,那么就需要有高性能的电脑,使用Stable Diffusion同理。以下是结合诸多文章总结出来的推荐配置,大同小异。 

电脑系统:Windows10及以上/macOS Monterey (12.5)。
显卡:RTX3060及以上。
显存:8G及以上。
内存:16G及以上。
磁盘空间:500 SSD及以上

3. Stable Diffusion主要消耗电脑显卡(GPU)和显存,显卡性能越强出图的效率越高,显存越大图片分辨率就可以设置的越高。

显卡如何选择?根据国外一个测评文章:不同显卡在生成512x512分辨率的图像时的速度,单位是每秒生成的图像数(it/s),显存默认8G。显示了Nvidia的RTX 40系列显卡是最快的(绿色和灰色),其次是AMD的RX 7900系列(红色),再次是Nvidia的RTX 30系列(深绿色和黑色),最后是AMD的RX 6000系列和Intel的Arc系列(蓝色)。所以,我更加推荐Nvidia的显卡(N卡),最低也得是RTX 3050 8G。我个人是使用的是RTX 3060 12G。

Stable Diffusion 用户指南-快速入门 ChatGPT 第2张

若你不了解什么是显卡、内存等概念,可以观看此视频:

Stable Diffusion 用户指南-快速入门 ChatGPT 第3张


前提条件

  • 已经下载好Stable Diffusion 整合包,具体安装包可见:https://www.aliyundrive.com/s/PeZK5RgKRcv

  • 个人电脑满足Stable Diffusion安装和部署的推荐配置要求。

操作步骤

步骤一:右键解压Stable Diffusion安装包。

Stable Diffusion 用户指南-快速入门 ChatGPT 第4张

步骤二:双击Stable Diffusion安装包进入文件夹中,解压sd-webui-aki-v4.2

Stable Diffusion 用户指南-快速入门 ChatGPT 第5张

步骤三:双击启动器运行依赖-dotnet-6.0.11,安装所需依赖。

Stable Diffusion 用户指南-快速入门 ChatGPT 第6张

步骤四:双击sd-webui-aki-v4.2进入该文件夹中,下拉找到A启动器并启动。

注:第一次启动,需要一些时间部署Python和Git环境,请耐心等待,后面启动就很快了。若未弹出WebUI界面,请将复制链接:http://127.0.0.1:7860 到浏览器中即可。

Stable Diffusion 用户指南-快速入门 ChatGPT 第7张

若弹出Stable Diffusion WebUI界面,则表示启动成功。

Stable Diffusion 用户指南-快速入门 ChatGPT 第8张

——结束


3

Stable Diffusion WebUI界面介绍

背景信息

Stable Diffusion WebUI是什么?它和Stable Diffusion有什么关系?

WebUI,全称Website User Interface,网页用户界面,是指采用图形方式显示的程序/软件的操作界面。如知乎网页版就是一个网页用户界面。

Stable Diffusion WebUI就是控制Stable Diffusion程序的一个网页界面。与早期Stable Diffusion使用的命令窗口相比,除了降低用户的操作负担之外,对于新用户而言,图形界面在视觉上更易于接受,学习成本大幅下降,也让Stable Diffusion的大众化得以实现。

正因为Stable Diffusion开源的特性,@AUTOMATIC1111 大佬才能为其设计了WebUI,并公布在GitHub上,至今有100K星,近20K的分享。


Stable Diffusion WebUI 介绍

1. Stable Diffusion WebUI界面主要分为三个区域:模型选择区功能选择区参数配置区

Stable Diffusion 用户指南-快速入门 ChatGPT 第9张

2. 里面的参数非常多,第一次看到定会眼花缭乱,我对此进行了一次归类分组,这些参数主要分为两类:

一是为了告诉AI,用户的需求是什么,进而完成作图任务,称为基础参数。如提示词框、模型选择,迭代步数,采样器,图片尺寸等。

二是为了高效率地完成这个任务而存在的参数,称为额外参数,是非必要的参数。如垃圾桶,一键清除提示词、文件夹、打包下载、预设样式等。

那么,现在我们在看到某个参数时就知道它大致的作用是什么了。

Stable Diffusion 用户指南-快速入门 ChatGPT 第10张

Stable Diffusion 布局/参数介绍

接下来我将依次介绍Stable Diffusion文生图功能中的参数,指导用户快速了解和使用这些参数,以便更好地出图。

注:1. 这里的参数介绍只起到指导性作用,若想进一步了解各个参数的细节和原理,请阅读后续的文章。2. 由于这是整合包相比较原生的Stable Diffusion安装包,功能较多,且已经汉化了。

模型选择区

Stable Diffusion 用户指南-快速入门 ChatGPT 第11张

1. Stable Diffusion模型:下拉选择大模型,默认anyting-V5模型。请根据自身需求选择不同类型的模型,如现实主义风格的模型;动漫,二次元风格的模型。

2. 外挂VAE模型:下拉选择VAE模型,默认。是可选操作,可以选择不同效果的VAE模型,对成图细节或颜色进行修复,同时选择VAE也可以起到节省电脑算力的作用。

3. CLIP终止层数(Clip Skip):滑动确认或输入层数,层数范围为1~12层,默认层数为2。1层,成图更加精确;2层,成图更加平衡,即AI遵循提示词,也有一定自己的创意;3-12层,成图更加有创意。这里推荐2层。若你希望AI更加有自己的创意,还是请调节提示词引导系数(CFG Scale)参数,效果会更好。

注:选择模型时,需要提前下载模型并存储到对应的路径中。模型下载可前往:huggingface网站或Civital网站。Stable Diffusion模型存储位置是:*\models\Stable-diffusion。VAE模型存储位置是:*\models\VAE。存储完后,点击“🔄”即可。


功能配置区

Stable Diffusion 用户指南-快速入门 ChatGPT 第12张

1. 文生图(txt2img):根据文本描述生成对应的图片。

2. 图生图(img2img):根据图片、文本生成新的图片。如线稿上色,图片重绘。

3. 后期处理:对单张或多张图片进行放大,缩小处理。

4. PNG图片信息(PNG Info):上传图片即可解析图片的提示词和参数配置信息。

5. 模型融合:将2或3个模型进行融合。最终模型权重是前两个模型按比例相加的结果。需要 A、B 两个模型。计算公式为 A * (1 - M) + B * M。

6. 训练(Train):训练模型,可训练自定义的模型。

7. 系统信息:展示Stable Diffusion的服务器、版本、运行平台/状态、电脑内存等信息。

8. 附加网络(Addtional Networks):同时使用多个Lora模型的插件/拓展。

9. 无边图像浏览:即图片浏览器,拓展功能。可以更好地浏览和管理生成的图片。

10. 模型转换将模型进行转换,如更换名字,权重等。

11. 超级模型融合:是模型融合功能的升级版,支持更多参数配置。

12. 模型工具箱:即分析某个模型的具体信息,以报告书的形式展示。

13. WD1.4标签器:即上传图片,分析图片的提示词以及评估提示词的权重。

14. 设置(Settings):设置Stable Diffusion工具,如图片存储路径,各个参数设置以及系统设置。

15. 拓展(Extensions):管理拓展功能,包括更新,删除拓展。

注:蓝色表示的功能是拓展功能,是秋叶整合包,自带的拓展,可以在设置中进行删除。


参数配置区

简单介绍各个参数信息,分为基础参数、额外参数以及老版本的参数。   Stable Diffusion 用户指南-快速入门 ChatGPT 第13张


基础参数

1. 正向提示词(Prompt):输入你希望图片中出现什么内容。仅支持英文输入。

2. 反向提示词(Negative prompt):输入你不希望图片中出现什么内容,比如多手指。仅支持英文输入。

3. 迭代步数(Sampling Steps):设置图片去噪的步数,步数越多画面越精细,出图时间也越长。步数范围1~150步,1~19步更加模糊,粗糙;20~40步,更加平衡;40~150步更加精细。其中并不是步数越多越好,为了避免过犹不及,这里推荐20~40步,更加平衡

4. 采样方法(Sampler Method):点击勾选采样方法。不同的采样方法,有不同效果,这里大家多次尝试即可。

5. 高分辨率修复(Hires. fix):勾选即可将图片的分辨率放大。如从512512px到10241024。

请根据自身显卡性能,设置图片基础分辨率,请勿设置的过高,否则在勾选高分辨率修复后,会显示:Out Of Memory Error,爆显存了。

6. Refiner:待补充。

7. 尺寸(宽度、高度):设置成图的尺寸。默认512512px。推荐的尺寸有:512768px、768512px、7681152。

8. 总批次数:指一次生成图片多少张,这里指陆续跑图。根据显卡性能,酌情设置,推荐1~4。

9. 单批数量:指一次同时生成几张图片,这里指同时跑图。显卡压力更大,不建议设置为2以上。

10. 提示词引导系数(CFG Scale):AI遵循提示词的程度/成图与提示词相关度。数值越低更加精确,越高则更有创造力,这里推荐5~7更加平衡

注:该参数类似于New Bing对话框中的选择对话样式,分为更有创造力、更平衡、更精确。提示词引导系数(CFG Scale)则是以具体的数值来供用户设置。

Stable Diffusion 用户指南-快速入门 ChatGPT 第14张

11. 随机种子数(Seed):设置成图是否随机。文本框默认-1,表示随机产生不同的图片。点击“🎲”将随机种子设置为-1;点击“♻️”将成图的种子数(即唯一编码),设置为随机种子数,在其他参数不变的情况下生成的图片相似99%;点击“⏹️”则是进行更多设置。

12. Tiled Diffusion:待补充。

13. Tiled VAE:待补充。

14. Additional Networks:待补充。

15. ControlNet:又称控制网,是拓展功能。它为用户在图像生成过程中提供了额外的控制。例如,你将某图像的姿态动作使用ControlNet进行处理和分析,可将其姿态作为一个输入,接着你在输入提示词后,启动ControlNet功能,那么新的成图就会有该姿态。

注:ControlNet的极大地丰富了控制Stable Diffusion的方法,促进了用户个性化和自定义设计。它可以通过ControlNets参数来处理条件输入,如边缘映射、分割映射和关键点,从而丰富了控制大型扩散模型的方法。

16. 脚本(Script):一键测试提示词或各个参数变化对成图的影响。选项默认,分为提示词矩阵从文本框或文件载入提示词X/Y/Z图表controlnet m2m


额外参数

1. 生成(Generate):在设置好所需参数后,点击生成让AI开始生成图片。

2. ↙:点击即可从上次提示词或上次成图中读取所有参数。

此外用户可在C站一键复制某张图的生成数据,并粘贴到SD的提示词框中,再点击“↙”,即可一键完成参数设置,不过模型选择需要手动设置。

3. 🗑:点击即可清空提示词内容。

4. 🎴:点击即可显示/隐藏拓展模型。分为大模型和小模型,点击即可应用。点击模型左上角的图标,即可将当前成图替换成该模型的预览封面。

5. 📋:点击即可将所预设的样式插入当前提示词之后。

点击“📋”前,需先下拉选择预设样式。若没有预设样式,则需填写好提示词后,点击“💾”将当前提示词存储为预设样式。

6. 💾:点击即可将当前提示词存储为预设样式。

7. 成图展示区:展示最终图片的区域。点击图片可放大查看,点击“❎”即关闭放大查看图片。

8. 📁:点击即可查看所有成图的存储位置。

9. 保存(Save):点击,出现图片下载控件。

10. 打包下载(Zip):点击,将图片压缩,出现压缩包下载控件。

11. 发送到 图生图(Send to img2img):点击,将图片发送到图生图功能中。

12. 发送到 重绘(Send to inpaint):点击,将图片发送到图生图-局部重绘中。

13. 发送到 后期处理(Send to extras):点击,将图片发送到后期处理中。

14. 图片生成数据(Generation Data):该区域展示图片的生成数据,包括提示词、参数配置、耗时等。可选中进行复制粘贴。


老版本参数SD1.5.1

1. 面部修复(Restore faces):勾选即可修复成图脸部,这里较适合真人,不适合二次元和动漫人物。

2. 平铺图(Tiling):勾选将成图变成平铺图。平铺图:指将一张图片多次重复排列,填满整个画布的效果。以下是平铺图的一种:

Stable Diffusion 用户指南-快速入门 ChatGPT 第15张

好的,以上就是本次分享的内容了。

抱歉,评论功能暂时关闭!