在上一期里,您已经领会Encoder 和Decoder 两者的涵意和功能了。请您看看图1 里,在两者之间有个空间,通称为:隐空间(latent space)。
图1
(来源:https://arxiv.org/pdf/1909.11573.pdf)
本期以SD(Stable Diffusion) 模型为例,来欣赏其隐空间里的架构之美。由于Diffusion 隐空间里的主角是:UNet模型。于是,先来细观Diffusion 隐空间里UNet模型的训练流程。
1 简介UNet模型
在本专栏里,曾经详细介绍过AE(autoencoder),相信您对AE 已经很熟悉了, 不再重复介绍AE模型。
UNet是AE模型的延伸型式。由于典型AE 模型的特性是: 其前段的Encoder( 编码器) 是特征提取的过程, 会过滤掉一些信息。这些被过滤掉的信息, 就没有办法传递到后段的Decoder( 解码器) 了。
于是,UNet 就来延伸AE 模型,将原有的Encoder与Decoder 之间增加了一些连结,例如Encoder 的每一层输出都与对映层级的译码器连接。因此使得编码器每一层的信息,额外输入到译码器的对映层,让Decoder在重建的过程中,比较不会遗失掉重要的信息了。而Unet 模型的架构如其名呈现一个U 字形( 图2)。
图2
(来源:https://www.researchgate.net/)
如此,UNet 使用对映层级的连接来保留小且精细尺度的特征。
2 Diffusion隐空间里的UNet角色
在AIGC 潮流中,SD(Stable Diffusion) 产品的推出是AIGC 图像生成发展历程中的一个里程碑,提供了高性能模型,能快速生成创意十足的图像( 图3)。
图3
(来源:https://jalammar.github.io/illustrated-stable-diffusion/)
SD 提供两项主要功能:输入文本(Text) 提示来生成图像( 即text2img);输入图像,然后根据文本描述来修改图像( 即输入text + img)。在SD 隐空间里,UNet 扮演关键性角色( 图4)。
图4
(来源:https://jalammar.github.io/illustrated-stable-diffusion/)
在SD 隐空间里, 使用了1 个UNet 模型, 并搭配1 个时间调度(scheduling) 器,来担任图像生成的核心任务。扩散(diffusion) 一词描述了SD 隐空间里进行的图像生成情形,整个过程都是在隐空间里逐步推进(stepby step) 的,每一步都会增加更多的噪音(noise)。例如,我们准备了一张图像,接着产生随机噪音加入到图像中,然后将这含有噪音的图像输入给UNet,让它来预测噪音。
为了加速图像的生成效率,SD 使用VAE 的Encoder 先将原图像压缩为4×64×64型式的隐空间数组(array),然后才展开上述的扩散、生成过程。换句话说,整个扩散过程都是在隐空间里进行的。
3 认识噪音(Noise)
刚才提到了,我们将随机噪音添加到原图像里,成为含噪音图像(noisyimage)。然后把它输入给UNet 模型,让它预测出此图像所含的噪音。在SD里,使用数学运算,根据时间步数(time step) 来决定将多少噪音量添加到原图像里( 图5)。
图5
来源(https://jalammar.github.io/illustrated-stable-diffusion/)
图4 里的step-1 是: 准备1 张原图像, 并使用VAE的Encoder将原图压缩为4x64x64 型式的数组。接着,step-2 是:产生1 张也是4x64x64 型式的随机噪音数组;step-3 是:选取1 个随机整数( 如图里的0~3),即是时间步数(time step),并由此整数( 即时间步数)来决定欲添加的噪音量;step-4 是:将所决定的噪音量实际添加到原图像的压缩数组里,就成为含有噪音的图像了。
4 训练UNet模型
4.1 输入1张训练图像
刚才提到:我们会根据时间步数(time step) 来计算出多少噪音量将添加到原图像里。也就是,我们掌握了两项数据:含噪音的图像(noisy image) 数组;时间步数(time step)。我们就把这两项数据输入给UNet 模型,来训练它,让它学习预测所添加的噪音,所以它输出是:预测噪音(predicted noise)。在训练过程中,希望它输出的预测噪音愈接近所添加的噪音就愈好,也就是预测误差值(loss) 愈小愈好( 图6)。
图6
(来源:https://medium.com/@steinsfu/diffusion-model-clearlyexplained-cd331bd41166)
4.2 训练很多回合
在实际训练UNet模型时,把全部图像的压缩数组都输入给UNet,让它学习一遍,通称为:训练1 回合(epoch)。在每一回合里,都会为每一张图像搭配1 个随机整数( 即时间步数) 值。并根据时间步数值来计算出噪音量,于是得到两项数据:含噪音的图像数组和时间步数。然后,把这两项数据输入给UNet 模型,来训练它,让它学习预测噪音( 图7)。
图7
(来源:https://medium.com/@steinsfu/diffusion-model-clearlyexplained-cd331bd41166)
上述SD 的UNet 训练方法比较特殊之处是:这UNet的功能是输出是噪音,而不是去除噪音。
5 结束语
本期说明了SD 隐空间里UNet 模型的角色及其训练步流程的起步。下一期,将继续介绍及欣赏SD 隐空间的架构之美,也领会AIGC 生成艺术的源点。
(本文来源于《电子产品世界》杂志2023年8月期)