1.赛题解读

这是Datawhale AI夏令营第4期AIGC方向的学习,这次的赛题任务是:基于魔搭社区可图Kolors-LoRA风格故事挑战赛开展的实践学习。

赛题内容

  1. 参赛者需在可图Kolors 模型的基础上训练LoRA 模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格......

  2. 基于LoRA模型生成 8 张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性
    样例:偶像少女养成日记

2.AIGC文生图知识介绍

文生图(Text-to-Image Generation)的历史可以追溯到人工智能领域开始尝试使用深度学习技术来生成图像。

早期探索:GAN(生成对抗网络)的提出标志着生成模型的一个重大突破。它由两个神经网络组成:生成器(Generator)和判别器(Discriminator)。生成器的任务是生成看起来真实的图像,而判别器的任务是区分真实图像和生成图像。

发展阶段:随着技术的成熟和进步,出现了更多的GAN的变体,并结合了注意力机制,提高了文本到图像生成的质量。

重要突破:基于Transformer架构的模型,如DALL·E,展示了生成复杂图像的能力,并且可以处理非常具体的指令。DALL·E 2引入了改进的技术,如扩散模型(Diffusion Models),这些模型可以产生更精细和更真实的图像。

当前现状:文生图技术继续快速发展。新的模型和技术不断出现,如Stable Diffusion、Midjourney等,它们不仅提高了图像的质量,还增强了生成图像的多样性。

目前文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。

提示词(Prompt)对于文本到图像生成模型如 Stable Diffusion 至关重要,因为它们指导模型生成什么样的图像。提示词包括正向提示词(Positive Prompts)和反向提示词(Negative Prompts)。

LoRA即Low-Rank Adaptation(低秩适应),这是一种用于微调预训练模型的轻量级方法。

ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。

ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。

3.baseline代码解读

baseline还是比较简单的,我们跟着baseline的思路快速的过一下。

  1. 导入库:首先,代码导入了需要用到的库,包括 data-juicer 和微调的工具 DiffSynth-Studio。DataJuicer 是一个开源的大规模数据清洗框架,旨在帮助研究人员和工程师高效地清洗和优化大规模数据集。DiffSynth-Studio:高效微调训练大模型工具。

  2. 数据集构建:下载数据集kolors,处理数据集。使用Data-Juicer处理数据,整理训练数据文件。

  3. 模型微调:模型微调训练,以及加载训练后的模型。使用DiffSynth-Studio在基础模型上,使用前面整理好的数据文件进行训练微调。

  4. 图片生成:调用训练好的模型用户指定的prompt提示词的图片。

4.小结

修改了一下baseline的提示词,最终生成了如下图片。水墨画风格。图片展示如下:

至此,初级阶段,AIGC文生图的入门就完成了,期待后续进一步精读代码,学会熟练应用。

喜欢的小伙伴,点赞收藏关注吧。

Logo

GitCode AI社区是一款由 GitCode 团队打造的智能助手,AI大模型社区、提供国内外头部大模型及数据集服务。

更多推荐