给想玩AIGC的小白：教你从0搭一个图文视频生成网站（附插件&源码）

StableDiffusion的发布是AI图像生成发展过程中的一个里程碑，相当于给大众提供了一个可用的高性能模型，让「AI文本图片生成」变成普通人也能玩转的技术。最近一些网友将网上的真人图片不断喂给模型，让其自主学习，训练出来的效果已经可以做到以假乱真——你甚至不知道哪些图片是AI 生成的还是真人拍出来的。你感兴趣吗？今天这篇文章从零开始，手把手教你如何搭建自己的真人 AI 网站。1. 搭建你自己

Android-海绵

1020人浏览 · 2025-03-25 10:40:20

Android-海绵 · 2025-03-25 10:40:20 发布

Stable
Diffusion的发布是AI图像生成发展过程中的一个里程碑，相当于给大众提供了一个可用的高性能模型，让「AI
文本图片生成」变成普通人也能玩转的技术。最近一些网友将网上的真人图片不断喂给模型，让其自主学习，训练出来的效果已经可以做到以假乱真——你甚至不知道哪些图片是
AI 生成的还是真人拍出来的。你感兴趣吗？今天这篇文章从零开始，手把手教你如何搭建自己的真人 AI 网站。强烈建议收藏（不管是否吃灰）。

👉看目录，点收藏

1. 搭建你自己的 AI 网站

2. 模型下载

汉化插件下载

4. 生成你的真人图片

4.1 生成真人图片

4.2 不同风格图片生成

4.3 动画视频生成

5. 让你生成的图片开口说话

01、搭建你自己的AI网站

本篇我们将单刀直入教各位最快搭建出一个质量不错的 AI 网站，如果各位想了解相关的原理、技术点，可以留言告诉我们。下文会提及的模型、插件和源码
，我们也一并提前为各位整理～大家看到文末添加一下，即可领取。

第一步，我们可以直接使用
GitHub 仓库：

stable-diffusion-webui。

首先，在电脑上安装 python 3.10.6，如果已经安装了其他 python 版本，可以利用 conda 安装多一个 3.10 的虚拟环境版本：

conda create -n novelai python==3.10.6

接下来下载该仓库的代码：

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui

  * 1
  * 2

再安装对应的 GPU 版本的 Pytorch，直接进入网站：

pytorch.org/get-
started…

进入刚刚创建的虚拟环境”novelai“：

执行刚刚的命令：

./python -m pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116

  * 1
  * 2

安装成功后，可以测试自己的 pytorch 版本是否可以跑通。

进入刚刚下载的 Github 仓库的代码文件夹，安装第三方依赖：

python -m pip install -r requirements.txt

  * 1
  * 2

02、模型下载

有了网站之后，就需要下载对应的 AI 模型进行有效生成。一些网友已经利用网上大量的图片训练好的模型，并分享到网站上。我们举个例子：

civitai.com/

这个大名鼎鼎的网站被人们称为「C 站」，里面有很多你意想不到的模型。

可以在这个网站上找到很多已经训练好的模型。例如找一个生成真人图片的模型：ChilloutMix。从网页上下载对应的模型后，把该模型放到工程目录：models/Stable-
diffusion。

03、汉化插件下载

stable-diffusion-webui 这个项目还支持下载第三方插件。例如我们可以下载对应的汉化插件。其下载地址如下：
文末领取！

登陆上面网站后，就可以下载插件的安装包：

然后将文件解压放到 extensions 目录下：

接着，就需要对网页进行重启服务：

在扩展这里，把插件勾上：

在“设置”选项里，找到 zh_CN，最后需要重新启动网页，就可以生效了：

04、生成你的真人图片

启动主程序"launch.py"，等待一定的时间出现网页地址就可以了。

打开网址时，有时候可能模型没有更新。因此可以尝试一下多次重启。需要选择刚刚下载的模型：ChilloutMix。

这样就已经完成前期的部署工作了。接下来详细教大家怎么生成自己想要的图片。

4.1 生成真人图片

在c站上，已经有很多大神利用 promt 生成图片了，因此我们就可以对这些进行参考。例如找一个好看的图片，对下面的 Prompt 词语进行复制：

其中 Prompt 词语放在提示词框内，消极 Prompt 词语放在对应的方框内。同时调整对应的参数，最后就可以生成真人图片：

4.2 不同风格图片生成

在 C 站上，还有很多 Lora 模型可以进行下载。这是一种可以帮助你调整画风的小模型。主要是放到 Prompt 中进行使用。例如我们可以在网站上下载原神的
Lora 模型：

‍下载完成后，把模型放到 models/Lora 路径下：

按照图片下的步骤，选中模型后，会看到具体的 Prompt 在方框内了：

把步骤 4.1 中的 Prompt 词语加入到这里，就可以生成一个原神风格的图片：

4.3 动画视频生成

首先需要安装插件 “deforum” 这个插件能够根据多个生成的图片构造成视频动画。

在当前 stable-diffusion 目录下，执行下面命令，就会发现 extensions 多了新的插件：

git clone https://github.com/deforum-art/deforum-for-automatic1111-webui extensions/deforum

  * 1
  * 2

同时重启新的网页，会发现多了 deforum 这个选项：

可以先执行简单的生成，在提示词上，已经默认填写了语句：

{  
    "0": "tiny cute swamp bunny, highly detailed, intricate, ultra hd, sharp photo, crepuscular rays, in focus, by tomasz alen kopera",  
    "30": "anthropomorphic clean cat, surrounded by fractals, epic angle and pose, symmetrical, 3d, depth of field, ruan jia and fenghua zhong",  
    "60": "a beautiful coconut --neg photo, realistic",  
    "90": "a beautiful durian, trending on Artstation"  
}

Prompt 词语模板解释如下：

//Abstracted Example  
{  
    "0": "Prompt A --neg NegPompt"  
    "12": "Prompt B"   
}

其中“0”和“12”提示在插值中解析的关键帧。Prompt A 和 B 是肯定提示，NegPrompt 是否定提示。当然，也可以直接用上面 C
站下载下来的模型，生成真人动画。

05、让你生成的图片开口说话

从上面我们已经得到了生成的图片。那么就可以利用这张图片，创建自己的 AI 说话视频。登陆这个网址：

studio.d-id.com/

选择刚刚生成的图片，然后输入自己想要说的话，之后生成就可以了：

最后就可以得到比较逼真的真人 AI 说话视频了。

有了这个技术，就可以批量制作二次元甚至是真人说话视频。这对于 AICG 这个行业是一个颠覆性的技术，相信未来这个技术在多个领域上都能够推广开来。

这里直接将该软件分享出来给大家吧~

1.stable diffusion安装包

随着技术的迭代，目前 Stable Diffusion 已经能够生成非常艺术化的图片了，完全有赶超人类的架势，已经有不少工作被这类服务替代，比如制作一个 logo 图片，画一张虚拟老婆照片，画质堪比相机。

最新 Stable Diffusion 除了有win多个版本，就算说底端的显卡也能玩了哦！此外还带来了Mac版本，仅支持macOS 12.3或更高版本。

在这里插入图片描述

2.stable diffusion视频合集

我们在学习的时候，往往书籍源码难以理解，阅读困难，这时候视频教程教程是就很适合了，生动形象加上案例实战，一步步带你入坑stable diffusion，科学有趣才能更方便的学习下去。

在这里插入图片描述

3.stable diffusion模型下载

stable diffusion往往一开始使用时图片等无法达到理想的生成效果，这时则需要通过使用大量训练数据，调整模型的超参数（如学习率、训练轮数、模型大小等），可以使得模型更好地适应数据集，并生成更加真实、准确、高质量的图像。

在这里插入图片描述

4.stable diffusion提示词

提示词是构建由文本到图像模型解释和理解的单词的过程。可以把它理解为你告诉 AI 模型要画什么而需要说的语言，整个SD学习过程中都离不开这本提示词手册。

在这里插入图片描述

5.SD从0到落地实战演练

在这里插入图片描述

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名SD大神的正确特征了。

这份完整版的stable diffusion资料我已经打包好，需要的点击下方插件，即可前往免费领取！

请添加图片描述

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完