【AI前沿】又整活了！三条AI前沿技术WaveSpeed、TransPixar、Gemini-Search

真是一日不见如过三秋！这几天 AI 界又出了几个较为重磅的消息。

小陈乱敲代码

1602人浏览 · 2025-01-21 10:52:20

小陈乱敲代码 · 2025-01-21 10:52:20 发布

前言

真是一日不见如过三秋！这几天 AI 界又出了几个较为重磅的消息。

FLUX 加速技术 WaveSpeed，支持 ComfyUI，实测速度感人！
Adobe 发布和开源了TransPixar 可以生成透明背景视频素材
开源的 Gemini-Search，效果媲美官方的Google Research

作为实践和行动派的小编，跟大家同步这些信息的同时，也会帮大家实测一下，看是不是有其宣传的功效😎。

FLUX 加速技术 WaveSpeed

项目地址：
请添加图片描述

技术原理

具体的技术原理，大家可以到项目中看看。

我尝试整理资料，通俗解释一下，不一定准确哈~😂。

❝

一种让AI模型跑得更快的新技术，主要针对一类叫做“DiT模型”的AI，这种模型常用于生成图像和视频。想象一下，你在厨房里准备一道复杂的菜，这篇文章就像是教你如何更高效地完成它。「核心思想：让多个“厨师”一起做菜，并且学会偷懒。」

❞

「1. Context Parallel Attention (上下文并行注意力) - 多人协同做菜：」

「问题：」 传统的AI模型在生成图像或视频时，就像一个厨师按部就班地完成所有步骤，很耗时间。
「解决方法：」 把任务分解成小块，让多个“厨师”（可以理解为多个GPU，也就是电脑的处理器）同时进行。就好比切菜、炒菜、调味等步骤可以同时进行。
「具体做法：」 他们发明了一种叫做 “ParaAttention” 的技术，可以把模型中的关键部分（叫做“注意力层”）拆分，让不同的GPU并行计算。他们还提供了两种不同的拆分方法，叫做 “Ulysses Style” 和 “Ring Style”，可以根据不同的情况选择最快的方式。他们甚至能把这两种方式结合起来，达到更好的效果。
「简化理解：」 就像组建一个厨房团队，每个人负责一部分工作，一起更快地完成菜肴。

「2. First Block Cache (第一个模块缓存) - 聪明地偷懒：」

「问题：」 AI模型在生成图像或视频的过程中，有些计算可能是重复的，浪费时间。
「解决方法：」 他们受到一些“缓存”技巧的启发，发明了一种叫做 “FBCache” 的方法。这个方法会观察模型运行的“第一个步骤”（就像做菜的第一个准备工作），如果发现和上次很像，就直接跳过后面的很多重复步骤，直接使用上次的结果。
「形象比喻：」 就像你已经做了很多次炒鸡蛋了，如果这次发现鸡蛋和上次的差不多，你就可以直接跳过打鸡蛋、放油等步骤，直接用上次的经验。
「可调节的“偷懒”程度：」 你可以设置一个“阈值”，来决定多像的情况下才“偷懒”。阈值越高，偷懒越多，速度越快，但可能稍微影响最终效果。

出了 flux 模型，Huanyuan 也支持加速。

测试

项目作者提供了 ComfyUI 的使用方法，通过插件方式，即可达到加速效果。ComfyUI 插件地址：https://github.com/chengzeyi/Comfy-WaveSpeed

❝

以下数据仅为初测，我就不做更严谨的测试了，各位将就看看

❞

基准：

使用 FP8 FLUX 模型，
在模型都加载到内存开始测试，
步数为 28。
分辨率：1024 x1024
设备：4090
跑三次

提示语：

A  25 year old janese girl with dark long hair, she is wearing a orange tank top and a necklace. She is holding a white paper with the word "SJXZ 00" written on it in black letters. In the dark with dim light,

FLUX 原生：

用时 14.52 、15.73、 17.81，平均 16.02 秒

WaveSpeed 加速

用时 9.53 、9.77、 8.49，平均 9.26 秒！速度提升 「42%」，🤯。而且不同于 LoRA 加速，画质上看，是完全无损的，基本可以确定，这个方法可用！后面就需要多测试一些场景，已经跟其他第三方模型的兼容性了。

第三方模型

测试了一下最新的麦橘模型，质量也是很好的👍。

分辨率 1536 x 768 仅需 9.63 秒，而 2304 x 1152只需要 23.75 秒！

加载 lora 也是可以加速的。

至于 Hunyuan 我就不测试了，各位看官可以看看！

透明背景视频生成 TransPixar

项目介绍

项目地址：https://github.com/wileewang/TransPixar 体验地址：https://huggingface.co/spaces/wileewang/TransPixar

「TransPixar」，它的目标是让现有的文本生成视频的AI模型，也能够生成带有**「透明通道 (alpha channel)」** 的视频。这种带有透明通道的视频格式叫做 「RGBA」。

01.gif

「为什么透明度很重要？」

「视觉特效 (VFX)：」 透明度是电影、游戏等领域制作特效的关键。它可以让不同的视觉元素自然地叠加在一起，比如把爆炸的火焰叠加到背景画面上，或者让一个虚拟的角色看起来像是真实地站在场景中。
「更丰富的创意表达：」 有了透明度，创作者可以制作出更具层次感和想象力的视频内容。

「TransPixar 是怎么做的？」

TransPixar 并没有从零开始创建一个全新的AI模型，而是巧妙地在现有的优秀模型基础上进行改进。你可以把它想象成给一个原本只会画普通画的画家，教他如何画出带有透明效果的图层。

文章中提到了以下几个关键点：

「基于现有模型优化：」 TransPixar 基于一种叫做 「diffusion transformer (DiT)」 的AI模型架构。这意味着它利用了现有模型的优点。
「加入“透明”指令：」 TransPixar 在模型中引入了专门处理**「透明度」**的指令，就像告诉画家“这里需要画成半透明的”。这些指令可以理解为 「alpha-specific tokens」。
「精细微调：」 他们使用了一种叫做 「LoRA-based fine-tuning」 的技术来训练模型，让模型学会如何同时生成正常的彩色画面（RGB）和透明度信息（alpha channel），并且保证两者高度一致。这就像训练画家，让他画出的透明部分恰好对应着画面上的物体，不会出现错位。
「优化“注意力”机制：」 模型在生成视频时，会“注意”到画面中的不同部分。TransPixar 对这种“注意力”机制进行了优化，确保模型在生成透明效果时，能够关注到正确的区域，比如物体的边缘和轮廓。

「TransPixar 的优势：」

「保留原有能力：」 TransPixar 不仅能生成带有透明度的视频，还能像原来的模型一样生成正常的彩色视频。就像教会画家新技能，但不会让他忘记原本的画法。
「透明度和画面高度一致：」 由于是同时生成彩色和透明度信息，TransPixar 生成的视频，其透明部分与画面内容高度匹配，看起来非常自然。
「对少量数据也能有效：」 训练生成透明视频的AI模型需要大量的带有透明度标注的数据，而这类数据并不多。TransPixar 的方法即使在训练数据有限的情况下，也能取得不错的效果。

「实际应用：」

有了 TransPixar 这样的技术，未来我们可以更方便地使用AI生成各种带有精美透明特效的视频，比如：

「制作更酷炫的视觉特效：」 轻松生成带有真实感烟雾、火焰、水花等特效的视频。
「创建互动性更强的虚拟内容：」 比如，在虚拟现实或增强现实场景中，可以生成能够与其他元素自然融合的透明物体。

01.gif

实测效果

提示语：

Gold coins scattered throughout the sky, along with five colored ribbons, shimmering with golden light

至于合成效果嘛，我还没测试，分辨率可能有点低，作为辅助素材，应该是没问题的。

❝

让我惊讶的是，作为闭源大户Adobe 这次很大方地开源了这个技术（当然，背后有中国团队！）！

❞

Gemini-Search 的开源方案

Google Research，是 google 推出的可以联网搜索的 AI应用，

❝

有些网友戏称：在 Google Research面前，Perplexity 就像个玩具！😂

❞

确实，用过他的人都有惊掉下巴的感叹！

无奈，将近 20 美元的订阅费，我是暂时用不起了，所以，今天介绍平替产品：Gemini-Search。项目地址：https://github.com/ammaarreshi/Gemini-Search

本地部署

项目中有详细介绍，这里简单列一下：

克隆存储库：

git clone https://github.com/ammaarreshi/Gemini-Search.git  
cd Gemini-Search

安装依赖项：
```
npm install  
```
.env在根目录中创建文件：
```
GOOGLE_API_KEY=your_api_key_here  
```
启动开发服务器：
```
npm run dev  
```
打开浏览器并导航至：
```
http://localhost:3000  
```

对了，需要付费版的 Gemini API，免费版的不行，因为需要调用搜索接口。

❝

注意：因为使用搜索接口，会产生费用，按照 google 的计费规则，约每次 0.25 刀！

❞

我给出了命题 webgl 的新技术趋势，他会根据命题，进行互联网搜索，然后整理成答案。

另一个命题：# 研究AI生成3D的技术和趋势

同样结合互联网，给出了一些简介！

但是，至于效果是否等同于 Google 的 deep search，我囊中羞涩，就不做对比了，各位可以试试！

好，今天就介绍这些，祝大家周末愉快!！

「更多 AI 辅助设计和设计灵感趋势，请关注公众号（设计小站）：sjxz 00。」

本文转自 https://mp.weixin.qq.com/s/wNVaShZehh4dMaYVa2ZKyw，如有侵权，请联系删除。

写在最后

SD全套资料，包括汉化安装包、常用模型、插件、关键词提示手册、视频教程等都已经打包好了，无偿分享，有需要的小伙伴可以自取。
在这里插入图片描述

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

请添加图片描述

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了，安装就可直接上手！
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述
请添加图片描述

请添加图片描述

若有侵权，请联系删除

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完