前言

真是一日不见如过三秋!这几天 AI 界又出了几个较为重磅的消息。

  1. FLUX 加速技术 WaveSpeed,支持 ComfyUI,实测速度感人!

  2. Adobe 发布和开源了TransPixar 可以生成透明背景视频素材

  3. 开源的 Gemini-Search,效果媲美官方的Google Research

作为实践和行动派的小编,跟大家同步这些信息的同时,也会帮大家实测一下,看是不是有其宣传的功效😎。

FLUX 加速技术 WaveSpeed

项目地址:
请添加图片描述

技术原理

具体的技术原理,大家可以到项目中看看。

我尝试整理资料,通俗解释一下,不一定准确哈~😂。

一种让AI模型跑得更快的新技术,主要针对一类叫做“DiT模型”的AI,这种模型常用于生成图像和视频。想象一下,你在厨房里准备一道复杂的菜,这篇文章就像是教你如何更高效地完成它。「核心思想:让多个“厨师”一起做菜,并且学会偷懒。」

「1. Context Parallel Attention (上下文并行注意力) - 多人协同做菜:」

  • 「问题:」 传统的AI模型在生成图像或视频时,就像一个厨师按部就班地完成所有步骤,很耗时间。

  • 「解决方法:」 把任务分解成小块,让多个“厨师”(可以理解为多个GPU,也就是电脑的处理器)同时进行。就好比切菜、炒菜、调味等步骤可以同时进行。

  • 「具体做法:」 他们发明了一种叫做 “ParaAttention” 的技术,可以把模型中的关键部分(叫做“注意力层”)拆分,让不同的GPU并行计算。他们还提供了两种不同的拆分方法,叫做 “Ulysses Style” 和 “Ring Style”,可以根据不同的情况选择最快的方式。他们甚至能把这两种方式结合起来,达到更好的效果。

  • 「简化理解:」 就像组建一个厨房团队,每个人负责一部分工作,一起更快地完成菜肴。

「2. First Block Cache (第一个模块缓存) - 聪明地偷懒:」

  • 「问题:」 AI模型在生成图像或视频的过程中,有些计算可能是重复的,浪费时间。

  • 「解决方法:」 他们受到一些“缓存”技巧的启发,发明了一种叫做 “FBCache” 的方法。这个方法会观察模型运行的“第一个步骤”(就像做菜的第一个准备工作),如果发现和上次很像,就直接跳过后面的很多重复步骤,直接使用上次的结果。

  • 「形象比喻:」 就像你已经做了很多次炒鸡蛋了,如果这次发现鸡蛋和上次的差不多,你就可以直接跳过打鸡蛋、放油等步骤,直接用上次的经验。

  • 「可调节的“偷懒”程度:」 你可以设置一个“阈值”,来决定多像的情况下才“偷懒”。阈值越高,偷懒越多,速度越快,但可能稍微影响最终效果。

出了 flux 模型,Huanyuan 也支持加速。

测试

项目作者提供了 ComfyUI 的使用方法,通过插件方式,即可达到加速效果。ComfyUI 插件地址:https://github.com/chengzeyi/Comfy-WaveSpeed

以下数据仅为初测,我就不做更严谨的测试了,各位将就看看

基准:

  1. 使用 FP8 FLUX 模型,

  2. 在模型都加载到内存开始测试,

  3. 步数为 28。

  4. 分辨率:1024 x1024

  5. 设备:4090

  6. 跑三次

提示语:

A  25 year old janese girl with dark long hair, she is wearing a orange tank top and a necklace. She is holding a white paper with the word "SJXZ 00" written on it in black letters. In the dark with dim light,  

FLUX 原生:

用时 14.52 、15.73、 17.81,平均 16.02

WaveSpeed 加速

用时 9.53 、9.77、 8.49,平均 9.26 秒!速度提升 「42%」,🤯。而且不同于 LoRA 加速,画质上看,是完全无损的,基本可以确定,这个方法可用!后面就需要多测试一些场景,已经跟其他第三方模型的兼容性了。

第三方模型

测试了一下最新的麦橘模型,质量也是很好的👍。

分辨率 1536 x 768 仅需 9.63 秒,而 2304 x 1152只需要 23.75 秒!

加载 lora 也是可以加速的。

至于 Hunyuan 我就不测试了,各位看官可以看看!

透明背景视频生成 TransPixar

项目介绍

项目地址:https://github.com/wileewang/TransPixar 体验地址:https://huggingface.co/spaces/wileewang/TransPixar

「TransPixar」,它的目标是让现有的文本生成视频的AI模型,也能够生成带有**「透明通道 (alpha channel)」** 的视频。这种带有透明通道的视频格式叫做 「RGBA」

01.gif

「为什么透明度很重要?」

  • 「视觉特效 (VFX):」 透明度是电影、游戏等领域制作特效的关键。它可以让不同的视觉元素自然地叠加在一起,比如把爆炸的火焰叠加到背景画面上,或者让一个虚拟的角色看起来像是真实地站在场景中。

  • 「更丰富的创意表达:」 有了透明度,创作者可以制作出更具层次感和想象力的视频内容。

「TransPixar 是怎么做的?」

TransPixar 并没有从零开始创建一个全新的AI模型,而是巧妙地在现有的优秀模型基础上进行改进。你可以把它想象成给一个原本只会画普通画的画家,教他如何画出带有透明效果的图层。

文章中提到了以下几个关键点:

  • 「基于现有模型优化:」 TransPixar 基于一种叫做 「diffusion transformer (DiT)」 的AI模型架构。这意味着它利用了现有模型的优点。

  • 「加入“透明”指令:」 TransPixar 在模型中引入了专门处理**「透明度」**的指令,就像告诉画家“这里需要画成半透明的”。这些指令可以理解为 「alpha-specific tokens」

  • 「精细微调:」 他们使用了一种叫做 「LoRA-based fine-tuning」 的技术来训练模型,让模型学会如何同时生成正常的彩色画面(RGB)和透明度信息(alpha channel),并且保证两者高度一致。这就像训练画家,让他画出的透明部分恰好对应着画面上的物体,不会出现错位。

  • 「优化“注意力”机制:」 模型在生成视频时,会“注意”到画面中的不同部分。TransPixar 对这种“注意力”机制进行了优化,确保模型在生成透明效果时,能够关注到正确的区域,比如物体的边缘和轮廓。

「TransPixar 的优势:」

  • 「保留原有能力:」 TransPixar 不仅能生成带有透明度的视频,还能像原来的模型一样生成正常的彩色视频。就像教会画家新技能,但不会让他忘记原本的画法。

  • 「透明度和画面高度一致:」 由于是同时生成彩色和透明度信息,TransPixar 生成的视频,其透明部分与画面内容高度匹配,看起来非常自然。

  • 「对少量数据也能有效:」 训练生成透明视频的AI模型需要大量的带有透明度标注的数据,而这类数据并不多。TransPixar 的方法即使在训练数据有限的情况下,也能取得不错的效果。

「实际应用:」

有了 TransPixar 这样的技术,未来我们可以更方便地使用AI生成各种带有精美透明特效的视频,比如:

  • 「制作更酷炫的视觉特效:」 轻松生成带有真实感烟雾、火焰、水花等特效的视频。

  • 「创建互动性更强的虚拟内容:」 比如,在虚拟现实或增强现实场景中,可以生成能够与其他元素自然融合的透明物体。

01.gif

实测效果

提示语:

Gold coins scattered throughout the sky, along with five colored ribbons, shimmering with golden light  

至于合成效果嘛,我还没测试,分辨率可能有点低,作为辅助素材,应该是没问题的。

让我惊讶的是,作为闭源大户Adobe 这次很大方地开源了这个技术(当然,背后有中国团队!)!

Gemini-Search 的开源方案

Google Research,是 google 推出的可以联网搜索的 AI应用,

有些网友戏称:在 Google Research面前,Perplexity 就像个玩具!😂

确实,用过他的人都有惊掉下巴的感叹!

无奈,将近 20 美元的订阅费,我是暂时用不起了,所以,今天介绍平替产品:Gemini-Search。项目地址:https://github.com/ammaarreshi/Gemini-Search

本地部署

项目中有详细介绍,这里简单列一下:

  1. 克隆存储库:

    git clone https://github.com/ammaarreshi/Gemini-Search.git  
    cd Gemini-Search  
    
    
  2. 安装依赖项:

    npm install  
    
    
  3. .env在根目录中创建文件:

    GOOGLE_API_KEY=your_api_key_here  
    
    
  4. 启动开发服务器:

    npm run dev  
    
    
  5. 打开浏览器并导航至:

    http://localhost:3000  
    
    

对了,需要付费版的 Gemini API,免费版的不行,因为需要调用搜索接口。

注意:因为使用搜索接口,会产生费用,按照 google 的计费规则,约每次 0.25 刀!

我给出了命题 webgl 的新技术趋势,他会根据命题,进行互联网搜索,然后整理成答案。

另一个命题:# 研究AI生成3D的技术和趋势

同样结合互联网,给出了一些简介!

但是,至于效果是否等同于 Google 的 deep search,我囊中羞涩,就不做对比了,各位可以试试!

好,今天就介绍这些,祝大家周末愉快!!

「更多 AI 辅助设计和设计灵感趋势,请关注公众号(设计小站):sjxz 00。」

本文转自 https://mp.weixin.qq.com/s/wNVaShZehh4dMaYVa2ZKyw,如有侵权,请联系删除。

写在最后

SD全套资料,包括汉化安装包、常用模型、插件、关键词提示手册、视频教程等都已经打包好了,无偿分享,有需要的小伙伴可以自取。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。

请添加图片描述

AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。

在这里插入图片描述

一、AIGC所有方向的学习路线

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
请添加图片描述

请添加图片描述

若有侵权,请联系删除

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐