BAGEL：王炸！字节开源7B豆包版，对标GPT-4o与Gemini2.0的国内首个统一多模态图像编辑模型

今日文章介绍一款名为的开源统一多模态模型，这是由的最新类似GPT-4O的7B参数的视觉大模型。其功能与 GPT-4o 和 Gemini 2.0 等专有系统类似，凭借原生多模态架构，能够实现实用且有价值的图像生成，输出精确、准确且逼真的图像。模型支持（可用于图等咨询和问答）、等。•：BAGEL 是统一的生成与理解模型，基于大型语言模型预训练，具备推理与对话基础能力。可处理图像和文本输入，并以混合格式

玩转AI大模型

805人浏览 · 2025-05-27 11:51:50

玩转AI大模型 · 2025-05-27 11:51:50 发布

BAGEL简介

今日文章介绍一款名为 BAGEL 的开源统一多模态模型，这是由字节开源的最新类似GPT-4O的7B参数的视觉大模型。其功能与 GPT-4o 和 Gemini 2.0 等专有系统类似，凭借原生多模态架构，能够实现实用且有价值的图像生成，输出精确、准确且逼真的图像。 BAGEL模型支持视觉内容理解（可用于图等咨询和问答）、文生图、图像编辑、风格迁移等。

• 视觉理解：BAGEL 是统一的生成与理解模型，基于大型语言模型预训练，具备推理与对话基础能力。可处理图像和文本输入，并以混合格式输出结果。例如拍照内容咨询，数学计算等推理。

• 文生图：BAGEL 在大规模交错的视频和网页数据上预训练，能够生成高保真、逼真的图像、视频帧或交错的图文内容。交错的数据（恰当对齐后）培养了模型自然的多模态思维链，使其能够在生成视觉输出前进行“思考”。

• 图像编辑：通过在交错的视频片段上预训练，BAGEL 能够自然地学习保留视觉身份和细节，同时捕捉视频中的复杂视觉运动，这使其在图像编辑方面非常有效。继承自视觉 - 语言模型的强大推理能力，让 BAGEL 的智能编辑能力轻松超越基本编辑任务。

• 风格迁移：凭借其对视觉内容和风格的深刻理解，BAGEL 可以轻松地将图像从一种风格转换为另一种风格，甚至可以将其转移到完全不同的世界中，仅需最少的对齐数据。

• 深度思考：BAGEL 引入思考模式，利用其多模态理解能力增强生成和编辑效果。通过推理提示，BAGEL 将简短的描述转化为详细且连贯的输出，确保生成内容具有细腻的背景、准确的细节和逻辑一致性，从而产生更丰富、更精确的结果。

在这里插入图片描述

• 项目主页：https://bagel-ai.org/

• github：https://github.com/bytedance-seed/BAGEL

性能评估：

在这里插入图片描述

BAGEL视觉模型体验

本文使用ComfyUI-BAGEL插件体验。模型文末网盘下载

• ComfyUI-BAGEL：https://github.com/neverbiasu/ComfyUI-BAGEL

• BAGEL-7B-MoT：首次运行自动下载到目录 /ComfyUI/models/bagel/BAGEL-7B-MoT/ 。也可以手动下载，使用git lfs 或 huggingface_hub。

# Clone model using git lfs (recommended)
git lfs install
git clone https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT models/bagel/BAGEL-7B-MoT

# Or use huggingface_hub
pip install huggingface_hub
python -c "from huggingface_hub import snapshot_download; snapshot_download(repo_id='ByteDance-Seed/BAGEL-7B-MoT', local_dir='models/bagel/BAGEL-7B-MoT')"

BAGEL视觉模型ComfyUI体验

BAGEL视觉模型工作流下载：

• RunningHUB-HiDream：BAGEL视觉模型 ：https://www.runninghub.cn/post/1926939449228431361/?inviteCode=kol01-rh059

• LIBLIB下载：https://www.liblib.art/modelinfo/cc4868a335924d12a6080cc6ab96fa10?mine=1&from=personal_page&versionUuid=18ef935f8f2e4e459d3f69af80c2e773

在这里插入图片描述

关于BAGEL推理节点参数：

• cfg_text_scale：控制模型遵循文本提示的强度。1.0 禁用文本引导。典型范围：4.0–8.0。

• cfg_image_scale：控制模型保留输入图像细节的程度。1.0 禁用图像引导。典型范围：1.0–2.0。

• cfg_interval：应用 CFG 的去噪步骤的分数。后期步骤可以跳过 CFG 以减少计算。典型值：[0.4, 1.0]。

• timestep_shift：移去噪步骤的分布。较高的值将更多步骤分配到开始部分（影响布局）；较低的值将更多步骤分配到末尾（改善细节）。

• num_timesteps：总去噪步骤数。典型值：50。

• cfg_renorm_min：CFG-Renorm 的最小值。1.0 禁用重范数。典型值：0。

• cfg_renorm_type：CFG-Renorm 方法： - global：对所有标记和通道进行归一化（T2I 的默认方法）。- channel：对每个标记的通道进行归一化。- text_channel：类似于 channel，但仅适用于文本条件（适用于编辑，可能导致模糊）。

• 如果遇见编辑后图像出现模糊，尝试使用 global CFG-Renorm，减小 cfg_renorm_min 或减小 cfg_scale。

其他注意事项：

• ****BAGEL****在图像编辑时会出现图像模糊，需要修改CFG-Renorm为global；或

cfg_renorm_min 或减小 cfg_scale。

•当前使用的是7B模型满血版本，因此图文质量很不错。但是相对而言，耗时则边长，大约8分钟左右。当前温总还在性能优化中，期待更快速版本，实用性则更强。

• 在线体验-BAGEL：字节豆包开源版本|惊艳一致性和图像编辑：https://www.runninghub.cn/ai-detail/1927034571307778049/?inviteCode=kol01-rh059

• 更多图文和视频ComfyUI工作流参见个人主页：https://www.runninghub.cn/user-center/1890418187312222210?utm_source=kol01-RH059

01.视觉理解-数字方程

To solve the equation \((x + 3)^2 = 4\), we need to take the square root of both sides. Remember that taking the square root of a number gives both a positive and a negative result. So, we have:

\[
x + 3 = \pm 2
\]

Now, we solve for \(x\) in both cases:

1. When \(x + 3 = 2\):
\[
x = 2 - 3 = -1
\]

2. When \(x + 3 = -2\):
\[
x = -2 - 3 = -5
\]

Therefore, the solutions for \(x\) are \(x = -1\) and \(x = -5\).

02.视觉理解-图像反推

The image shows a young woman standing outdoors, dressed in a light blue cardigan over a white blouse with a black bow tie, paired with a light blue pleated skirt. She has long, dark hair and is holding a strand of her hair with both hands. The background is blurred, suggesting a shallow depth of field, and appears to be a park or a tree-lined street with soft, natural lighting.

03.文生图-蒸汽朋克

1 chinese women,A female cosplayer dressed in a steampunk-inspired outfit, featuring a corseted dress with brass gears and intricate metalwork. She has a daring expression with goggles on her head and a steampunk-themed weapon like a mechanical crossbow. The background is an industrial setting with steam pipes, gears, and a vintage airship.

04.图像编辑-1

Can you demonstrate the colors on arm skin?

提示词遵循很强，超越当前开源图像编辑。

<think>
The question_image shows a vibrant eyeshadow palette with a variety of colors, including bright blues, greens, pinks, and neutral tones. The question_text asks for a demonstration of these colors on arm skin, which suggests the user wants to see how the shades translate from the palette to a real-life application.  

To address this, I would consider swatching each color on the arm to showcase their true pigmentation, texture, and finish. The swatches should be arranged in a logical order, perhaps grouping similar shades together (e.g., cool tones, warm tones, neutral tones) for easier comparison. The lighting in the image should be bright and even to ensure the colors are accurately represented. 

The answer_image would likely display the swatches on a person's arm, with each color distinctly separated and clearly visible. The swatches should reflect the same vibrancy and texture as seen in the palette, with the arm serving as a neutral background to emphasize the colors. This approach would fulfill the user's request effectively.
</think>
中文翻译：
<think>
question_image显示了一个充满活力的眼影调色板，有各种颜色，包括明亮的蓝色、绿色、粉红色和中性色调。question_text要求在手臂皮肤上展示这些颜色，这表明用户想要看到色调如何从调色板转换到现实生活中的应用。

为了解决这个问题，我会考虑对手臂上的每种颜色进行取样，以展示它们真实的色素沉着、纹理和光洁度。色板应该按逻辑顺序排列，也许将相似的色调分组在一起（例如，冷色调，暖色调，中性色调），以便于比较。图像中的灯光应该明亮均匀，以确保颜色被准确地表现出来。

answer_image可能会显示一个人手臂上的色板，每种颜色都明显分开，清晰可见。色板应该反映出与调色板中看到的相同的活力和纹理，手臂作为中性背景来强调颜色。这种方法可以有效地满足用户的要求。
< /think>

05.图像编辑-竖起大拇指

Make her gives a thumbs-up

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-yP3Ahg6M-1748317064793)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图文和人物一致性很强，在图像整个编辑中，提示词遵循达到出色效果，仅大拇指变化。模型深度思考如下：

<think>
The user wants the person to give a thumbs-up gesture. To achieve this, the image structure and layout should remain the same, but the hand position needs adjustment. The left hand should be raised to form a thumbs-up, while the right hand remains unchanged. The rest of the image, including clothing and background, should stay consistent.
</think>
中文翻译：
<think>
用户希望对方竖起大拇指。要做到这一点，图像的结构和布局应该保持不变，但手的位置需要调整。左手要竖起大拇指，右手保持不动。图像的其余部分，包括服装和背景，应该保持一致。
< /think>

06.风格迁移-3D PVC

Help me generate a 3D PVC figure based on the image, which is placed in a plastic box.

07.风格迁移-粘土风格

Change to clay style

08.风格迁移-照片墙

Transform the characters in the scene into a 3D chibi style and place them on a Polaroid photo. The photo paper is held by a hand, and the characters in the photo are stepping out of the Polaroid, creating a visual effect of breaking through the two-dimensional photo frame and entering the two-dimensional real space.

如何学习AI大模型？

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
在这里插入图片描述

在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

在这里插入图片描述

👉4.大模型实战项目&项目源码👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战项目来学习。（全套教程文末领取哈）
在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）
在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）
在这里插入图片描述

为什么分享这些资料?

只要你是真心想学AI大模型，我这份资料就可以无偿分享给你学习，我国在这方面的相关人才比较紧缺，大模型行业确实也需要更多的有志之士加入进来，我也真心希望帮助大家学好这门技术，如果日后有什么学习上的问题，欢迎找我交流，有技术上面的问题，我是很愿意去帮助大家的！

这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利： 👉👉CSDN大礼包：《最新AI大模型学习资源包》免费分享 👈👈

（👆👆👆安全链接，放心点击）

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

对近期接触到的直播相关知识进行梳理

M3U8 文件是 HLS (HTTP Live Streaming) 协议的核心组件，它本质上是一个播放列表文件，包含媒体流的结构信息。直播与视频聊天的对比：我觉得直播是通过流媒体技术把现场的图像和声音采集后分发出去，供观众在线围观，可以认为是开放的，一般没有人数限制；而视频聊天是点对点的线上交流，是基于UDP/TCP的实时传输协议实现的。流媒体是通过互联网实时传输音视频内容的技术，用户无需等待完