一句话就能 P 图？谷歌Gemini 2.0 Flash 多模态模型的用法！

而且现在已经有一些更高级的 AI 生成技术，比如 Flux 这样的高质量图像模型，如果把它们和 Gemini 2.0 结合，可能就能实现更自然、更逼真的 AI P 图效果。不管怎么样，这种 “一句话 P 图” 的趋势已经来了，想试试的可以去 Google AI Studio 玩一玩，看看 AI 还能给我们带来多少惊喜！简单来说，你只要用一句话描述想要修改的内容，它就能自动调整图片，完全不需要手动抠

玩AI的小胡子

582人浏览 · 2025-03-26 22:29:03

玩AI的小胡子 · 2025-03-26 22:29:03 发布

最近 AI P 图的玩法越来越夸张了，直接用一句话就能修改图片内容，不用 PS，动动嘴皮子就能完成各种操作。

比如：

• 把黑色头发变成灰白色

• 把白色衬衫变成 T 恤

• 给衣服加上图案

• 在草原中间放一只狮子

• 让天气变冷，看起来更有冬天的氛围

这就是 Google 最新的 Gemini 2.0 Flash，一个可以用自然语言编辑图像的多模态大模型。

今天咱们就来试试看，这玩意儿到底好不好用？

Gemini 2.0 Flash 是什么？

Gemini 2.0 Flash 是 Google 旗下的一款多模态 AI 模型，支持文本、图像等多种输入，能够理解并执行复杂的指令。简单来说，你只要用一句话描述想要修改的内容，它就能自动调整图片，完全不需要手动抠图或者涂抹。

这个功能可以在 Google AI Studio 里体验，只要上传图片，输入修改指令，就能看到 AI 处理后的效果。

怎么玩？

想要试试 Gemini 2.0 Flash 的 P 图能力，你可以按照以下步骤来操作：

进入 Google AI Studio

打开 https://aistudio.google.com/

这个是 Google 官方的 AI 测试平台，能直接调用 Gemini 2.0 Flash 进行图像编辑。

选择合适的模型

在 Google AI Studio 的右侧模型选择栏，记得选择 Image Generation（图像生成），否则 AI 只会给你文字回复，不会修改图片。

上传图片

点击上传，把你想要 P 的图片拖进去，比如你有一张黑色 T 恤的照片，想在上面加个卡通图案。

输入修改指令

在左侧的 Create Prompt（创建提示词）框里输入你的 P 图需求，比如：

在黑色 T 恤上印上米老鼠卡通图案

然后点击运行，AI 就会根据你的描述自动修改图片。

进一步调整

如果不满意，可以继续输入新的指令，比如：

把背景换成海边沙滩

让 T 恤变成红色

你可以无限次调整，直到得到满意的效果。

实测效果如何？

从实际体验来看，Gemini 2.0 Flash 确实能做到用一句话修改图片，但是它的 P 图能力目前还比较基础，主要存在以下几个问题：

1. 贴图效果生硬

AI 生成的图案像是“硬贴”上去的，融合度不够高，细节容易显得假。

2. 光影细节缺失

例如给衣服换颜色，虽然整体色调变了，但不会自动调整阴影和褶皱，看起来不够真实。

3. 生成画质一般

Gemini 2.0 Flash 的图像生成质量暂时还达不到 Midjourney 那种级别，质感稍逊一筹。

未来的 AI P 图趋势

虽然 Gemini 2.0 Flash 目前的 P 图能力还不算完美，但这个技术方向是值得期待的。未来，我们可能真的只需要用一句话，就能对图片甚至视频进行精准修改，连 PS 都省了。

而且现在已经有一些更高级的 AI 生成技术，比如 Flux 这样的高质量图像模型，如果把它们和 Gemini 2.0 结合，可能就能实现更自然、更逼真的 AI P 图效果。

总结

Gemini 2.0 Flash 让 AI P 图变得更加简单，输入一句话就能修改图片，适合快速调整一些基础图像内容。不过目前它的融合效果和画质仍然有待提升，想要更精细的 P 图效果，还是得依赖专业工具。

不管怎么样，这种 “一句话 P 图” 的趋势已经来了，想试试的可以去 Google AI Studio 玩一玩，看看 AI 还能给我们带来多少惊喜！

天启AI社区

GitCode 天启AI是一款由 GitCode 团队打造的智能助手，基于先进的LLM（大语言模型）与多智能体 Agent 技术构建，致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话，还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力，真正做到“一句话，让 Al帮你完成复杂任务”。

更多推荐

AIGC时代API设计范式重构：从数据管道到智能交互层的深度跃迁

天启AI社区

数字人心理咨询：AIGC在心理健康服务的探索

本文旨在全面解析数字人心理咨询的技术原理和应用实践，探讨AIGC如何赋能心理健康服务。我们将覆盖从基础技术到实际应用，再到伦理考量的完整知识链条。文章将从技术基础开始，逐步深入到应用场景和案例分析，最后探讨伦理挑战和未来发展方向。数字人心理咨询：基于人工智能技术构建的虚拟心理咨询师，能够模拟人类咨询师的对话方式和治疗技术。AIGC(人工智能生成内容)：利用AI技术自动生成文本、图像、音频等内容的技

天启AI社区

AIGC内容过滤中的多模态技术应用

随着ChatGPT、DALL·E、Sora等AIGC工具爆发，AI每天生成数十亿条图文、视频内容。但这些内容可能藏着“危险品”：比如AI生成的“儿童不宜”图片配“正常文字描述”，或“无害图片”配“煽动性文字”。传统单模态过滤（只查文字或只查图片）像“漏检的安检机”，多模态技术（同时分析文字+图片+声音）能补上漏洞。本文将覆盖多模态过滤的核心原理、实战方法及未来趋势。从“快递安检”的生活案例切入，拆