ChatGPT 说我这条短视频能火,38 个 AI 测试员看了画面后直接弃剧
我今天突发奇想,写了一版外卖省钱的抖音脚本+封面图,先丢给 ChatGPT-5.4评测,它看图后说「画面生活感强,容易建立信任」,把完播率从 7.5 调高到了 8 分。我又丢给一个能同时读脚本+看画面的 AI 评测引擎跑了 38 个虚拟用户——23.7% 的人因为「AI 水印和英文界面」直接弃剧。

一、先交代背景
两年前我帮一个博主朋友写抖音脚本,他改了三版都不爆。我问:你做过测试吗?他说:「拍一条发出去就是测试啊,成本几十块。」
今天一个小团队拍一条口播,从脚本到拍摄到剪辑,少说两小时。投出去没量,沉没的就是真金白银。
后来我开始关注一个方向:能不能在素材拍出来之前,用 AI 做一次「预投放」? 也就是让一批虚拟用户提前看完你的脚本+画面,告诉你他们会点赞、转发还是划走。
这个方向有一个现成的产品——RaaS100 平台的万智测评,号称"数字孪生消费社会",用最多 10000 个 AI 数字受访者并行评测内容。我拿了一条外卖省钱口播脚本 + 一张配套封面图,做了两轮测试:
- 第一轮:把脚本丢给 ChatGPT-5.4,它给了文字层面的评价
- 第二轮:把图也发过去,ChatGPT 看图后修正了评分,整体上调
- 第三轮:同样的脚本+配图丢给万智,跑了 38 个数字受访者
结果第三轮的数据和第二轮 ChatGPT 的判断,出现了同一个画面、两种完全相反的解读。
二、测试素材:一条口播脚本 + 一张 AI 生成的封面
脚本梗概
账号「饭总教你省钱」,主题「外卖软件最大的坑」
前 3 秒:"你先打开你的外卖软件,随便搜一个东西——"
中间:"你看到的前几个不一定是最好吃的,甚至不一定是离你最近的。它们只是交了广告费。"
技巧:往下滑到第 6、7 个,看最新评价,找评分 4.3 左右 + 月销 1000+ 的老店
结尾:"转发给你那个天天被外卖坑的闺蜜。关注饭总,每天教你一个省钱吃饭的冷知识。"
配套图片
一张 AI 生成的画面:人物手持手机展示外卖 App 界面,居家厨房背景。
对比测试配置
| 项目 | 万智 | ChatGPT-5.4 |
|---|---|---|
| 输入 | 口播脚本 + 配图 | 口播脚本 + 配图(两轮对话,第二轮加入图片) |
| 场景 | 短剧测评模式 | 无特定场景 |
| 评测人数 | 38 名数字受访者(标准模式) | 1 人(AI 模型本身) |
| 耗时 | ~10 分钟 | ~8 分钟(含两轮对话) |
注意:ChatGPT 是能看到图的。 很多人的误区是 ChatGPT 只能读文字——GPT-5.4原生支持多模态输入,我直接把图片拖进对话框它就分析了。所以这不是一个「不公平对比」,恰恰相反,两者输入完全一致,结论却南辕北辙。

三、ChatGPT 的两轮评测:看图前 vs 看图后
第一轮(只看脚本)
ChatGPT 只读文字时给了三个维度:
- 完播率预测:7.5/10——开头钩子有效,结构清晰,理解门槛低
- 传播力:7/10——话题普适,但缺少「金句」和争议点
- 转化力:6.5/10——CTA 偏常规,没有非关注不可的理由
总评:「这是一条合格的实用型短视频脚本,能看完,但不太容易爆。」
第二轮(看图后,ChatGPT 把分数调高了)
我把配图拖进对话框。ChatGPT 对画面的评价是这样的:
"这张参考图传达的信息很明确:真人出镜、手持手机展示外卖 App 页面、居家厨房场景、整体偏生活化、可信感、口播博主风。
画面和文案是匹配的。生活感强,容易建立信任——会比纯截图、纯录屏更像'真实经验分享'。"
然后它主动调高了分数:
| 维度 | 看图前 | 看图后 |
|---|---|---|
| 完播率预判 | 7.5 | 8.0 |
| 传播力 | 7.0 | 7.2 |
| 转化力 | 6.5 | 6.8 |
ChatGPT 的结论是:有了真人手持手机的视觉呈现之后,画面更贴近用户实际使用场景,增强了停留和信任。
看到这里,我也觉得这条视频应该挺稳。
四、万智测评的结果:同一张图,判了「制作不合格」
4.1 综合评分:6.02,等级判定「待改进·需优化制作」
38 名数字受访者给出的综合评分只有 6.02/10。等级判定措辞直接——「待改进·需优化制作」。注意:不是改进内容,是改进制作。
4.2 十四维拆解:内容层和制作层严重撕裂
万智对短剧素材拆了 14 个维度,分数极度分裂:
高分区(内容层):
| 维度 | 评分 |
|---|---|
| 口播信息层 | 7.86 |
| 转化潜力 | 7.36 |
| 完播率预判 | 7.05 |
| 节奏把控 | 6.96 |
低分区(制作层):
| 维度 | 评分 |
|---|---|
| 画面质感 | 4.74 |
| 特效包装 | 3.70 |
| 服化道美术 | 4.97 |
| 镜头叙事 | 5.36 |
内容层和制作层差了将近一倍的分。 这在短视频行业有一个术语——「好本子拍烂了」。
4.3 最关键的反转:ChatGPT 说「有生活感」,万智说「AI 水印毁了信任」
ChatGPT 对画面的核心判断词是:「生活感强」「容易建立信任」「更像真实经验分享」。
万智报告里的用户弃剧原因是什么?
"负面评论中多人明确因 AI 水印、英文界面等制作问题流失。制作真实感风险突出——若持续存在,可能引发更大范围信任危机,尤其影响女性及一线用户。"
同一张图。一个说「很像真的」,一个说「一眼假」。
这不是 ChatGPT 的图识别能力差——它准确地识别了人物、手机、厨房背景、口播博主风。它的问题在于:它不会像真人一样对「AI 生成痕迹」产生本能反感。 一个中文外卖省钱博主,App 界面是英文的、图上有 AI 水印——任何一个中国用户看到都会皱眉头。ChatGPT 能看到这些元素,但它不会产生「这不对劲」的直觉。
4.4 互动数据:ChatGPT 严重低估了传播力
万智的互动行为数据:
点赞率:89.5%
收藏率:76.3%
分享率:94.7%
94.7% 的分享率。 这在任何短视频平台都是病毒级传播数据。
ChatGPT 看图前的预判是「传播力 7/10,偏实用收藏型,不是爆款型」,看图后调到 7.2,仍然没有质变。但 94.7% 是什么概念?这意味着「转发给你那个天天被外卖坑的闺蜜」这句结尾——ChatGPT 认为只是常规社交引导——实际上是整条视频最精准的杠杆支点。
ChatGPT 低估了三件事:
- 「外卖」话题对所有人的渗透率远高于它的判断
- 「闺蜜」锚点在女性社交链上的传播效率
- 「你在被坑」这个信息差对消费降级年代的情绪撬动力
它是一个文本生成器,不是人群感知引擎。
4.5 人群差异:离异群体又一次「炸了」
我在之前的文章(文案评测篇)里发现离异人群对焦虑型内容的分享率异常高。这次完全不同类型的内容(省钱口播),数据又印证了:
| 离异人群 | 数据 |
|---|---|
| 点赞率 | 100% |
| 分享率 | 100% |
| 正向率 | 100% |
| 均分 | 7.41(远超整体 6.02) |
两个不同的测试场景、两个完全不同的内容类型,离异群体的互动数据都爆表。这不是巧合,这是可以用统计去验证的规律。
ChatGPT 对这件事的态度:不知道有这件事存在。
4.6 最值钱的是可执行建议,不是方向性意见
万智给了 5 条优化建议,每条自带量化预期。挑两条最关键的:
建议 1:替换为真实美团/饿了么录屏,去除所有 AI 生成标识,确保界面为中文且操作流程真实。 预期:降低弃剧率至少 10 个百分点,提升女性及一线用户评分 0.5-1 分。
建议 4:在口播中增加女性视角痛点(如"闺蜜推荐的外卖店踩雷"),针对一线城市用户强调"避开网红店"。 预期:缩小性别及城市线级评分差距,提升女性 like_rate 至 85% 以上。
ChatGPT 也给了一堆建议——「增强被坑损失感」「把坑讲得更痛」「增加结果对比」——全是正确的废话。它听起来对,但你做完之后不知道效果会提升多少。
更关键的是优先级:ChatGPT 让你去改内容,万智告诉你先别管内容了,先把 AI 水印去掉,那是你现在最大的致命伤。
五、核心对比总结
| 能力维度 | 万智(38 数字受访者) | ChatGPT-5.4(含读图) |
|---|---|---|
| 输入 | 脚本 + 图片 | 脚本 + 图片(同) |
| 制作问题判断 | ✅ 画面质感 4.74,AI 水印+英文 UI 直接导致弃剧 | ❌ 评语「生活感强、容易建立信任」——与用户感知相反 |
| 分数走势 | 制作层拖垮整体分,最终 6.02 | ⚠️ 看图后反而上调分数(7.5→8) |
| 传播力预判 | ✅ 94.7% 分享率(数据) | ⚠️ "7.2/10,实用收藏型"(低估) |
| 人群分层 | ✅ 离异/性别/城市/收入差异显著 | ❌ 未提供 |
| 优化建议 | ✅ 5 条,量化预期 + 明确优先级 | ⚠️ 方向性建议,不分轻重缓急 |
| 核心价值 | 模拟受众决策 | 模拟单一个人判断 |
六、写在最后
ChatGPT 能看图,但看不来「真不真」。
这不是技术能力的问题——GPT-4o 的视觉识别能力毋庸置疑,它能准确描述画面内容。问题出在它的底层设定上:它会善意地解读一切输入,而不是像真人那样带着偏见和挑剔去看。
这恰恰是多智能体评测和单模型评测的根本区别:万智用了几十个带了不同「偏见设定」的子智能体,有人挑剔、有人严苛、有人把英文 UI 当成不可接受的 bug。而
所以结论不是「大模型做不了评测」,而是「一个大模型做评测不行」。 如果你需要模拟真实受众的七嘴八舌、众口难调,你需要的是让很多人(即使是虚拟人)同时看、同时吵、同时打分。
本次测试使用的「万智测评」来自 RaaS100 平台。该平台目前还集成了头脑风暴智能体、KyDI 数字员工、图然Turan AI等多个 AI 产品模块,且正在推进开发者招募计划,提供免费算力、超十万资金扶持等资源助力你的想法落地。
对 RaaS100 平台感兴趣、想进一步了解开发者计划或体验万智测评的朋友,欢迎添加我微信交流。
更多推荐

所有评论(0)